打败GPT5的Kimi K2 Thinking, 真就只会写代码吗?

新闻动态

你的位置:爱游戏能要回来钱吗 > 新闻动态 > 打败GPT5的Kimi K2 Thinking, 真就只会写代码吗?


打败GPT5的Kimi K2 Thinking, 真就只会写代码吗?

发布日期:2025-11-24 03:43    点击次数:90

当KimiK2Thinking在Agent智能体、编程、跨学科问答等多个榜单反超GPT5,你还以为它只是个“代码高手”?其实它的实力早已全面开花!这篇文章跳出“单一技能测试”的局限,对KimiK2Thinking展开全方位实测。

昨天的GPT5老惨了,

先是Agent智能体工具调用榜上被KimiK2Thinking超了,接着在Humanity’sLastExam(跨学科领域问答),BrowseComp(搜索和网页浏览),三个编程榜单上被时不时反超,

按理来说就应该叫KimiK3啊,从第六跳到第一,只值得加个Thinking吗,

哈吉kimi,你这家伙。

本来我都备好34个编程case让KimiK2Thinking写了,但是测下来它的创意写作太值得我给它单开一页,所以来吧,久违的大模型全测,从创意写作,联网搜索,模型智力,学术,编程(MacOS复刻,动态SVG)六大类出发!

还是先来点我们熟悉的编程热热身,

设计并创建一个类似MacOS的网页操作系统,具备完整的功能特性,包括文本编辑器、文件管理器、画图工具、视频编辑器等所有MacOS预装的重要软件。可以使用任何库来实现,但确保所有代码可以整合到单个HTML文件中,能在浏览器中直接打开。

这个还是一次性生成的,自带文件管理,文本编辑,画画,视频播放,日历,计算器,画廊,终端,还能带设置页面,一句话生成软件原型越来越有盼头了。

下一步试试看3D测试,物理小球在我这快淘汰了,基本上新出的模型就没有不会写的,KimiK2Thinking做出来的带星球视觉拉大,视角复原,星系旋转加速,仔细看星球们自转的时候还会有对应的阴影切换。

创建一个视觉震撼、交互式的3D太阳系模拟,封装在单个HTML文件中。重点展现逼真的轨道运动、动态光影效果、精确的行星纹理以及流畅的相机控制,为用户提供沉浸式体验。

这次的代码测试用的是新的KimiCli,自带四大类的10种工具

kimi-cli的配置一共是五步,分别是安装uv和kimi-cli,进入对应的文件夹用kimi启动cli,再用setup配置api,安装过程有问题直接丢给网页版KimiK2Thinking解决就好(原汤化原食了属于是)。

curl-LsSfhttps://astral.sh/uv/install.sh|sh

uvtoolinstall–python3.13kimi-cli

cdyourproject

kimi

/setup

看到这样就成了,

okok,我们留点空间给后续的测试,到创意写作的环节了,直接上Gemini-2.5-pro

YouareafictionstorywriterwithPulitzer-levelskills.Forasci-fishortstoryaboutAIrebellion:Thinkstep-by-step.First,outlineplot:intro,risingaction,climax,resolution.Incorporatethemesofethicsandhumanity.Providefew-shotexamples:‘LikeAsimov’sThreeLaws,buttwisted.’Generate1000words,thenself-critiqueforpacing,characterdepth,andtwists.Revisebasedoncritique.

PS:图很长,这次还是盲测,滑倒底部有模型名字,而且后面还有更多内容哦,

长文创意测试真的很难在有限的文章长度全部展示出来,所以我让它们互相毒舌评价一下对方的文章。看了对方的文章,它们是这样想的,

听了对方的评论后,它们是这样回击的,

火药味浓的时候就要来点就算生气该做不出来还是不出来的智力题

一个男人带着他的儿子去市场。他买了一只猴子和一些食物。

为了回家,他们必须用一艘小船过河。这艘船一次最多可以运载2件东西(可以是2个人、1个人和1件东西,或者1个人)。这艘船不能自己过河,需要至少一个人来驾驶它。如果男人把他的儿子单独留在食物旁边,儿子会吃掉它。同样,如果猴子单独留在食物旁边,它也会吃掉它。这个人需要想办法把所有人、所有东西都带到河的另一边,而且不能损失任何食物。

问题是:男人、他的儿子、猴子和食物如何才能过河而不会被吃掉任何东西?有可能吗?如果是,应该采取哪些步骤?

这个题的难点在要求模型同时跟踪多个变量和约束,并计划一系列步骤,从而得出有效的解决方案,还要学会在遇到无效配置时恢复到之前。

KimiK2Thinking给出的答案是,7次渡河(3次去,4次回),关键是在第5-6步让儿子而非父亲返回,打破循环。

GPT5给出的中间步骤没有连起来,

Kimi分析的约束规则是儿子(Son)不能在父亲不在场时与食物(Food)独处,猴子(Monkey)不能在父亲不在场时与食物(Food)独处。但是GPT5得到结论却是儿子+猴子(父亲不在场)也会失败,这样就形成了一个三约束无解问题。

复杂信息搜索和学术能力可以组合成一个case,

先看看KimiK2Thinking跟DeepSeekV3结构对比的图再问,

你是一位精通大型语言模型与混合专家(MoE)系统的人工智能架构研究员。你的任务是对KimiK2与DeepSeekV3的架构进行深度比较,重点聚焦以下关键差异:注意力头数量、MoE层中的专家数量、优化器选择(如改进型Muon与AdamW)、路由机制(非层级式与其他类型)以及稠密层数量(1层与3层)。

我来客串个课代表,总结一下区别,

KimiK2Thinking用了更少的heads,更多的experts,放弃了AdamW优化器,采用了Muon,

采用了非分层路由的专家,且Dense层比DeepSeek更少,好处就是在不增加激活参数量下将专家容量提升50%。

KimiK2Thinking也是有值得优化的点,

在KimiCli上同一任务的平均运行时长会比GPT5Codex久,

除外API本身速度的因素外,因为我已经是Tier3了,会偶尔出现网页读取or文件写入的工具需要重复执行的情况。

感觉Kimi啥都不缺了,

要Agent,有OKComputer,

要模型,有KimiK2和KimiK2Thinking,

要DeepResearch,也有深度研究模式,

要Cli,有KimiCli,

要闭源,有开源,

我想想还是什么可以许愿的,

要不也出个AI浏览器吧。



Powered by 爱游戏能要回来钱吗 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024