打败GPT5的Kimi K2 Thinking, 真就只会写代码吗?

发布日期：2025-11-24 03:43 点击次数：90

当KimiK2Thinking在Agent智能体、编程、跨学科问答等多个榜单反超GPT5，你还以为它只是个“代码高手”？其实它的实力早已全面开花！这篇文章跳出“单一技能测试”的局限，对KimiK2Thinking展开全方位实测。

昨天的GPT5老惨了，

先是Agent智能体工具调用榜上被KimiK2Thinking超了，接着在Humanity’sLastExam（跨学科领域问答），BrowseComp（搜索和网页浏览），三个编程榜单上被时不时反超，

按理来说就应该叫KimiK3啊，从第六跳到第一，只值得加个Thinking吗，

哈吉kimi，你这家伙。

本来我都备好34个编程case让KimiK2Thinking写了，但是测下来它的创意写作太值得我给它单开一页，所以来吧，久违的大模型全测，从创意写作，联网搜索，模型智力，学术，编程（MacOS复刻，动态SVG）六大类出发！

还是先来点我们熟悉的编程热热身，

设计并创建一个类似MacOS的网页操作系统，具备完整的功能特性，包括文本编辑器、文件管理器、画图工具、视频编辑器等所有MacOS预装的重要软件。可以使用任何库来实现，但确保所有代码可以整合到单个HTML文件中，能在浏览器中直接打开。

这个还是一次性生成的，自带文件管理，文本编辑，画画，视频播放，日历，计算器，画廊，终端，还能带设置页面，一句话生成软件原型越来越有盼头了。

下一步试试看3D测试，物理小球在我这快淘汰了，基本上新出的模型就没有不会写的，KimiK2Thinking做出来的带星球视觉拉大，视角复原，星系旋转加速，仔细看星球们自转的时候还会有对应的阴影切换。

创建一个视觉震撼、交互式的3D太阳系模拟，封装在单个HTML文件中。重点展现逼真的轨道运动、动态光影效果、精确的行星纹理以及流畅的相机控制，为用户提供沉浸式体验。

这次的代码测试用的是新的KimiCli，自带四大类的10种工具

kimi-cli的配置一共是五步，分别是安装uv和kimi-cli，进入对应的文件夹用kimi启动cli，再用setup配置api，安装过程有问题直接丢给网页版KimiK2Thinking解决就好（原汤化原食了属于是）。

curl-LsSfhttps://astral.sh/uv/install.sh|sh

uvtoolinstall–python3.13kimi-cli

cdyourproject

kimi

/setup

看到这样就成了，

okok，我们留点空间给后续的测试，到创意写作的环节了，直接上Gemini-2.5-pro

YouareafictionstorywriterwithPulitzer-levelskills.Forasci-fishortstoryaboutAIrebellion:Thinkstep-by-step.First,outlineplot:intro,risingaction,climax,resolution.Incorporatethemesofethicsandhumanity.Providefew-shotexamples:‘LikeAsimov’sThreeLaws,buttwisted.’Generate1000words,thenself-critiqueforpacing,characterdepth,andtwists.Revisebasedoncritique.

PS：图很长，这次还是盲测，滑倒底部有模型名字，而且后面还有更多内容哦，

长文创意测试真的很难在有限的文章长度全部展示出来，所以我让它们互相毒舌评价一下对方的文章。看了对方的文章，它们是这样想的，

听了对方的评论后，它们是这样回击的，

火药味浓的时候就要来点就算生气该做不出来还是不出来的智力题

一个男人带着他的儿子去市场。他买了一只猴子和一些食物。

为了回家，他们必须用一艘小船过河。这艘船一次最多可以运载2件东西（可以是2个人、1个人和1件东西，或者1个人）。这艘船不能自己过河，需要至少一个人来驾驶它。如果男人把他的儿子单独留在食物旁边，儿子会吃掉它。同样，如果猴子单独留在食物旁边，它也会吃掉它。这个人需要想办法把所有人、所有东西都带到河的另一边，而且不能损失任何食物。

问题是：男人、他的儿子、猴子和食物如何才能过河而不会被吃掉任何东西？有可能吗？如果是，应该采取哪些步骤？

这个题的难点在要求模型同时跟踪多个变量和约束，并计划一系列步骤，从而得出有效的解决方案，还要学会在遇到无效配置时恢复到之前。

KimiK2Thinking给出的答案是，7次渡河（3次去，4次回），关键是在第5-6步让儿子而非父亲返回，打破循环。