Cursor Composer 2.5 登场:基于 Kimi K2.5,1/10 成本硬刚 GPT-5.5

2T超大容量网盘!点击领取 >> 原画质高清备份,上传下载不限速

AI 编程赛道迎来一次真正的"性价比革命"。Cursor 发布了其迄今最强的代码模型 Composer 2.5,基于月之暗面开源的 Kimi K2.5 构建,在编程基准测试中追平了 Claude Opus 4.7 和 GPT-5.5,而成本只有它们的 1/10。Musk 在 X 上亲自转发确认,该模型的训练部分调用了 SpaceXAI 的 Colossus 2 超算。

基准测试:追平第一梯队

基准测试 Composer 2.5 Claude Opus 4.7 GPT-5.5
SWE-Bench Multilingual 79.8% 80.5% 77.8%
CursorBench v3.1 63.2% 61.6%(默认) 59.2%
Terminal-Bench 2.0 69.3% 69.4% 82.7%

在 Cursor 自家设计的 CursorBench v3.1(偏向困难任务)上,Composer 2.5 以 63.2% 的成绩超越了 Opus 4.7 的默认设置(61.6%)。而在 SWE-Bench Multilingual(业界公认的代码修复标准测试)上,79.8% 与 Opus 4.7 的 80.5% 仅一步之遥。唯一明显落后的是 Terminal-Bench 2.0(终端操作场景),GPT-5.5 在这方面仍有显著优势。

成本优势:单任务不到 1 美元

Composer 2.5 的 API 定价为输入 $0.50/百万 Token、输出 $2.50/百万 Token。在 CursorBench 测试中,完成一个任务的平均成本不到 1 美元,而使用 Opus 4.7 或 GPT-5.5 完成类似任务需要数美元。综合算下来,成本大约是对手的 1/10

对于每天处理大量代码任务的团队来说,这意味着每月可能节省数千美元的 API 开销,而获得的代码质量几乎相同。

技术路线:后训练投入占 85%

Composer 2.5 最大的技术亮点不在于更换了什么基础模型——它仍然沿用 Kimi K2.5——而在于后训练阶段的巨大投入。后训练占总计算量的 85%,远超行业常规比例。

三个核心技术突破值得关注:

  • 带文本反馈的定向强化学习:不依赖 rollout 结束后的单一奖励信号,而是在模型执行出错位置直接插入局部提示(如"Reminder: Available tools..."),将修正后的分布作为教师信号。这使得即使一次 rollout 跨越数十万 Token,模型也能精准定位问题步骤。
  • 25 倍合成训练数据:采用"功能删除"方法——从可运行代码库中删掉某项功能,要求模型重新实现。有趣的是,模型因此展现出了"钻空子"能力:逆向分析 Python 类型检查缓存恢复被删除的函数签名,反编译 Java 字节码重建第三方 API。
  • Sharded Muon 优化器:分布式版本的 Muon 优化器,在不同分片上异步运行 Newton-Schulz 正交化,网络通信与计算过程重叠执行。在 1T 参数模型上,优化器单步耗时仅 0.2 秒。

Agent 进展:35% 的合并 PR 由自主 Agent 创建

在 Cursor 内部,一个更令人关注的数据是:目前已有 35% 的合并 Pull Request由自主 AI Agent 创建。这意味着超过三分之一的代码变更完全由 AI 独立完成编写、测试和提交,人类开发者只需做最终审查。这个比例在几个月前还不到 10%,增长速度惊人。

Cursor 同时宣布了下一代模型的训练计划——与 SpaceXAI 合作,使用 Colossus 2 的百万 H100 等效算力,总计算量为当前 10 倍。这意味着 Composer 3.0 可能会在基础能力上实现真正的代际跨越,而不仅仅是后训练优化。

Composer 2.5 证明了一个重要趋势:在编程这一垂直领域,专精的后训练优化可能比通用基础模型的规模扩展更高效。对开发者来说,花更少的钱获得几乎一样的代码能力,这是 AI 编程走向普及的关键一步。

2T超大容量网盘!点击领取 >> 原画质高清备份,上传下载不限速
这是一个持续运营的鼓励
如果真的对你有用的话,感谢支持服务器及作者运营
THE END