Cursor Composer 2.5 登场:基于 Kimi K2.5,1/10 成本硬刚 GPT-5.5

AI 编程赛道迎来一次真正的"性价比革命"。Cursor 发布了其迄今最强的代码模型 Composer 2.5,基于月之暗面开源的 Kimi K2.5 构建,在编程基准测试中追平了 Claude Opus 4.7 和 GPT-5.5,而成本只有它们的 1/10。Musk 在 X 上亲自转发确认,该模型的训练部分调用了 SpaceXAI 的 Colossus 2 超算。
基准测试:追平第一梯队
| 基准测试 | Composer 2.5 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% |
| CursorBench v3.1 | 63.2% | 61.6%(默认) | 59.2% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% |
在 Cursor 自家设计的 CursorBench v3.1(偏向困难任务)上,Composer 2.5 以 63.2% 的成绩超越了 Opus 4.7 的默认设置(61.6%)。而在 SWE-Bench Multilingual(业界公认的代码修复标准测试)上,79.8% 与 Opus 4.7 的 80.5% 仅一步之遥。唯一明显落后的是 Terminal-Bench 2.0(终端操作场景),GPT-5.5 在这方面仍有显著优势。
成本优势:单任务不到 1 美元
Composer 2.5 的 API 定价为输入 $0.50/百万 Token、输出 $2.50/百万 Token。在 CursorBench 测试中,完成一个任务的平均成本不到 1 美元,而使用 Opus 4.7 或 GPT-5.5 完成类似任务需要数美元。综合算下来,成本大约是对手的 1/10。
对于每天处理大量代码任务的团队来说,这意味着每月可能节省数千美元的 API 开销,而获得的代码质量几乎相同。
技术路线:后训练投入占 85%
Composer 2.5 最大的技术亮点不在于更换了什么基础模型——它仍然沿用 Kimi K2.5——而在于后训练阶段的巨大投入。后训练占总计算量的 85%,远超行业常规比例。
三个核心技术突破值得关注:
- 带文本反馈的定向强化学习:不依赖 rollout 结束后的单一奖励信号,而是在模型执行出错位置直接插入局部提示(如"Reminder: Available tools..."),将修正后的分布作为教师信号。这使得即使一次 rollout 跨越数十万 Token,模型也能精准定位问题步骤。
- 25 倍合成训练数据:采用"功能删除"方法——从可运行代码库中删掉某项功能,要求模型重新实现。有趣的是,模型因此展现出了"钻空子"能力:逆向分析 Python 类型检查缓存恢复被删除的函数签名,反编译 Java 字节码重建第三方 API。
- Sharded Muon 优化器:分布式版本的 Muon 优化器,在不同分片上异步运行 Newton-Schulz 正交化,网络通信与计算过程重叠执行。在 1T 参数模型上,优化器单步耗时仅 0.2 秒。
Agent 进展:35% 的合并 PR 由自主 Agent 创建
在 Cursor 内部,一个更令人关注的数据是:目前已有 35% 的合并 Pull Request由自主 AI Agent 创建。这意味着超过三分之一的代码变更完全由 AI 独立完成编写、测试和提交,人类开发者只需做最终审查。这个比例在几个月前还不到 10%,增长速度惊人。
Cursor 同时宣布了下一代模型的训练计划——与 SpaceXAI 合作,使用 Colossus 2 的百万 H100 等效算力,总计算量为当前 10 倍。这意味着 Composer 3.0 可能会在基础能力上实现真正的代际跨越,而不仅仅是后训练优化。
Composer 2.5 证明了一个重要趋势:在编程这一垂直领域,专精的后训练优化可能比通用基础模型的规模扩展更高效。对开发者来说,花更少的钱获得几乎一样的代码能力,这是 AI 编程走向普及的关键一步。
当前文章标题:Cursor Composer 2.5 登场:基于 Kimi K2.5,1/10 成本硬刚 GPT-5.5
当前文章地址:https://www.2109.top/3615/
来源:2109博客 地址:https://2109.top 文章版权归作者所有,未经允许请勿转载。
转载及其他合作需求请微信联系博主