Kimi k1.5 新模型发布:如何实现顶尖多模态推理能力?

在 2025 年 1 月 20 日,北京月之暗面科技有限公司宣布了两项重要进展:

Kimi 推出了全新的 SOTA(最先进)模型——k1.5 多模态思考模型。

首次公开了 k1.5 模型的技术训练报告。

一、k1.5 多模态思考模型:性能突破

继 2024 年 11 月发布 k0-math 数学模型和 12 月发布 k1 视觉思考模型之后,Kimi 在短短三个月内再次带来了 k 系列强化学习模型的重大升级。k1.5 多模态思考模型在基准测试中表现出色,达到了 SOTA 级别的多模态推理和通用推理能力。

在 short-CoT(短链思考)模式下,Kimi k1.5 在数学、代码、视觉多模态和通用能力方面大幅超越了全球范围内的短链思考 SOTA 模型,例如 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。

而在 long-CoT(长链思考)模式下,Kimi k1.5 的数学、代码和多模态推理能力达到了 OpenAI o1 正式版的水平。这标志着全球范围内,首次有 OpenAI 之外的公司实现了 o1 正式版的多模态推理性能。

展望 2025 年,Kimi 将继续沿着技术路线图加速升级 k 系列强化学习模型,带来更多模态、更多领域的强大能力。

二、如何训练出 SOTA 模型?

随着 k1.5 多模态思考模型的发布,Kimi 技术团队首次公开了详细的技术报告,分享了在新技术范式下的模型训练探索之路。报告名为《Kimi k1.5:借助大语言模型实现强化学习的 Scaling》,感兴趣的朋友可以在 GitHub 查看完整内容。

这份技术报告揭示了 k1.5 模型设计和训练的关键要素:

长上下文扩展:研发团队将强化学习(RL)的上下文窗口扩展到 128k,发现随着上下文长度的增加,模型性能持续提升。关键在于使用部分展开(partial rollouts)技术,通过重用先前的轨迹来采样新的轨迹,从而避免了从头生成新轨迹的成本。这表明,上下文长度是通过大语言模型扩展强化学习的关键维度。

改进的策略优化:团队推导出 long-CoT 的 RL 公式,并采用在线镜像下降的变体进行稳健的策略优化。这一算法通过有效的采样策略、长度惩罚和数据配方的优化进一步改进。

简洁的框架:长上下文扩展与改进的策略优化相结合,形成了一个简洁的强化学习框架。由于上下文长度的扩展,模型能够学习到规划、反思和修正的能力,而无需依赖更复杂的技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)。

多模态能力:k1.5 模型在文本和视觉数据上联合训练,能够同时处理两种模态的信息。虽然在数学能力上表现出色,但对于依赖图形理解的几何题,由于输入格式的限制(如 LaTeX),仍有一定挑战。

此外,团队提出了 long2short 方法,利用 Long-CoT 技术改进 Short-CoT 模型,在短链思考推理方面取得了显著成果。例如,在 AIME 上达到 60.8 分,在 MATH500 上达到 94.6 分,在 LiveCodeBench 上达到 47.3 分,大幅超越了现有的短链思考模型(如 GPT-4 和 Claude Sonnet 3.5)。

Kimi 团队希望通过这份技术报告,让更多的技术人才了解他们在模型训练方面的努力。如果有兴趣加入 Kimi,共同探索技术的无限可能,欢迎随时联系。

k1.5 多模态思考模型的预览版将陆续在 Kimi.com 网站和 最新版本的 Kimi 智能助手 app 上线。用户在使用过程中如果发现了模型切换按钮,就可以体验这一强大的新功能。

k1.5 模型擅长深度推理,能够帮助用户解决更复杂的难题。无论是难解的代码问题、数学难题,还是工作中的挑战,k1.5 都能提供有力支持。Kimi 期待与用户一起探索更广阔的世界。