杨植麟 2026 中关村论坛演讲：详解 Kimi K2.5，以前的很多标准，现在都可以被挑战

3月25日，中关村论坛全体会议在北京举行。月之暗面（Moonshot AI）创始人杨植麟发表题为《开源AI：加速探索智能上限》的主题演讲。演讲聚焦大模型发展的“第一性原理”，杨植麟在会上深入解析了最新开源模型 Kimi K2.5的核心技术突破，在强调“规模化定律”的同时，更核心地指向“如何高效地将能源转化为智能”，并展示了其团队在架构与协作模式上的创新突破。
展望未来，杨植麟预测AI研发范式将迎来剧变：“从今年到明年以及接下来的若干年……会有更多的是AI去主导研究。” 研究员将配备海量AI资源，由AI协助合成任务、定义环境与奖励函数，甚至探索新网络架构，从而推动整个领域加速发展。（袁宁）

以下为杨植麟演讲全文：

大家好，今天很高兴有机会能分享我们在做开源模型，以及去训练更好的大模型领域做的很多最新的工作。

其实做大模型本质上是把更多的能源转化成智能，然后转化的过程中最重要的事情是能够去规模化，也就是说能够把尽可能多的能源，然后去经过算力和模型去变成更多的更高程度的智能。

所以本质上，规模化是过去若干年所有的模型和 AI 发展的一个很重要的基础。

当然，规模化并不是代表着我们只是去暴力的增加能源，或者去暴力的增加算力，而是涉及到我们怎么在这里面能够非常有效的去进行规模化，所以我们其实会从三个不同的方面去提高效率，比如说我们会很强调去提升 TOKEN 的效率。

首先是 TOKEN 效率，本质上是代表着说你同样的数据中能够学到多少智能，因为这个世界上的有效的数据其实是一个常量，或者说它是一个非常有限的值。那如果你有更好的网络架构，或者有更好的优化器，那么你就可以从一样的数据里面学到更多的智能。

其次，同时我们也希望去提升更长的上下文，在更长的上下文的时候，可以在相同的情况下得到更低的损失函数（loss），模型可以实现更长的输出，完成更长时和复杂的任务。所以我们也设计了一系列的网络架构（Kimi Linear）去提升模型在长上下文的表现。

第三，我们在最新的模型 Kimi K2.5里面也提出了新的一种规模化的方法，就是通过引入多个 agent 形成一个 agent 集群或者叫 agent swarm 的概念，使得说有很多个 agent 可以一起去工作，然后通过这种

这是我们在K2.5里面研发出来的Agent 集群，它的一个效果可以看到横坐标是任务的复杂度，而纵坐标是它的执行时间，所以如果我们原来只是用这种单一 agent 的方式进行工作，你可以看到就是随着任务的复杂度逐渐提升，它需要的完成时间是指数增加的。比如说如果你完成一个非常复杂的任务，比如如果想从头去写一个代码仓库，去实现一个很复杂的功能，那它可能需要几天甚至几周的时间。

但是如果我们能够并行开启，比如说100个 agent 去同时完成这个任务，然后在过程中他们会有去进行互相的协作，然后去互相的协调和规划接下来应该要做的事情，就跟一个人类的组织一样，那么这个时候其实可以做到随着任务复杂度的增加，执行时间其实没有太大的变化，那这样的话也是意味着你可以在单位时间内去完成更加复杂的任务，使得原来一些完全不可能实现的任务变得有可能。

就像一个公司一样，如果你想做一个非常艰难的一个事情，你要完成一个很复杂的一个 mission，比如说从0到1建造一家100亿或者1,000亿美元的公司，那么你只靠一个人，可能要100年才能做出来，那你在市场上是没有竞争力的，但这个时候如果你有100个人，或者200个非常聪明的人，能一起协作，那就有可能在短时间内

所以通过 Agent 集群我们可以实现规模化的输入，比如说你可以同时去调查几百个不同的数据来源，在各种权威的这个数据源里面去寻找你要的答案。你也可以做规模化的输出，比如说你可以通过。刚才说的这个数据来源可以去撰写一个几百页的这样的一个论文，或者去规模化的执行或规模化的编排，通过这种方式去提升任务的复杂度。

同时，我们也非常注重就是去提升，去研发更好的底层网络架构。这个是我们最新开源的一个模型架构，叫做注意力残差（Attention Residuals），然后这项技术其实最主要的洞察就是一个来自于一个10年前的技术，叫 Resnet，或者叫残差网络连接。

在十年之前其实没有任何人有办法去训练深度的神经网络，然后通过之前像何凯明等研究者去引入这种残差网络，它可以让模型去训练超过，比如说几十、几百层，你可以任意的去增加层数，然后这种残差结构其实你可以认为它是 LSTM 网络的一个变种，只是说 LSTM 是应用在时间的维度上，那残差网络它更多现在是应用在深度上。然后使得说你每一层可以用上一层的输出，然后做一个函数的处理，得到当前这一层的输出。

那我们其实就是把一样的类似的思路做一个自然的泛化，我们把注意力机制这种计算模式也是进行一个90度的旋转，从原来只是应用在时间轴上，现在我们可以把它应用在深度上，所以当你把注意力应用到深度上之后，它其实有很多好处，比如说就不仅仅只是基于前一层的输出来进行计算。而是你可以去结合之前的所有层的输出进行计算，那这样你在优化的时候就会有非常多的好处。这个图是我们的整个架构的体现，就可以看到左边是标准的残差的结构，那右边其实是最新的我们提出来的，并且开源的残差结构，然后我们也设计了这种基于块状的这种残差结构，使得说它能够非常高效的去提，去进行实现，能够基本上在只有2%的这种额外的成本的情况下，能够就非常大幅度的去提升它的效果。

就像我刚才说的，大模型的第一性原理是规模化定律（Scaling Law），但我们不仅仅只是去暴力的做规模化，而是希望我们在这里面规模化的同时也能够去提升它的效率，所以我们一直是致力于研发更强的这个模型架构，使得说它的 TOKEN 效率可以更高，比如说像 Adam 优化器或者像 attention 架构，或者像残差连接这些都是有了8到11年的历史的技术。这个在计算机领域其实是一个非常长的时间，就过去十年的时间里面，其实没有任何人能够去挑战这样的技术，大家都把它当成一个标准。

其实你可以看到随着现在算力的进步，包括大家研发方式的变化，从原来的偏学术，单纯从 idea 出发的研究，到变成现在更加重视与工程的结合，然后可以设计非常。扎实的这种规模化验证实验，从而让你能得到非常扎实的结论，所以很多以前认为是标准的东西，现在都是可以被挑战的，所以我们通过一系列的新的模型架构和我们的开源，让全世界更多的人能够去获取新的技术，从而推进整个领域的发展。

可以看到，我们通过开源模型也逐渐成为了新的标准。这是两张从 NVIDIA 最新 GTC 2026黄仁勋主题演讲中里面摘取的幻灯片，所以你也可以看到就是像以 Kimi 为代表的很多模型，其实现在。正在全世界所有的模型厂商的评测里面作为一个标准，就是你如果要发布一个新的芯片，那你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升。然后包括全世界很多研究机构也在用Kimi K2.5或者是其他的开源模型去进行研究。

我觉得通过开源让每一个企业、每一个研究者、每一个终端的用户能非常低门槛的获取智能，是一个非常重要的事情。同时我们在这里面也做很重要的很多创新，包括我刚提到的很多新的架构，使得说这些技术它都是开放的，可以被任何人所获取，然后大家能够去形成一个生态系统，一起去推动 AI 领域的发展。

大模型领域仍在快速发展，现在的研发方式跟两三年之前会有很大的不同。

三年之前更多的是大家使用天然数据，也就是你从整个互联网获取的数据，加上一些少量的人工标注，你要去标注某一条数据。它到底是不是符合你的价值观或者偏好？

到去年大家更加重视一个大规模的强化学习系统，在这里面人是去筛选里面高质量的任务，但是这些任务还是由人来确定的，然后通过在这些任务上做强化学习得到更好的效果。可以看到大家就是在编程或者数学这些领域上得到的提升，其实主要来自于这种技术路线。

但是从今年到明年以及接下来的若干年的时间内，整个 AI 研究和研发的方式会发生重大的变化，会有更多的是 AI 去主导研究。每个研究员他会配备非常多的 AI 的 TOKEN，然后这些 AI 的 TOKEN 可以帮你去合成新的任务，然后去帮你合成新的环境，去帮你定义在环境下面到底什么样是最好、最合适的奖励函数，甚至去帮你探索新的网络架构可能长什么样。所以在这样的前提下，整个 AI 的研发也会逐渐加速，所以 Kimi 希望也能够跟整个开源社区一起，去不断的把智能的技术往前推进，打造一个更加好的生态系统。

感谢大家。