3月25日,中关村论坛全体会议在北京举行。 月之暗面(Moonshot AI)创始人杨植麟发表题为《开源AI:加速探索智能上限》的主题演讲。演讲聚焦大模型发展的“第一性原理”,杨植麟在会上深入解析了最新开源模型 Kimi K2.5的核心技术突破,在强调“规模化定律”的同时,更核心地指向“如何高效地将能源转化为智能”,并展示了其团队在架构与协作模式上的创新突破。
展望未来,杨植麟预测AI研发范式将迎来剧变:“从今年到明年以及接下来的若干年……会有更多的是AI去主导研究。” 研究员将配备海量AI资源,由AI协助合成任务、定义环境与奖励函数,甚至探索新网络架构,从而推动整个领域加速发展。(袁宁)
以下为杨植麟演讲全文:
大家好,今天很高兴有机会能分享我们在做开源模型,以及去训练更好的大模型领域做的很多最新的工作。
其实做大模型本质上是把更多的能源转化成智能,然后转化的过程中最重要的事情是能够去规模化,也就是说能够把尽可能多的能源,然后去经过算力和模型去变成更多的更高程度的智能。
所以本质上,规模化是过去若干年所有的模型和 AI 发展的一个很重要的基础。
当然,规模化并不是代表着我们只是去暴力的增加能源,或者去暴力的增加算力,而是涉及到我们怎么在这里面能够非常有效的去进行规模化,所以我们其实会从三个不同的方面去提高效率,比如说我们会很强调去提升 TOKEN 的效率。
首先是 TOKEN 效率,本质上是代表着说你同样的数据中能够学到多少智能,因为这个世界上的有效的数据其实是一个常量,或者说它是一个非常有限的值。那如果你有更好的网络架构,或者有更好的优化器,那么你就可以从一样的数据里面学到更多的智能。
其次,同时我们也希望去提升更长的上下文,在更长的上下文的时候,可以在相同的情况下得到更低的损失函数(loss),模型可以实现更长的输出,完成更长时和复杂的任务。所以我们也设计了一系列的网络架构(Kimi Linear) 去提升模型在长上下文的表现。
第三,我们在最新的模型 Kimi K2.5里面也提出了新的一种规模化的方法,就是通过引入多个 agent 形成一个 agent 集群或者叫 agent swarm 的概念,使得说有很多个 agent 可以一起去工作,然后通过这种
这是我们在K2.5里面研发出来的Agent 集群,它的一个效果可以看到横坐标是任务的复杂度,而纵坐标是它的执行时间,所以如果我们原来只是用这种单一 agent 的方式进行工作,你可以看到就是随着任务的复杂度逐渐提升,它需要的完成时间是指数增加的。比如说如果你完成一个非常复杂的任务,比如如果想从头去写一个代码仓库,去实现一个很复杂的功能,那它可能需要几天甚至几周的时间。
但是如果我们能够并行开启,比如说100个 agent 去同时完成这个任务,然后在过程中他们会有去进行互相的协作,然后去互相的协调和规划接下来应该要做的事情,就跟一个人类的组织一样,那么这个时候其实可以做到随着任务复杂度的增加,执行时间其实没有太大的变化,那这样的话也是意味着你可以在单位时间内去完成更加复杂的任务,使得原来一些完全不可能实现的任务变得有可能。
就像一个公司一样,如果你想做一个非常艰难的一个事情,你要完成一个很复杂的一个 mission, 比如说从0到1建造一家100亿或者1,000亿美元的公司,那么你只靠一个人,可能要100年才能做出来,那你在市场上是没有竞争力的,但这个时候如果你有100个人,或者200个非常聪明的人,能一起协作,那就有可能在短时间内
所以通过 Agent 集群我们可以实现规模化的输入,比如说你可以同时去调查几百个不同的数据来源,在各种权威的这个数据源里面去寻找你要的答案。你也可以做规模化的输出,比如说你可以通过。刚才说的这个数据来源可以去撰写一个几百页的这样的一个论文,或者去规模化的执行或规模化的编排,通过这种方式去提升任务的复杂度。
同时,我们也非常注重就是去提升,去研发更好的底层网络架构。这个是我们最新开源的一个模型架构,叫做注意力残差(Attention Residuals),然后这项技术其实最主要的洞察就是一个来自于一个10年前的技术,叫 Resnet, 或者叫残差网络连接。
在十年之前其实没有任何人有办法去训练深度的神经网络,然后通过之前像何凯明等研究者去引入这种残差网络,它可以让模型去训练超过,比如说几十、几百层,你可以任意的去增加层数,然后这种残差结构其实你可以认为它是 LSTM 网络的一个变种,只是说 LSTM 是应用在时间的维度上,那残差网络它更多现在是应用在深度上。然后使得说你每一层可以用上一层的输出,然后做一个函数的处理,得到当前这一层的输出。
那我们其实就是把一样的类似的思路做一个自然的泛化,我们把注意力机制这种计算模式也是进行一个90度的旋转,从原来只是应用在时间轴上,现在我们可以把它应用在深度上,所以当你把注意力应用到深度上之后,它其实有很多好处,比如说就不仅仅只是基于前一层的输出来进行计算。而是你可以去结合之前的所有层的输出进行计算,那这样你在优化的时候就会有非常多的好处。这个图是我们的整个架构的体现,就可以看到左边是标准的残差的结构,那右边其实是最新的我们提出来的,并且开源的残差结构,然后我们也设计了这种基于块状的这种残差结构,使得说它能够非常高效的去提,去进行实现,能够基本上在只有2%的这种额外的成本的情况下,能够就非常大幅度的去提升它的效果。
就像我刚才说的,大模型的第一性原理是规模化定律(Scaling Law),但我们不仅仅只是去暴力的做规模化,而是希望我们在这里面规模化的同时也能够去提升它的效率,所以我们一直是致力于研发更强的这个模型架构,使得说它的 TOKEN 效率可以更高,比如说像 Adam 优化器或者像 attention 架构,或者像残差连接这些都是有了8到11年的历史的技术。这个在计算机领域其实是一个非常长的时间,就过去十年的时间里面,其实没有任何人能够去挑战这样的技术,大家都把它当成一个标准。
其实你可以看到随着现在算力的进步,包括大家研发方式的变化,从原来的偏学术,单纯从 idea 出发的研究,到变成现在更加重视与工程的结合,然后可以设计非常。扎实的这种规模化验证实验,从而让你能得到非常扎实的结论,所以很多以前认为是标准的东西,现在都是可以被挑战的,所以我们通过一系列的新的模型架构和我们的开源,让全世界更多的人能够去获取新的技术,从而推进整个领域的发展。
可以看到,我们通过开源模型也逐渐成为了新的标准。这是两张从 NVIDIA 最新 GTC 2026黄仁勋主题演讲中里面摘取的幻灯片,所以你也可以看到就是像以 Kimi 为代表的很多模型,其实现在。正在全世界所有的模型厂商的评测里面作为一个标准,就是你如果要发布一个新的芯片,那你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升。然后包括全世界很多研究机构也在用Kimi K2.5或者是其他的开源模型去进行研究。
我觉得通过开源让每一个企业、每一个研究者、每一个终端的用户能非常低门槛的获取智能,是一个非常重要的事情。同时我们在这里面也做很重要的很多创新,包括我刚提到的很多新的架构,使得说这些技术它都是开放的,可以被任何人所获取,然后大家能够去形成一个生态系统,一起去推动 AI 领域的发展。
大模型领域仍在快速发展,现在的研发方式跟两三年之前会有很大的不同。
三年之前更多的是大家使用天然数据,也就是你从整个互联网获取的数据,加上一些少量的人工标注,你要去标注某一条数据。它到底是不是符合你的价值观或者偏好?
到去年大家更加重视一个大规模的强化学习系统,在这里面人是去筛选里面高质量的任务,但是这些任务还是由人来确定的,然后通过在这些任务上做强化学习得到更好的效果。可以看到大家就是在编程或者数学这些领域上得到的提升,其实主要来自于这种技术路线。
但是从今年到明年以及接下来的若干年的时间内,整个 AI 研究和研发的方式会发生重大的变化,会有更多的是 AI 去主导研究。每个研究员他会配备非常多的 AI 的 TOKEN, 然后这些 AI 的 TOKEN 可以帮你去合成新的任务,然后去帮你合成新的环境,去帮你定义在环境下面到底什么样是最好、最合适的奖励函数,甚至去帮你探索新的网络架构可能长什么样。所以在这样的前提下,整个 AI 的研发也会逐渐加速,所以 Kimi 希望也能够跟整个开源社区一起,去不断的把智能的技术往前推进,打造一个更加好的生态系统。
感谢大家。