2026智源大会｜对话黄铁军：世界模型是最强“大脑”，数据要“边干活边采”,黄铁军智源

2026智源大会召开期间，黄铁军的身份既是演讲者，也是被人不断截住追问的受访者。他的闭幕演讲题目是《智能之路——吾道一以贯之》，这几个字在大会期间被他反复提起，用来回答外界的好奇：这些年从悟道到悟界，从大模型到具身智能，智源到底有没有一条主线？答案是肯定的。智源研究院一直从大语言模型，到多模态大模型，再到世界模型的技术延续。

北京智源大会的体验区里，安贞医院和智源研究院（以下简称"智源"）的AI心脏智能体演示台前始终围着一圈人；乒乓球机器人挥拍的机械声，在人群外也听得清清楚楚；一位参会者戴着智能眼镜穿行其间，镜片无声记录着他的第一视角。这些画面，恰好构成了智源研究院理事长黄铁军反复谈论的那个世界：AI从数字空间走向物理空间，而人类的生活过程本身就是最好的数据来源。

当企业纷纷用VLA（视觉语言动作模型）快速落地时，智源为何坚持世界模型才是终极方向？他的回答带着研究者特有的执着：企业用成熟技术解决明确问题，这没问题；但研究机构要追求的，是一个能在任何场景下做出基本判断的通用大脑，一个机器人对世界万事万物的"主观内部模型"。

大会期间，黄铁军与北京商报等媒体进行了一次对话，话题围绕着世界模型，如果将这家新型研发机构的观点继续延伸，实际上是在确认一个悬在AI企业头顶的问题：急着把AI送上货架的人不少，谁来负责思考尚未被命名的未来？

Q：当前许多具身智能企业都在使用VLA或者VLM（视觉语言模型）快速落地。智源提出世界模型才是通向具身智能核心方向的依据是什么？

A：这两者并不矛盾。企业用成熟技术解决明确问题，在制造或搬运等特定场景下完成任务，是可行的。但从研究机构角度，我们希望具身智能通用化，像人类一样在任何场景解决问题。机器人需要观察和用力，必须对世界有自己的模型——可以称之为世界模型。就像人脑小宇宙中，每个人都对世界有一个模型，做事时才有基本判断依据。因此，面向机器人，要构造一个对世界万事万物规律性的东西有掌握的世界模型。

Q：关于世界模型未来的数据来源，哪些数据来源比较重要？

A：数据来源要推广理解为"生物与环境交互过程中获得的信息"。计算机互联网时期，我们能把通过各种传感手段采集到的信号转化为数据，但这种数据是对环境的不完整表达，过于静态。对于世界模型来说，离线静态数据集不够，需要更多在线实时交互的数据，比如踢球、弹琴、游泳，都是与世界互动，需要实时感知环境并调整内部模型，因此在世界模型和具身阶段，需要的实时性和交互性数据会越来越多。

Q：这会导致数据成本出现什么变化？

A：数据成本取决于模式。建数据工厂、使用机器人或人类控制机器人采集数据，成本不合理；更好的方式是边工作边采集，工人戴上设备正常工作，数据同步完成；或通过耳机、智能眼镜等可穿戴设备，在获取智能体服务的同时，零成本或低成本地让系统获得你的第一视角数据。自动驾驶的逻辑类似，使用好现有车辆即可，它上面有传感器，未来穿戴式传感器会越来越多。

Q：短期内世界模型在哪几个场景更容易实现？

A：严格来说，纯数字模型，比如游戏、视频生成等，不是世界模型，因为它们不需要物理正确。真正的世界模型必须有多传感器输入，拥有视觉、听觉、触觉等，在尽可能多物理输入的情况下，对未来一段时间做出精准的推测。这与自动驾驶类似：观察当前状态，推想未来十几秒会发生什么。

数字模型没有物理代价限制，发展会非常快，但产品的推广速度不如我预期，完全可以被更好地使用，并创造更多的产品形态供大家使用。具身传感器受物理限制，可能慢一点，但必须做好。

Q：许多业内人士将通用人工智能（AGI）作为人工智能发展的终极目标之一，您认为世界模型与AGI的关系是什么？

A：大家对AGI定义不同，但无论是现实意义上的通用人工智能系统，还是终极性的AGI，世界模型都是最重要的部分，就像大脑是身体最重要的一部分。未来AGI若超越人类，一定是因为它对世界的认知超过了我们，它的世界模型比人类更强大。它也需要身体，在物理世界中以更灵巧、更灵敏的方式完成任务。

北京商报记者魏蔚