2026智源大会召开期间,黄铁军的身份既是演讲者,也是被人不断截住追问的受访者。他的闭幕演讲题目是《智能之路——吾道一以贯之》,这几个字在大会期间被他反复提起,用来回答外界的好奇:这些年从悟道到悟界,从大模型到具身智能,智源到底有没有一条主线?答案是肯定的。智源研究院一直从大语言模型,到多模态大模型,再到世界模型的技术延续。
北京智源大会的体验区里,安贞医院和智源研究院(以下简称"智源")的AI心脏智能体演示台前始终围着一圈人;乒乓球机器人挥拍的机械声,在人群外也听得清清楚楚;一位参会者戴着智能眼镜穿行其间,镜片无声记录着他的第一视角。这些画面,恰好构成了智源研究院理事长黄铁军反复谈论的那个世界:AI从数字空间走向物理空间,而人类的生活过程本身就是最好的数据来源。
当企业纷纷用VLA(视觉语言动作模型)快速落地时,智源为何坚持世界模型才是终极方向?他的回答带着研究者特有的执着:企业用成熟技术解决明确问题,这没问题;但研究机构要追求的,是一个能在任何场景下做出基本判断的通用大脑,一个机器人对世界万事万物的"主观内部模型"。
大会期间,黄铁军与北京商报等媒体进行了一次对话,话题围绕着世界模型,如果将这家新型研发机构的观点继续延伸,实际上是在确认一个悬在AI企业头顶的问题:急着把AI送上货架的人不少,谁来负责思考尚未被命名的未来?
Q:当前许多具身智能企业都在使用VLA或者VLM(视觉语言模型)快速落地。智源提出世界模型才是通向具身智能核心方向的依据是什么?
A:这两者并不矛盾。企业用成熟技术解决明确问题,在制造或搬运等特定场景下完成任务,是可行的。但从研究机构角度,我们希望具身智能通用化,像人类一样在任何场景解决问题。机器人需要观察和用力,必须对世界有自己的模型——可以称之为世界模型。就像人脑小宇宙中,每个人都对世界有一个模型,做事时才有基本判断依据。因此,面向机器人,要构造一个对世界万事万物规律性的东西有掌握的世界模型。
Q:关于世界模型未来的数据来源,哪些数据来源比较重要?
A:数据来源要推广理解为"生物与环境交互过程中获得的信息"。计算机互联网时期,我们能把通过各种传感手段采集到的信号转化为数据,但这种数据是对环境的不完整表达,过于静态。对于世界模型来说,离线静态数据集不够,需要更多在线实时交互的数据,比如踢球、弹琴、游泳,都是与世界互动,需要实时感知环境并调整内部模型,因此在世界模型和具身阶段,需要的实时性和交互性数据会越来越多。
Q:这会导致数据成本出现什么变化?
A:数据成本取决于模式。建数据工厂、使用机器人或人类控制机器人采集数据,成本不合理;更好的方式是边工作边采集,工人戴上设备正常工作,数据同步完成;或通过耳机、智能眼镜等可穿戴设备,在获取智能体服务的同时,零成本或低成本地让系统获得你的第一视角数据。自动驾驶的逻辑类似,使用好现有车辆即可,它上面有传感器,未来穿戴式传感器会越来越多。
Q:短期内世界模型在哪几个场景更容易实现?
A:严格来说,纯数字模型,比如游戏、视频生成等,不是世界模型,因为它们不需要物理正确。真正的世界模型必须有多传感器输入,拥有视觉、听觉、触觉等,在尽可能多物理输入的情况下,对未来一段时间做出精准的推测。这与自动驾驶类似:观察当前状态,推想未来十几秒会发生什么。
数字模型没有物理代价限制,发展会非常快,但产品的推广速度不如我预期,完全可以被更好地使用,并创造更多的产品形态供大家使用。具身传感器受物理限制,可能慢一点,但必须做好。
Q:许多业内人士将通用人工智能(AGI)作为人工智能发展的终极目标之一,您认为世界模型与AGI的关系是什么?
A:大家对AGI定义不同,但无论是现实意义上的通用人工智能系统,还是终极性的AGI,世界模型都是最重要的部分,就像大脑是身体最重要的一部分。未来AGI若超越人类,一定是因为它对世界的认知超过了我们,它的世界模型比人类更强大。它也需要身体,在物理世界中以更灵巧、更灵敏的方式完成任务。
北京商报记者 魏蔚