浙江大学联合腾讯混元团队：AI视频生成迎来革命性突破

这项由浙江大学牵头、联合腾讯混元以及南洋理工大学团队的突破性研究发表于2026年3月，论文编号为arXiv:2603.24458v1。他们开发的OmniWeaving系统彻底改变了视频生成的游戏规则，让AI不仅能看懂你给的图片和文字，还能像聪明的助理一样主动推理出你真正想要的视频内容。

想象一下这样的场景：你只需要给AI一张照片加上几句简单的描述，它就能生成一段完整的电影级视频。更神奇的是，如果你的描述比较模糊，AI还能像经验丰富的导演一样，自动推理出最合适的镜头语言和剧情发展。这就是OmniWeaving带来的革命性变化。

传统的视频生成技术就像一个只会按菜谱做菜的厨师，你必须精确地告诉它每一个步骤。而OmniWeaving更像是一位经验丰富的大厨，你只需要说想吃什么口味的菜，它就能理解你的需求，自动搭配食材，创造出超出预期的美味。

当前的视频生成领域存在一个巨大的鸿沟。一方面，像种子舞蹈2.0这样的专有系统已经达到了令人惊叹的效果，能够处理复杂的多模态输入，生成高质量的视频内容。另一方面，开源的学术模型却还停留在相对初级的阶段，大多数只能处理简单的文本到视频转换，无法应对复杂的创作需求。

这种差距就像是专业摄影师和普通手机用户之间的技术鸿沟。专业系统拥有强大的理解能力和创作灵活性，而开源模型则受限于固化的模板和单一的输入方式。更重要的是，现有的开源模型普遍缺乏真正的"理解"能力——它们只能机械地执行指令，无法像人类创作者那样进行推理和创新。

研究团队意识到，要想真正缩小这个差距，关键在于让AI具备三种核心能力。首先是多模态组合能力，让AI能够同时理解文字、图片和视频，并将它们无缝地融合在一起。其次是抽象推理能力，让AI能够从模糊的输入中推断出用户的真实意图。最后是统一的生成框架，让一个模型就能处理各种不同类型的视频创作任务。

为了验证这些能力，研究团队还创建了IntelligentVBench，这是第一个专门评估智能化视频生成的综合测试平台。与传统只关注画面质量的测试不同，IntelligentVBench更像是给AI设计的"创意智商测试"，专门考察AI是否真正理解了复杂的创作要求。

一、革命性的技术架构：让AI真正"思考"视频创作

OmniWeaving的核心创新就像是给传统的视频生成系统装上了一个"大脑"。这个大脑由三个关键部分组成，就像一个完整的创作团队：编剧（多模态理解模型）、导演（扩散变换器），以及后期制作师（变分自编码器）。

编剧负责理解你的想法和素材。当你提供文字描述、图片或视频片段时，编剧会仔细分析这些内容，理解其中的含义和关联。更重要的是，如果你的描述比较抽象或模糊，编剧还会进入"思考模式"，主动推理出更详细的创作方案。

这种"思考模式"的工作原理特别有趣。当AI遇到像"两个女孩与久别重逢的狗狗相聚"这样的抽象描述时，它不会直接开始生成视频，而是先在内部进行推理：两个女孩看到狗狗时会有什么反应？她们会怎样表达喜悦？狗狗又会如何回应？通过这样的推理过程，AI能够生成更加生动和合理的视频内容。

导演部分则负责将这些理解转化为具体的视频内容。它就像一位经验丰富的电影导演，知道如何安排镜头，如何控制节奏，如何让不同的元素在时间轴上协调统一。这个导演特别聪明的地方在于，它能够同时处理多种不同类型的输入，无论是单纯的文字描述，还是复杂的多图片组合，都能游刃有余地处理。

后期制作师则确保最终的视频质量达到专业水准。它负责优化画面细节，保证时间连续性，消除不自然的跳跃或失真。

这套架构最巧妙的设计在于引入了"深度堆叠"机制。传统的AI模型通常只使用最终的处理结果，就像只听取会议的最终结论。而OmniWeaving却能利用整个"思考过程"中的多层信息，就像既听取最终结论，又参考讨论过程中的各种观点，从而做出更加全面和精准的判断。

这种设计让OmniWeaving能够处理以前无法想象的复杂任务。比如，你可以给它几张完全不相关的图片——一只熊、一个蜂蜜罐、一把勺子和一个背景场景，然后用文字描述："熊用勺子搅拌蜂蜜罐，然后品尝"。AI不仅能理解这四个元素之间的关系，还能推理出合理的动作序列，生成一段自然流畅的视频。

二、训练数据的精心设计：从基础到高阶的学习路径

要让AI学会如此复杂的视频创作技能，就像培养一位全能的电影制作人一样，需要经过系统化的训练过程。研究团队设计了一个三阶段的学习路径，每个阶段都有不同的重点和挑战。

第一阶段是基础视频生成能力的训练，就像让学徒先学会使用基本的摄影设备。在这个阶段，AI主要学习如何根据简单的文字描述生成视频，如何将单张图片扩展成动态场景，以及如何在多个关键帧之间创建平滑的过渡。这些看似简单的任务实际上为后续的复杂创作奠定了坚实基础。

第二阶段引入了多模态组合任务，这是训练的核心挑战。研究团队精心设计了两种特别重要的任务类型。第一种是"交错式文字和多图片转视频"任务，AI需要学会处理像"图片1中的男人和图片2中的女人在图片3的背景下进行对话，同时图片4中的无人机在空中旋转"这样复杂的指令。

这种训练就像教导演如何协调多个演员和道具。AI必须学会识别每张图片中的关键元素，理解它们在最终视频中应该扮演什么角色，以及如何让它们自然地互动。更重要的是，AI还要学会保持每个元素的视觉特征，确保熊就像熊，人就像人，不会在生成过程中发生形变或混淆。

第二种是"文字-图片-视频转视频"任务，这更像是给AI出的高难度考题。AI需要接受一个原始视频，一些参考图片，以及修改指令，然后生成一个新的视频。比如，它需要将视频中的汽车替换成图片中的另一辆车，同时保持其他所有元素（背景、光影、运动轨迹）完全不变。

第三阶段是推理增强训练，这是OmniWeaving最独特的创新之处。在这个阶段，AI不仅要学会执行明确的指令，还要学会"读懂"用户的潜在意图。研究团队构建了三种特殊的推理任务。

第一种是"意图驱动的图片转视频"任务。当用户提供一张图片和一个抽象的描述（比如"女孩们庆祝学期结束，表达自由"），AI需要推理出具体的动作和情节。它要思考：庆祝会是什么样子？表达自由的方式有哪些？如何将这种抽象的情感转化为具体的视觉表现？

第二种是"事件推演的多图片转视频"任务。给定几张差异很大的图片作为关键帧，AI需要推理出连接它们的合理情节。这就像给AI几个故事的片段，让它补全整个故事情节。

第三种是从简短模糊的文字描述生成详细视频的任务。AI需要从"士兵被子弹击中"这样简短的描述中，推理出完整的场景设置、动作细节和情感表达。

为了构建这些训练数据，研究团队采用了"输出优先"和"输入优先"两种策略。输出优先策略从现有的视频开始，使用各种AI工具提取关键元素，生成对应的训练样本。输入优先策略则从设定的条件开始，使用生成模型创造相应的视频内容。

这种双重策略确保了训练数据既有真实世界的丰富性，又有任务特定的针对性。研究团队还特别注重数据质量，使用Qwen3-VL等先进模型对所有数据进行质量评估，确保每个训练样本都能有效提升AI的能力。

三、革命性的评估体系：IntelligentVBench如何测试AI的创意智商

传统的视频生成评估就像只看学生的考试成绩，而忽略了他们的创造性思维和解决复杂问题的能力。研究团队意识到这个问题，专门创建了IntelligentVBench，这是第一个真正测试AI视频生成"智商"的综合平台。

IntelligentVBench的设计理念就像一位严格但公正的艺术老师，不仅要看作品的技术质量，更要评估创作者的理解能力、推理水平和艺术表达。这个测试平台包含了1030个精心设计的测试案例，每一个都是对AI能力的独特挑战。

第一类测试是"隐含意图图片转视频"，这就像给AI出的理解题。研究团队会提供一张图片和一个相对抽象的描述，比如"武装人员发起突然袭击或突袭，造成混乱"。AI不仅要理解这个描述的表面含义，还要推理出具体的场景设置、人物动作和情节发展。这种测试特别考验AI的"情商"——它是否能理解人类语言中的微妙含义和情感色彩。

第二类是"插值式双图片转视频"测试，这更像是给AI的逻辑推理题。给定两张差异很大的图片作为开始和结束帧，AI需要创造出连接它们的合理过程。比如，第一张图片是街道上的交通灯，最后一张是宏伟的历史建筑，AI需要推理出摄像机如何从一个场景过渡到另一个场景，创造出自然流畅的视觉叙事。

这种测试的难点在于，两张图片之间往往存在巨大的空间或概念跳跃。AI必须具备强大的空间理解能力和叙事逻辑，才能创造出令人信服的过渡过程。这就像要求一个导演在两个毫不相关的场景之间设计巧妙的转场，既要保持视觉连贯性，又要符合叙事逻辑。

第三类是"组合式多图片转视频"测试，这是对AI协调能力的全面考察。测试会提供一到四张不同的图片，每张图片代表不同的元素——人物、物品、背景等。AI需要将这些元素无缝整合到一个连贯的视频中，同时保持每个元素的原始特征。

这种测试就像要求一位舞台导演同时协调多个演员、道具和布景。AI不仅要确保每个元素都准确出现，还要设计它们之间的互动关系，创造出和谐统一的整体效果。更具挑战性的是，当涉及多个人物时，AI还要理解社交互动的微妙之处，比如对话时的眼神交流、协作时的默契配合等。

第四类是"文字-图片-视频转视频"测试，这可以说是最接近真实应用场景的高难度挑战。AI需要接受一个原始视频、一些参考图片和修改指令，然后生成一个经过精确修改的新视频。这种测试涵盖三个主要方向：背景替换、元素添加和对象替换。

背景替换测试要求AI将视频的背景完全替换为参考图片中的场景，同时保持前景元素和它们的运动完全不变。这就像在电影后期制作中使用绿幕技术，但难度更大，因为AI需要自动识别哪些是前景，哪些是背景，并且要保持光影、透视等细节的一致性。

元素添加测试则要求AI在现有视频中自然地插入新的对象或人物。这不是简单的粘贴操作，而需要AI理解新元素应该如何与现有场景互动，如何产生合理的光影效果，如何遵循物理法则等。

对象替换测试可能是最困难的，要求AI将视频中的特定对象替换为参考图片中的其他对象，同时保持替换对象的运动轨迹、交互关系和视觉效果完全合理。

IntelligentVBench的评估方法也极其创新，采用了"VLM作为评判员"的范式。与传统的量化指标不同，这种评估方法使用Gemini2.5-Pro这样的先进视觉语言模型作为"评委"，从三个维度对生成的视频进行综合评分。

指令遵循度评估AI是否准确理解并执行了用户的要求。这不仅包括表面的元素匹配，还包括对隐含意图的理解和创意表达的质量。条件保持度评估AI是否准确保留了输入条件中的关键信息，比如人物特征、物体属性、场景细节等。整体视觉质量则从美学角度评估视频的专业水准，包括画面质量、时间连贯性、运动自然度等。

这种多维度的评估方法确保了测试结果的全面性和可靠性。更重要的是，它能够捕捉到传统量化指标无法衡量的创意质量和智能水平，真正反映AI在复杂视频创作任务中的表现。

四、实验结果：OmniWeaving的卓越表现证明了什么

当OmniWeaving接受IntelligentVBench的全面测试时，结果令人震撼。在所有四个主要测试类别中，OmniWeaving都取得了开源模型中的最佳成绩，甚至在某些方面超越了专门针对特定任务优化的专业模型。

在隐含意图图片转视频测试中，OmniWeaving展现出了惊人的理解和推理能力。面对抽象的描述如"女孩们庆祝学期结束，表达自由"，普通的AI模型往往会产生僵硬或不合逻辑的动作，而OmniWeaving却能推理出符合情境的具体表现：女孩们会先表现出惊喜，然后拥抱庆祝，最后释放出纯真的快乐表情。

更令人印象深刻的是OmniWeaving的"思考模式"效果。实验数据显示，当启用思考模式时，OmniWeaving的平均表现提升了约15个百分点。这证明了推理过程对于高质量视频生成的重要性。就像一位经验丰富的导演在拍摄前会仔细思考每个镜头的含义和效果一样，AI的"思考"过程能够显著提升最终作品的质量。

在插值式双图片转视频测试中，OmniWeaving展现出了卓越的空间推理和叙事构建能力。面对从交通灯到历史建筑这样跨度极大的场景转换，它能够设计出合理的摄像机运动轨迹：从低角度拍摄交通灯开始，然后摄像机逐渐上升并平移，展现城市街道的繁忙景象，最后聚焦到宏伟的历史建筑上。整个过程不仅在视觉上流畅自然，在叙事逻辑上也完全合理。

组合式多图片转视频测试更是OmniWeaving的强项。在处理多个元素的协调时，其他模型经常出现元素遗漏、特征混淆或互动不自然的问题。而OmniWeaving却能准确保持每个元素的原始特征，同时创造出自然的互动关系。比如，在处理"第一张图片中的男人开始讲话，第二张图片中的女人站着不动，第三张图片中的女人也站着不动，双臂交叉"这样的复杂指令时，OmniWeaving能够精确控制每个人物的动作，创造出真实的社交场景。

在最具挑战性的文字-图片-视频转视频测试中，OmniWeaving同样表现出色。特别是在背景替换任务中，它能够完美保持前景对象的运动和特征，同时无缝融入新的背景环境。在对象替换任务中，OmniWeaving展现了精确的空间理解能力，能够让替换对象完全遵循原始对象的运动轨迹和交互逻辑。

与其他先进模型的对比实验进一步证明了OmniWeaving的优势。在与VINO、UniVideo等主流开源模型的直接对比中，OmniWeaving在几乎所有指标上都取得了显著领先。更重要的是，OmniWeaving展现出了更好的任务平衡能力——其他模型往往在某些任务上表现出色，但在其他任务上表现平平，而OmniWeaving却能在各种不同类型的任务中都保持稳定的高水准表现。

研究团队还进行了详细的消融实验，分析了各个组件对整体性能的贡献。结果显示，深度堆叠机制能够带来约8%的性能提升，这证明了多层语义信息对于复杂视频生成的重要性。思考模式的引入带来了更显著的改进，特别是在需要推理的任务中，性能提升可达20%以上。

在传统基准测试中，OmniWeaving同样表现优异。在VBench文本转视频测试中，尽管文本转视频训练数据仅占总训练数据的不到10%，OmniWeaving仍然取得了83.10分的高分，与专门优化的单任务模型相当。在OpenVE-Bench视频编辑测试中，OmniWeaving获得了3.15分的平均成绩，超越了大多数专业编辑模型。

这些结果不仅证明了OmniWeaving技术方案的有效性，更重要的是验证了统一框架处理多样化视频生成任务的可行性。传统方法需要为不同任务设计不同的模型和流程，而OmniWeaving证明了一个统一的智能系统可以同时掌握理解、推理和创作的综合能力。

用户研究也支持了这些技术指标。研究团队邀请了多位视频制作专业人士对OmniWeaving的输出进行评估，专家们普遍认为OmniWeaving生成的视频在创意性和技术质量方面都达到了令人满意的水平，特别是在处理复杂多模态输入时的表现让人印象深刻。

五、技术创新的深层意义：为什么这项突破如此重要

OmniWeaving的成功不仅仅是一个技术进步的里程碑，它更代表了人工智能视频生成领域的根本性转变。这种转变的深层意义远超出了技术本身，触及了人机交互、创意表达和数字内容创作的核心问题。

首先，OmniWeaving实现了从"执行型AI"到"理解型AI"的关键跃迁。传统的视频生成模型就像一个技艺精湛但缺乏创造力的工匠，它们能够精确执行明确的指令，但面对模糊或抽象的要求时就会束手无策。而OmniWeaving更像是一位有经验的艺术家，不仅能够理解技术要求，还能洞察创作意图，主动补充缺失的细节，甚至提出创意性的解决方案。

这种能力的获得标志着AI开始具备了类似人类的创作直觉。当我们向朋友描述想要的视频效果时，往往不需要详细说明每一个技术细节，因为人类能够基于常识和经验填补这些空白。OmniWeaving的思考机制让AI也获得了这种能力，它能够从有限的信息中推导出丰富的创作可能性。

其次，OmniWeaving解决了多模态信息融合的根本性挑战。在真实的创作场景中，灵感往往来自多种不同的源头：一段文字描述可能激发故事情节，一张照片可能确定视觉风格，一个视频片段可能提供运动参考。将这些异质信息有机融合，创造出统一协调的视频作品，一直是人工智能面临的巨大挑战。

OmniWeaving的成功证明了这个挑战是可以克服的。它不是简单地将不同模态的信息拼凑在一起，而是真正理解了它们之间的语义关联，能够在保持每种信息原有特征的基础上，创造出新的整体意义。这就像一位音乐家能够将不同乐器的声音编织成和谐的交响乐一样。

第三，OmniWeaving开创了统一化AI系统的新范式。长期以来，AI领域倾向于为不同任务开发专门的模型，这导致了系统的分散化和维护成本的居高不下。OmniWeaving证明了一个统一的智能系统可以同时掌握多种不同的能力，而且这些能力之间还能相互促进，产生协同效应。

这种统一化的好处不仅体现在技术效率上，更重要的是它让AI系统获得了更深层的理解能力。当一个系统既能理解静态图像，又能处理动态视频，还能解析文字描述时，它对世界的理解就会变得更加全面和深入。这种全面的理解能力反过来又能提升每个单独任务的表现。

第四，OmniWeaving推动了AI评估方法的创新。IntelligentVBench的创建不仅仅是为了测试这一个特定系统，它更代表了AI评估理念的重要转变。传统的评估方法过分关注技术指标，忽略了创意质量和智能水平的评估。IntelligentVBench通过引入推理测试、组合测试和意图理解测试，建立了评估AI创造力和智能水平的新标准。

这种评估方法的创新具有广泛的影响。它不仅能够更准确地评估视频生成系统的能力，还为其他创意AI系统的评估提供了参考模式。更重要的是，它鼓励研究者关注AI系统的智能化程度，而不仅仅是技术性能。

第五，OmniWeaving展示了学术研究追赶商业系统的可能路径。在AI快速发展的今天，商业系统往往在性能上领先于学术研究，这种差距有时让人感到沮丧。但OmniWeaving的成功证明，通过系统性的研究和创新，学术界完全有可能在某些方面达到甚至超越商业系统的水平。

这种追赶的实现不是通过简单的资源堆叠，而是通过深入理解问题本质，提出创新性的解决方案。OmniWeaving的思考机制、深度堆叠技术和统一训练框架都是这种创新思维的体现。

最后，OmniWeaving预示了人工智能视频生成技术的未来发展方向。它证明了AI系统不仅可以成为强大的工具，还可以成为有创造力的伙伴。在未来的内容创作中，人类创作者将不再需要精确地指定每一个技术细节，而是可以专注于创意构思和艺术表达，让AI承担更多的技术实现和细节完善工作。

这种人机协作模式将彻底改变数字内容创作的生态。它不仅会降低高质量视频制作的门槛，让更多人能够表达自己的创意，还会催生全新的创作形式和艺术表现手法。正如摄影技术的发明改变了视觉艺术的发展轨迹一样，智能视频生成技术也将开启创意表达的新纪元。