出品 | 网易科技《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

3D 生成的竞争,已经从“能不能生成”,转向“生成之后能不能用”。

这是影眸科技 (Hyper3D.AI)对这个赛道的核心判断。也正是这个判断,解释了它过去几年的选择:坚持原生3D,把可控性前置到模型设计里,不只追求单次生成效果,而是补齐分件、编辑、贴图、低面优化、引擎适配和仿真导出。

近日,影眸科技宣布完成新一轮数亿元人民币融资。本轮融资由凯辉基金、上海国投先导领投,老股东持续跟投。光源资本担任独家财务顾问。

与此同时,影眸科技发布最新模型 Hyper3D Rodin Gen-2.5,是全球首个支持千万面级模型生成和12K 原生3D 贴图的3D生成模型,并开创新地将类似大语言模型的“先思考、再生成”逻辑引入3D 生成。

据公司披露,Rodin Gen-2.5上线首月,订阅用户与年经常性收入(ARR)的环比增速均超过400%。我们了解到,目前,影眸海外收入占比70% 到80%,客户覆盖游戏、影视、电商、工业设计、汽车、3D 打印等领域。

更特别的是,这支团队几乎清一色是00后。创始人、CEO 吴迪出生于1997年,联合创始人、CTO 张启煊出生于1999年。成立六年间,团队在 SIGGRAPH、CVPR、ICCV 等顶级会议和期刊发表论文30余篇,四次获得图形学顶会 SIGGRAPH 最佳论文及提名,其算法团队每2人中就有1人获得或提名过最佳论文。

在影眸科技披露最新融资情况之际,我们和影眸科技创始人、CEO 吴迪,以及联合创始人、CTO 张启煊聊了聊。

以下是经删减整理后的对话。

提问:我们先聊聊最近发布的 Rodin Gen-2.5。据介绍这是全球首个具有千万面级模型生成能力的3D大模型,高面数的价值主要在哪里?

张启煊:千万面的核心价值,是把专业用户的创作上限拉高了。

首先,并非所有产品都有能力往高面数发展,行业当前一般可以做到百万面级模型的生成。

其实在这个版本之前,我们对3D模型的面数是最克制的,原因是当时觉得面数太高但解析力没上去,没有意义。就像相机像素高但镜头模糊没有意义,过去面数能堆高但细节是糊的。直到这个版本,我们发现解析力已经达到千万面级别,才一口气开放到千万面。

千万面有点像摄影中的RAW格式,占用更大空间,但保留了最完整的信息,有更高的后期自由度。并不是所有行业都需要千万面,但所有行业获得千万面后,能做的事会更多。

能直接用到千万面的,目前主要是3D 打印,打印精度越高,对面数的要求越高。对大多数行业来说,千万面更像一个高精度母版,再按需求向下派生。

以游戏为例:只给一个低面模型,美术师只能简单修一修就用;但给到千万面的母版,他可以在高模上雕刻细节,再把这些细节“烘焙”到一个轻量化版本上。游戏里跑得动,看起来又精细。

影视、高精度工业建模也是同样的路径:先有高精度母版,再派生出每个场景需要的版本。

所以,更高的面数意味着更高的后期自由度。这也是我们在千万面之外还开放12K贴图的原因,都是为了让用户有更高的创作自由度。

提问:面数过高在某些场景下是不是也会带来问题?

张启煊:是的,3D生成跟其他模态不一样,不是质量越高、细节越丰富就赢了,不同行业的需求不一样。

比如有客户的游戏要出口到东南亚,当地用户用的多是两三千元的手机,面数一高就带不动,模型加载要几十秒,游戏根本没法玩。

像《蛋仔派对》这样需要在用户实时游戏中即时生成的 Runtime 场景,需要的就是低面数、高效率的版本——主动过滤冗余细节,在低面限制下仍保持尽可能高的视觉质量。当时我们提供了多种模型,他们最后选了低面表达的模型。

这也是我们在Rodin Gen-2.5中提供五种“thinking effort”的原因。面数不是越高越好,而是要匹配场景。我们引入了类似大语言模型的运行逻辑:先思考、再生成,可实现生成时间从4s到80s的控制,覆盖从极速出图,到极致精模的全场景。

提问:从技术路线来看,你们没有走2D 升维路线,而是坚持3D 原生生成。这是否会在资产端和成本端带来更大挑战?

张启煊:现在3D原生已经是行业共识了,很少有人做2D升维了。但一开始确实很有挑战,最明显的问题就是3D数据太少。

我们在做3D原生生成框架CLAY时,当时整个学术界对3D生成最大的不确定性就在三维数据量级上。图像、文本大模型都是千万量级数据打底,但可用的三维数据只有80万,清洗后只剩50万。我们做的事,就是证明了用这个量级的数据也能训出可用的3D 大模型,而且原生3D 的效果,比从2D 升维训练的模型好一个量级。验证这条路径后,行业主流就都改路径了。

提问:相比大语言模型或图像模型,3D 数据相对有限。未来如果要继续提升智能化和泛化能力,数据问题怎么解决?

张启煊: 3D生成不是一个通用智能,所以不需要无限堆数据,而是根据不同使用需求去定向收集。

比如我们做分件功能,就从几千万高质量资产库里挑选适合分件的数据做post-training。

它不像文生图一样,需要有个前置的小的语言模型去阐述用户意图,3D生成大部分时候输入就是一张图,这张图已经包含了很多不需要言语表示的确定性信息。

3D的“智能”体现在对“世界”这个概念上,比如理解物品之间的位置关系、支撑关系、部件拼装关系。这类抽象的智能,很多是从语言模型中“学”出来的,靠语言模型去标注。

提问:增量数据主要通过哪些方式补充?

张启煊:一是商业采购。很多高质量的专业三维资产库是非开放的,有了资金之后我们可以直接采购授权。

二是与专业工作室合作。比如一些建模工作室会持续产出高质量模型。

现在我们的数据规模,已经比做 CLAY 那会儿大了很多。现在我们整体的数据体量,是业内最高水平,也远超巨头自有数据。

提问:目前技术迭代的主要方向是什么?

张启煊:现在很难严格区分一个优化到底是产品层面的,还是技术层面的。

比如我们刚在Rodin Gen-2.5推出的 Thinking Effort,它对应5种不同的思考深度。这从产品角度看,是希望用户拥有更大的后期空间;但从实现上看,又需要在技术训练底层加入新的东西。所以这类需求更像是由产品告诉技术和模型训练者应该怎么做。

包括我们的3D Editing,也是产品侧先想到的功能点,但最终落地需要技术侧实现。

目前来看,我们主要的技术演进方向还是放在两条线上:可控性 和 质量。

提问:版本号迭代逻辑是什么?不同版本迭代之间的训练算力成本大概如何?

张启煊:我们的版本号通常是:整数版本对应架构迭代,0.5版本对应 scaling。

每当有新的表征方式,我们会先在 x.5版本上做小范围实验,在现有架构上验证可行性;验证通过后,再在整数版本上围绕这个表征做 scaling 放大。

Rodin Gen-2.5的表达还有很多玩法没有释放,可控性设计也还有很大的探索空间。Gen-2.5是对这套新表达的初步验证,Gen-3.0会在新表达下带来更多新能力。

训练算力成本方面,因为团队对底层算法架构理解比较深,成本控制做得比较好,训练成本显著低于业内平均水平。

提问:看到你们客户其实还挺多的,大客户选择你们,主要原因是什么?

张启煊:发展到现在这个阶段,很难说哪个模型在绝对效果上能百分百超越其他模型。语言模型、图像模型也是一样,总会有些 case 是他们更好,有些 case 是我们更好。

但在可控性这一点上,我们是一骑绝尘的。对专业创作者来说,可控性特别重要,这也是他们选择我们的首要原因。

提问:你们所说的可控性,主要体现在哪些方面?

张启煊:比如我们有3D ControlNet,可以在生成时控制结果的长、宽、高和形状;还有递归分件技术,能将模型自动拆分为不同部件 ;也有一些特定 prompt,加入之后可以引导生成结果。

此外,我们还具备3D 编辑能力,支持通过自然语言对局部模型进行修改。这些能力到目前为止只有我们具备。

我们的平台也比较开放,我们支持所有三维模型在我们的平台上进行二次编辑。

提问:在可控性方面,相比友商,你们的领先是因为方向定得早,还是因为存在技术壁垒?

张启煊:其实行业里已经关注到可控性的重要性。用户反馈里,这个需求排得很靠前,说明行业对可控性的共识很强。

至于为什么目前只有我们做出来了,更可能是路径依赖的问题。

可控性的关键在于,要在模型预训练阶段就把相关设计放进去。如果一个模型已经完成预训练,再回头加可控能力会比较难,通常要等到下一代重新训练时才能补上。

我们因为长期理解3D 生成和专业领域需求,从 CLAY 开始就把“可控”作为核心目标之一。所以这部分能力是和模型底层一起长出来的,不是后期外挂上去的。

提问:目前收入中,海外和国内市场占比分别是多少?

吴迪:海外业务占比大约70%~80%,核心市场在北美。我们在北美的技术声誉和品牌声誉都很好。

比如今年英伟达官方披露的黄仁勋 CES Keynote 制作工作流程中,3D 资产生成环节采用了 Hyper3D Rodin。这个工作流程里还包括 DeepMind、OpenAI 等公司,而我们是其中唯一一家初创企业。

提问:B 端和 C 端的收入占比如何?

吴迪:最新数据大概是6:4,C 端略高于 B 端。

在 Hyper3D Rodin Gen-2.5上线后,C 端增长速度很快。新模型上线首月,订阅用户和 ARR 的环比增速都超过400%。

我们的整体定位有点像 Anthropic。B 端业务是我们重要的增长方向,在海外市场中,我们是份额的绝对头部。目前我们积累的 B 端客户数量,比业内其他公司加起来还多。

我们也观察到一个现象:随着 C 端用户上升,他们会开始采用 B 端服务。因为大部分 C 端用户其实不是纯粹的普通消费者,而是 Pro C,他们很可能把工具带到企业里使用。所以 B 端和 C 端几乎是1:1,增速也是正相关的。

提问:3D 用户群体相对固定,你们是否担心增长天花板?

张启煊:不会。3D 从业者本身就是一个基数很大的群体,否则也撑不起 Autodesk 这类公司。

随着模型能力一代代提升,3D 生成的横向边界和纵向边界都会继续拓展,我们能覆盖到的用户群体也会越来越大。

下一步,我们相信很多工业领域的3D 从业者也会开始使用这类工具,用户圈会进一步扩大。

所以用户圈的天花板,其实是跟着模型能力走的。

提问:你们怎么看“世界模型”这个方向?

张启煊:世界模型是一个比较大的概念,大家喜欢把很多东西都放到这个标签下面。

如果撕开这个标签,大家现在做的世界模型主要就是几件事情:

一是实时视频生成,像Google的Genie-3;另一件事是像我们做一个可仿真的环境,涉及资产、模拟器等;还有是像自动驾驶、机器人策略那些,做一个执行器。

我们在世界模型的版图里,更偏重做一个可仿真的资产。我们网站上有一个 Sim-Ready 功能,你按了之后可以一键导出,直接在英伟达Isaac Sim 的仿真环境里去做物理仿真。

所以现在有不少具身智能公司在用我们的模型做训练。这也很符合我们一贯的宗旨:做能用的东西。

提问:一级市场投资人现在对你们的估值、技术路线等有什么看法?

吴迪:我们现在的投资人还是会更关注模型技术本身。模型性能仍然会决定增长的斜率。

提问:团队目前的规模有多大?

吴迪:随着 AI 的发展,目前我们的扩张比较克制。团队总人数大概在60人左右。

提问:对公司一两年之后的发展预设是什么?

吴迪:一两年的周期相对比较短,我们认为三年内更多场景还是会集中在专业领域。

所以未来一两年,我们主要做两件事:

第一,继续精进底层模型的生成质量。

第二,拓展编辑、agent 化等能力,让模型在专业领域越来越好用。

再往后,要看3D 什么时候能被 C 端很好地使用。但即使这个时间点很快到来,现在继续精进底层模型生成质量也是正确的。

因为并不存在“质量稍微差一点,C 端用户就能接受”这样的情况。从最早200万像素摄像头,到现在手机能拍1亿像素,大家对创作内容质量的要求一直在提升。由此可以看出,C 端用户最终对3D 生成的需求,也一定会是既速度快、又质量好的生成体验。