00后团队、用户增速超400%，再融数亿元后，对话影眸科技CEO吴迪、CTO张启煊

出品 | 网易科技《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

3D 生成的竞争，已经从“能不能生成”，转向“生成之后能不能用”。

这是影眸科技（Hyper3D.AI）对这个赛道的核心判断。也正是这个判断，解释了它过去几年的选择：坚持原生3D，把可控性前置到模型设计里，不只追求单次生成效果，而是补齐分件、编辑、贴图、低面优化、引擎适配和仿真导出。

近日，影眸科技宣布完成新一轮数亿元人民币融资。本轮融资由凯辉基金、上海国投先导领投，老股东持续跟投。光源资本担任独家财务顾问。

与此同时，影眸科技发布最新模型 Hyper3D Rodin Gen-2.5，是全球首个支持千万面级模型生成和12K 原生3D 贴图的3D生成模型，并开创新地将类似大语言模型的“先思考、再生成”逻辑引入3D 生成。

据公司披露，Rodin Gen-2.5上线首月，订阅用户与年经常性收入（ARR）的环比增速均超过400%。我们了解到，目前，影眸海外收入占比70% 到80%，客户覆盖游戏、影视、电商、工业设计、汽车、3D 打印等领域。

更特别的是，这支团队几乎清一色是00后。创始人、CEO 吴迪出生于1997年，联合创始人、CTO 张启煊出生于1999年。成立六年间，团队在 SIGGRAPH、CVPR、ICCV 等顶级会议和期刊发表论文30余篇，四次获得图形学顶会 SIGGRAPH 最佳论文及提名，其算法团队每2人中就有1人获得或提名过最佳论文。

在影眸科技披露最新融资情况之际，我们和影眸科技创始人、CEO 吴迪，以及联合创始人、CTO 张启煊聊了聊。

以下是经删减整理后的对话。

提问：我们先聊聊最近发布的 Rodin Gen-2.5。据介绍这是全球首个具有千万面级模型生成能力的3D大模型，高面数的价值主要在哪里？

张启煊：千万面的核心价值，是把专业用户的创作上限拉高了。

首先，并非所有产品都有能力往高面数发展，行业当前一般可以做到百万面级模型的生成。

其实在这个版本之前，我们对3D模型的面数是最克制的，原因是当时觉得面数太高但解析力没上去，没有意义。就像相机像素高但镜头模糊没有意义，过去面数能堆高但细节是糊的。直到这个版本，我们发现解析力已经达到千万面级别，才一口气开放到千万面。

千万面有点像摄影中的RAW格式，占用更大空间，但保留了最完整的信息，有更高的后期自由度。并不是所有行业都需要千万面，但所有行业获得千万面后，能做的事会更多。

能直接用到千万面的，目前主要是3D 打印，打印精度越高，对面数的要求越高。对大多数行业来说，千万面更像一个高精度母版，再按需求向下派生。

以游戏为例：只给一个低面模型，美术师只能简单修一修就用；但给到千万面的母版，他可以在高模上雕刻细节，再把这些细节“烘焙”到一个轻量化版本上。游戏里跑得动，看起来又精细。

影视、高精度工业建模也是同样的路径：先有高精度母版，再派生出每个场景需要的版本。

所以，更高的面数意味着更高的后期自由度。这也是我们在千万面之外还开放12K贴图的原因，都是为了让用户有更高的创作自由度。

提问：面数过高在某些场景下是不是也会带来问题？

张启煊：是的，3D生成跟其他模态不一样，不是质量越高、细节越丰富就赢了，不同行业的需求不一样。

比如有客户的游戏要出口到东南亚，当地用户用的多是两三千元的手机，面数一高就带不动，模型加载要几十秒，游戏根本没法玩。

像《蛋仔派对》这样需要在用户实时游戏中即时生成的 Runtime 场景，需要的就是低面数、高效率的版本——主动过滤冗余细节，在低面限制下仍保持尽可能高的视觉质量。当时我们提供了多种模型，他们最后选了低面表达的模型。

这也是我们在Rodin Gen-2.5中提供五种“thinking effort”的原因。面数不是越高越好，而是要匹配场景。我们引入了类似大语言模型的运行逻辑：先思考、再生成，可实现生成时间从4s到80s的控制，覆盖从极速出图，到极致精模的全场景。

提问：从技术路线来看，你们没有走2D 升维路线，而是坚持3D 原生生成。这是否会在资产端和成本端带来更大挑战？

张启煊：现在3D原生已经是行业共识了，很少有人做2D升维了。但一开始确实很有挑战，最明显的问题就是3D数据太少。

我们在做3D原生生成框架CLAY时，当时整个学术界对3D生成最大的不确定性就在三维数据量级上。图像、文本大模型都是千万量级数据打底，但可用的三维数据只有80万，清洗后只剩50万。我们做的事，就是证明了用这个量级的数据也能训出可用的3D 大模型，而且原生3D 的效果，比从2D 升维训练的模型好一个量级。验证这条路径后，行业主流就都改路径了。

提问：相比大语言模型或图像模型，3D 数据相对有限。未来如果要继续提升智能化和泛化能力，数据问题怎么解决？

张启煊： 3D生成不是一个通用智能，所以不需要无限堆数据，而是根据不同使用需求去定向收集。

比如我们做分件功能，就从几千万高质量资产库里挑选适合分件的数据做post-training。

它不像文生图一样，需要有个前置的小的语言模型去阐述用户意图，3D生成大部分时候输入就是一张图，这张图已经包含了很多不需要言语表示的确定性信息。

3D的“智能”体现在对“世界”这个概念上，比如理解物品之间的位置关系、支撑关系、部件拼装关系。这类抽象的智能，很多是从语言模型中“学”出来的，靠语言模型去标注。

提问：增量数据主要通过哪些方式补充？

张启煊：一是商业采购。很多高质量的专业三维资产库是非开放的，有了资金之后我们可以直接采购授权。

二是与专业工作室合作。比如一些建模工作室会持续产出高质量模型。

现在我们的数据规模，已经比做 CLAY 那会儿大了很多。现在我们整体的数据体量，是业内最高水平，也远超巨头自有数据。

提问：目前技术迭代的主要方向是什么？

张启煊：现在很难严格区分一个优化到底是产品层面的，还是技术层面的。

比如我们刚在Rodin Gen-2.5推出的 Thinking Effort，它对应5种不同的思考深度。这从产品角度看，是希望用户拥有更大的后期空间；但从实现上看，又需要在技术训练底层加入新的东西。所以这类需求更像是由产品告诉技术和模型训练者应该怎么做。

包括我们的3D Editing，也是产品侧先想到的功能点，但最终落地需要技术侧实现。

目前来看，我们主要的技术演进方向还是放在两条线上：可控性和质量。

提问：版本号迭代逻辑是什么？不同版本迭代之间的训练算力成本大概如何？

张启煊：我们的版本号通常是：整数版本对应架构迭代，0.5版本对应 scaling。

每当有新的表征方式，我们会先在 x.5版本上做小范围实验，在现有架构上验证可行性；验证通过后，再在整数版本上围绕这个表征做 scaling 放大。

Rodin Gen-2.5的表达还有很多玩法没有释放，可控性设计也还有很大的探索空间。Gen-2.5是对这套新表达的初步验证，Gen-3.0会在新表达下带来更多新能力。

训练算力成本方面，因为团队对底层算法架构理解比较深，成本控制做得比较好，训练成本显著低于业内平均水平。

提问：看到你们客户其实还挺多的，大客户选择你们，主要原因是什么？

张启煊：发展到现在这个阶段，很难说哪个模型在绝对效果上能百分百超越其他模型。语言模型、图像模型也是一样，总会有些 case 是他们更好，有些 case 是我们更好。

但在可控性这一点上，我们是一骑绝尘的。对专业创作者来说，可控性特别重要，这也是他们选择我们的首要原因。

提问：你们所说的可控性，主要体现在哪些方面？

张启煊：比如我们有3D ControlNet，可以在生成时控制结果的长、宽、高和形状；还有递归分件技术，能将模型自动拆分为不同部件；也有一些特定 prompt，加入之后可以引导生成结果。

此外，我们还具备3D 编辑能力，支持通过自然语言对局部模型进行修改。这些能力到目前为止只有我们具备。

我们的平台也比较开放，我们支持所有三维模型在我们的平台上进行二次编辑。

提问：在可控性方面，相比友商，你们的领先是因为方向定得早，还是因为存在技术壁垒？

张启煊：其实行业里已经关注到可控性的重要性。用户反馈里，这个需求排得很靠前，说明行业对可控性的共识很强。

至于为什么目前只有我们做出来了，更可能是路径依赖的问题。

可控性的关键在于，要在模型预训练阶段就把相关设计放进去。如果一个模型已经完成预训练，再回头加可控能力会比较难，通常要等到下一代重新训练时才能补上。

我们因为长期理解3D 生成和专业领域需求，从 CLAY 开始就把“可控”作为核心目标之一。所以这部分能力是和模型底层一起长出来的，不是后期外挂上去的。

提问：目前收入中，海外和国内市场占比分别是多少？

吴迪：海外业务占比大约70%～80%，核心市场在北美。我们在北美的技术声誉和品牌声誉都很好。

比如今年英伟达官方披露的黄仁勋 CES Keynote 制作工作流程中，3D 资产生成环节采用了 Hyper3D Rodin。这个工作流程里还包括 DeepMind、OpenAI 等公司，而我们是其中唯一一家初创企业。

提问：B 端和 C 端的收入占比如何？

吴迪：最新数据大概是6:4，C 端略高于 B 端。

在 Hyper3D Rodin Gen-2.5上线后，C 端增长速度很快。新模型上线首月，订阅用户和 ARR 的环比增速都超过400%。

我们的整体定位有点像 Anthropic。B 端业务是我们重要的增长方向，在海外市场中，我们是份额的绝对头部。目前我们积累的 B 端客户数量，比业内其他公司加起来还多。

我们也观察到一个现象：随着 C 端用户上升，他们会开始采用 B 端服务。因为大部分 C 端用户其实不是纯粹的普通消费者，而是 Pro C，他们很可能把工具带到企业里使用。所以 B 端和 C 端几乎是1:1，增速也是正相关的。

提问：3D 用户群体相对固定，你们是否担心增长天花板？

张启煊：不会。3D 从业者本身就是一个基数很大的群体，否则也撑不起 Autodesk 这类公司。

随着模型能力一代代提升，3D 生成的横向边界和纵向边界都会继续拓展，我们能覆盖到的用户群体也会越来越大。

下一步，我们相信很多工业领域的3D 从业者也会开始使用这类工具，用户圈会进一步扩大。

所以用户圈的天花板，其实是跟着模型能力走的。

提问：你们怎么看“世界模型”这个方向？

张启煊：世界模型是一个比较大的概念，大家喜欢把很多东西都放到这个标签下面。

如果撕开这个标签，大家现在做的世界模型主要就是几件事情：

一是实时视频生成，像Google的Genie-3；另一件事是像我们做一个可仿真的环境，涉及资产、模拟器等；还有是像自动驾驶、机器人策略那些，做一个执行器。

我们在世界模型的版图里，更偏重做一个可仿真的资产。我们网站上有一个 Sim-Ready 功能，你按了之后可以一键导出，直接在英伟达Isaac Sim 的仿真环境里去做物理仿真。

所以现在有不少具身智能公司在用我们的模型做训练。这也很符合我们一贯的宗旨：做能用的东西。

提问：一级市场投资人现在对你们的估值、技术路线等有什么看法？

吴迪：我们现在的投资人还是会更关注模型技术本身。模型性能仍然会决定增长的斜率。

提问：团队目前的规模有多大？

吴迪：随着 AI 的发展，目前我们的扩张比较克制。团队总人数大概在60人左右。

提问：对公司一两年之后的发展预设是什么？

吴迪：一两年的周期相对比较短，我们认为三年内更多场景还是会集中在专业领域。

所以未来一两年，我们主要做两件事：

第一，继续精进底层模型的生成质量。

第二，拓展编辑、agent 化等能力，让模型在专业领域越来越好用。

再往后，要看3D 什么时候能被 C 端很好地使用。但即使这个时间点很快到来，现在继续精进底层模型生成质量也是正确的。

因为并不存在“质量稍微差一点，C 端用户就能接受”这样的情况。从最早200万像素摄像头，到现在手机能拍1亿像素，大家对创作内容质量的要求一直在提升。由此可以看出，C 端用户最终对3D 生成的需求，也一定会是既速度快、又质量好的生成体验。