在3D重建这个被视为AI领域“硬骨头”的赛道上,苹果刚刚投下了一枚重磅炸弹。3月17日,苹果AI研究团队正式发布了名为LiTo(表面光场标记化)的3D生成大模型,一项仅凭单张平面图像就能生成高保真3D对象的黑科技。这不仅意味着3D内容创作的门槛将被大幅拉低,更让人遐想:它是否会成为苹果Vision Pro内容生态的“神队友”?
攻克“光影一致性”难题
长期以来,单图生成3D模型最大的痛点在于“光影的一致性”。当你旋转视角时,物体表面的反射、高光往往会变得扭曲或失真,让模型瞬间出戏。而苹果的LiTo模型,正是冲着这个“细节控”级别的难题而来。
LiTo的核心突破在于创新性地应用了潜在空间(Latent Space),并首创了统一的3D潜在表示法。简单来说,它通过一套精妙的“编码器-解码器”双向机制,将复杂的物体几何形状与光线交互规律,压缩为紧凑的数学向量集,再逆向解压还原。这使得模型能够精准复现镜面高光、菲涅尔反射等高级视觉效果,让生成的3D对象在不同视角下都拥有电影级的真实感。
性能跃升:较顶尖模型提升37%
为了打磨这个对光影“锱铢必较”的AI,苹果研究团队使用了包含数千个3D对象的数据集,并在150个不同视角、3种光照条件下进行了高强度训练。
最终的训练成果相当亮眼。在官方对比测试中,LiTo模型严格遵循摄像机坐标系,有效解决了同类模型常见的物体朝向错误问题。更关键的是,其在多视角光影一致性指标上,较当前业界顶尖的TRELLIS模型提升了约37%,视觉 fidelity 显著超越现有方法。
为空间计算时代铺路
这种对光影近乎偏执的追求,显然不只是为了技术炫技。业界普遍认为,这是苹果在为空间计算生态的爆发提前布局。
想象一下未来的场景:你只需用iPhone随手拍一张照片,LiTo模型就能在后台自动生成一个光影质感拉满的3D模型。这个模型不仅可以用于游戏开发、商品展示,更能无缝接入Vision Pro,让虚拟物体真正“坐”在你的茶几上,随着你的视角移动呈现出真实的光影变化。
中邮证券分析指出,3D生成大模型与AI视频生成底层技术同源,当前正由“能力验证”向“实用落地”迈进。对于正在努力构建内容生态的Vision Pro而言,LiTo的出现,无疑让每一个普通用户都有机会成为3D内容的创作者。虽然目前LiTo仍停留在研究阶段,但它已经向我们展示了一个“万物皆可3D”的未来正在加速到来。