10月17号早上,“AI教母”李飞飞的团队搞出了个大动静——她创办的WorldLabs发布了个叫RTFM的模型,全称是Real-TimeFrameModel(实时帧模型)。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品


这东西不是简单的“AI画图”,而是能让AI真真切切“看懂3D空间”,甚至不用复杂的3D建模,给张2D照片就能生成不同角度的新画面,业内直接叫它“学会渲染的AI”。

要知道,李飞飞之前搞的ImageNet直接点燃了深度学习的热潮,现在这波RTFM,看样子是想把AI从“只会看、只会说”往“能动手、能做事”的方向推。

今天咱们就掰开揉碎了说,这RTFM到底牛在哪,又能改哪些行业的命。

不用拆房子看结构!RTFM凭啥能“一张图造世界”?

很多人可能不知道,以前AI想搞3D场景有多麻烦。要么得靠LiDAR扫一堆点云数据,要么得拍十几张不同角度的照片,还得人工调材质、打灯光,一套流程下来,建个小房间的模型都要几天。

但RTFM不一样,它走了条“捷径”——直接用海量视频数据“端到端”训练,不用中间拆任何步骤。

这东西最核心的突破,就是不依赖显式3D表征。通俗说就是,它不用像传统软件那样画“三角网格”“立体模型”,就靠输入的1张或几张2D照片,就能算出这个场景的3D结构。

比如你给它一张客厅的照片,它能立刻生成从阳台往客厅看的视角,连沙发扶手的阴影、茶几上水杯的反光都算得清清楚楚——这不是瞎猜,是它通过训练,已经摸透了3D几何、反射、阴影这些物理规律。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品

前谷歌高级工程师RuiDiao看完成果直接说,RTFM解决了“世界模型可扩展性”这个老大难问题。

以前的模型要么是数据少了不准,要么是数据多了跑不动,但RTFM能随着数据和算力增加,越跑越好。

举个实际的例子,现在用它重建真实地点,哪怕只给几张稀疏的照片,也能还原出街道的全貌,连路边树的疏密程度都差不了多少。

一块H100就够了!算力成本直接砍到“能用得起”

AI圈一直有个痛点:好模型都得靠“堆显卡”。比如之前想跑个复杂的3D生成模型,至少得好几块高端GPU,电费都能烧死人,普通公司根本用不起。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品

使用 RTFM 渲染的布满阳光的游泳池场景


但李飞飞团队这次把“效率”做到了极致——仅需一块英伟达H100GPU,就能实时渲染出3D一致的场景

这里得给大家算笔账,才能明白这有多夸张。如果直接用现有视频架构做交互,生成60帧的4K视频流,每秒要处理超过10万个token——这量差不多相当于一本《哈利・波特》的字数;

要是想维持1小时以上的交互,得处理1亿多个token,别说单卡,就算用个小服务器集群,成本也高到不现实。

但RTFM靠两个技术把算力降了下来:一个是“带位姿帧空间记忆”,它记画面不是全记,而是只记每个画面的“位置”和“关键信息”,比如某帧画面里“沙发在左、电视在右”;

另一个是“上下文调度”,生成新画面时,它只调取有用的记忆,不浪费算力在无关信息上。

这么一优化,单块H100就能跑满交互帧率,普通人买块高端消费级显卡,未来说不定都能用上这技术。

李飞飞团队在文章里说得很实在:“能随算力增长优雅扩展的简洁方法,才能吃得上算力成本下降的红利。”

现在GPU算力越来越便宜,RTFM这种“高效模型”,刚好能接住这波红利,从实验室走向实际应用。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品

RTFM 对地板上的复杂阴影和反射进行建模


从AR眼镜到家庭机器人:这东西要改哪些行业的命?

光技术牛没用,能落地才是真本事。RTFM的应用场景,几乎全是现在最火的赛道,而且每一个都能解决实际问题。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品

仅通过观察训练集中的视频,RTFM便学会了对三维几何、反射、阴影等复杂物理现象进行建模


先说元宇宙和AR/VR

以前做VR游戏、AR导航,最费钱的就是场景建模。现在用RTFM,开发商只要拍几张实景照片,就能生成可交互的3D场景。

比如博物馆想做线上导览,不用再请建模师画几个月,上传一批展品照片,AI就能搭好虚拟展厅,游客能在里面自由走,还能放大看展品细节

这成本至少能降一半,以后普通景区、小博物馆都能搞得起线上VR。

再看机器人和具身智能

李飞飞一直说,“我们想要的不是能看会说的AI,是能做的AI”。RTFM刚好能帮机器人“看懂”世界。比如家庭服务机器人要“把碗放进洗碗机”,得知道洗碗机在哪、碗怎么拿才不会摔。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品


RTFM能实时生成厨房的3D模型,还能预测碗的重量、洗碗机门的开合角度,帮机器人精准操作。

现在她搞的“Behavior1K”挑战赛,就是给机器人练手的——1000个家庭长任务,比如“收拾餐桌”“叠衣服”,让全球研究者用RTFM优化算法,以后机器人做家务说不定比人还靠谱。

最后是自动驾驶和工业自动化

自动驾驶最怕“被挡视线”,比如前车挡住了行人,传统摄像头很难判断。但RTFM用单目摄像头就能推断出被挡行人的位置,还能预测他要往哪走;

在工厂里,它能通过摄像头生成设备的3D数字孪生,实时检测机器有没有微小形变,以前要几小时查一次的故障,现在秒级就能发现。

李飞飞的“牌面”有多硬?

能搞出这么硬核的技术,背后的团队和资本支持肯定不一般。

WorldLabs是今年3月才成立的,到9月就融了2.3亿美元(约16亿人民币),领投的是a16z、NEA这些顶级VC,连AMD、Adobe的风投部门都来了,

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品


最关键的是英伟达创投也投了,黄仁勋这是直接用真金白银认了RTFM的价值。

更夸张的是,公司才24个人,成立3个月估值就冲到了10亿美元(约70亿人民币),平均每个人“值”3个多亿。

这团队里藏着不少大神:联合创始人BenMildenhall是NeRF技术的发明者(NeRF是现在3D重建的基础技术),ChristophLassner以前是EpicGames的核心工程师,管过虚拟人渲染引擎;

还有1/3是华人面孔,比如姚班毕业的吴佳俊,以前在Meta做过视频生成,技术互补性拉满。

李飞飞自己的“牌面”更是不用说。

她当年搞的ImageNet,直接让AI从“认不出猫”进化到“能识万物”,现在再做RTFM,相当于在ImageNet的基础上,给AI加了“空间感知”的能力。

资本愿意砸钱,就是赌她能再复制一次ImageNet的成功——把“空间智能”变成AI的基础能力,推动整个行业升级。

2025年出产品,从AGI到“以人为本”:李飞飞的下一步棋

现在RTFM还只是个技术成果,李飞飞的野心远不止于此。

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品


她已经明确说了,团队最早2025年推出产品,路线图都画好了:

第一步先做“空间智能大模型LWM”,让AI能深度理解3D、物理和时空概念;

第二步支持AR,以后戴AR眼镜看世界,AI能实时标注物体信息;

第三步就是落地机器人、自动驾驶,让AI真的“走进”现实世界做事。

为了推进行业发展,她还搞了个“Behavior1K”挑战赛,跟当年的ImageNet思路一样——以前AI图像识别没标准,ImageNet搞了百万张标注图,统一了评测标准;

现在机器人做任务没标准,有的研究做“拿杯子”,有的做“开门”,没法对比,Behavior1K就搞1000个家庭长任务,给全球研究者一个开放平台,一起优化算法。

李飞飞最近说过一句话,特别让人有感触:“我们正处在文明性的转折时刻,语言、空间、视觉、具身智能在融合,只要把‘以人为本’放在心里,这些技术就能造福人类。”

以前的AI很多是“炫技”,比如生成好看的图片、写流畅的文章,但RTFM不一样,它是在给AI打“生存基础”

李飞飞再放大招!RTFM模型单卡渲染3D场景,2025年推产品


只有先懂3D空间,AI才能真的帮人做事,这才是AGI(通用人工智能)最该走的方向之一。

现在看,RTFM不是一个孤立的模型,而是李飞飞布局“空间智能+世界模型”的关键一步。

从ImageNet到Behavior,从学术研究到创业落地,她一直在把AI从“实验室”推向“现实”。

2025年产品出来的时候,说不定我们就能用上能“看懂家”的机器人,戴上能“增强世界”的AR眼镜——到那时候,大家才能真正感受到,“能做的AI”到底有多不一样。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com