李飛飛萬字長(zhǎng)文解讀：AI真正的下一站是“空間智能”

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

李飛飛萬字長(zhǎng)文解讀：AI真正的下一站是“空間智能”

前沿在線

2025-12-24

1 評(píng)論 1952 瀏覽 21 收藏

18 分鐘

大模型會(huì)寫詩寫代碼，卻不會(huì)倒水開門。李飛飛萬字長(zhǎng)文指出：AI真正的下一站，不是語言智能，而是空間智能——理解世界、預(yù)測(cè)變化、參與行動(dòng)，才是真正的智能革命。

01 為什么我們?cè)谟懻摗翱臻g智能”？

過去幾年，大模型的快速演化讓我們習(xí)慣了一個(gè)“說得越來越像人”的AI世界。它能寫文案、能畫圖、能編代碼、能演講、能陪聊，仿佛進(jìn)入了智能的黃金時(shí)代。

但當(dāng)我們真正問自己一個(gè)問題：“這些AI，能走進(jìn)現(xiàn)實(shí)世界嗎？”答案依然是——還遠(yuǎn)著呢。

它能寫出十種喝水的方式，卻倒不好一杯水。它能生成極美的臥室圖，卻連“開門進(jìn)房間”的物理結(jié)構(gòu)都不理解。它能模擬醫(yī)生問診，卻不會(huì)扶老人過馬路。

這并不是AI不夠聰明，而是它的“聰明”停留在一種語言層面：理解句子、預(yù)測(cè)詞語、生成符號(hào)。這種“認(rèn)知智能”，其實(shí)是一種“屏幕里的智能”。

李飛飛這篇萬字長(zhǎng)文中反復(fù)強(qiáng)調(diào)一點(diǎn)：AI 革命走到了一個(gè)被語言“封印”的天花板上。

現(xiàn)在的 AI，看起來能言善道，但實(shí)際上像“黑暗中的文豪”，對(duì)世界毫無經(jīng)驗(yàn)。她直言：“AI 只會(huì)描述世界，但它不會(huì)生活在世界里?！?/p>

而要讓 AI 真正走進(jìn)物理世界，具備“行動(dòng)力”，空間智能（Spatial Intelligence）就是我們必須跨過的下一個(gè)臺(tái)階。

02 人類智能的起點(diǎn)：不是語言，而是空間

我們通常以為，語言是人類智能的起點(diǎn)。

但李飛飛提醒我們，事實(shí)剛好相反。一個(gè)嬰兒在學(xué)會(huì)說話之前，就已經(jīng)會(huì)做很多事了：抓玩具、摸輪廓、扔?xùn)|西、摔東西，甚至盯著水滴滾落發(fā)呆。

表面上看，這只是好奇心，實(shí)際上，這是空間智能在生長(zhǎng)——通過觀察與試錯(cuò)，嬰兒在“身體力行”地理解世界的規(guī)則。

空間智能，不是用來說話的，而是用來活著的。

在日常生活中，我們每一項(xiàng)動(dòng)作，幾乎都建立在對(duì)空間的直覺理解上：停車靠邊，要判斷輪胎與馬路牙子的距離；接住飛來的鑰匙，需要估算速度與軌跡；

不看杯子倒水，依賴的是對(duì)物體形狀和位置的記憶。這些事情我們做得毫不費(fèi)力，但背后都涉及復(fù)雜的空間計(jì)算。

更重要的是，人類文明的重大躍遷，往往就靠這類“空間感”觸發(fā)靈感。古希臘的埃拉托色尼通過觀察太陽影子的角度，測(cè)出了地球的圓周；

18世紀(jì)的哈格里夫斯將多個(gè)紡錘并列排布，創(chuàng)造出紡織效率提升八倍的“珍妮紡織機(jī)”；沃森與克里克則在擺弄鐵絲模型中，摸索出 DNA 的雙螺旋結(jié)構(gòu)——這些偉大發(fā)現(xiàn)，不是“算”出來的，是“看”出來、是“擺”出來的，是靠空間理解而非語言邏輯建構(gòu)的。

李飛飛說得直接：空間智能是行動(dòng)的基礎(chǔ)，而不是表達(dá)的產(chǎn)物。語言幫助我們溝通，但空間理解才幫助我們生存、創(chuàng)造和進(jìn)步。

03 為什么當(dāng)前AI不具備空間智能？

盡管我們已經(jīng)擁有了令人驚嘆的AI語言能力、圖像生成能力和代碼編寫能力，但在“理解世界”這件事上，它依然像個(gè)紙上談兵的孩子。

李飛飛指出，今天的大模型，學(xué)到的是“語言的皮膚”，不是“世界的骨架”。

這是因?yàn)楫?dāng)前AI的主流學(xué)習(xí)方式，都是基于“符號(hào)”——文字、標(biāo)簽、像素，它們學(xué)習(xí)的是詞與詞的關(guān)系、圖與圖的相似度，而不是物體與空間之間的真實(shí)互動(dòng)關(guān)系。

它們并不知道“水會(huì)流下來”、“影子在光照下會(huì)變形”、“玻璃是透明的”，它們只是根據(jù)訓(xùn)練數(shù)據(jù)生成“看起來像的東西”。

于是你會(huì)發(fā)現(xiàn)，AI生成的圖像雖然精美，但常出現(xiàn)奇怪的物理錯(cuò)誤：水從杯子外流出來、影子方向反了、手有六根指頭。這不是算力的問題，而是“沒有物理常識(shí)”的問題。

再看機(jī)器人，表面上已經(jīng)能抓取、能行走，甚至能“裝配零件”，但這些行為大多建立在“高度定制”的環(huán)境里——比如專用軌道、特定參數(shù)、腳本控制。換個(gè)場(chǎng)景，它就“手忙腳亂”。

機(jī)器人無法像人類那樣在復(fù)雜環(huán)境中做出泛化判斷，更無法真正理解“物體之間的關(guān)系”和“下一步該怎么做”。

AI在屏幕里看起來很聰明，一旦進(jìn)入現(xiàn)實(shí)世界，就會(huì)暴露“空間盲點(diǎn)”：不會(huì)判斷距離、不會(huì)識(shí)別障礙、不會(huì)預(yù)測(cè)結(jié)果。

李飛飛說，這是因?yàn)樗鼈儧]有“住在世界里”，它們只是“讀取了關(guān)于世界的描述”。而要讓AI真正走出“屏幕邊界”，它需要的不只是看圖說話，而是“參與世界”的能力。

這，正是空間智能的起點(diǎn)。

04 世界模型：讓 AI 走出屏幕，進(jìn)入現(xiàn)實(shí)

如果說語言智能讓AI學(xué)會(huì)“說話”，那么世界模型（World Models），就是讓AI開始“做事”的關(guān)鍵。

李飛飛在文章中提出，空間智能的核心載體，不是多模態(tài)大模型，而是具備世界建模能力的生成模型——這是一種全新的AI范式，它不再只生成文本、圖片或視頻，而是生成一個(gè)“可以持續(xù)存在、可以交互變化”的世界。

AI第一次從“語言描述”走向“物理構(gòu)建”。

她將世界模型的核心能力，拆解為三大要素，我們可以用一張“人類類比表”來幫助理解：

這背后的轉(zhuǎn)變非常關(guān)鍵：傳統(tǒng)大模型訓(xùn)練的是“下一句文本”，世界模型訓(xùn)練的則是“下一幀世界狀態(tài)”。

這意味著，AI不再是復(fù)述者、描述者，而是變成了一個(gè)“參與者”、“構(gòu)建者”，甚至是“行動(dòng)者”。

想象一下：你告訴AI“請(qǐng)幫我布置一個(gè)適合8人聚會(huì)的客廳”，它不僅生成圖紙，而是直接生成一個(gè)完整、可交互的3D場(chǎng)景；

你說“把水壺拿給我”，它不是理解“語言”，而是理解你與水壺的空間關(guān)系，預(yù)測(cè)路徑、避障、抓取、遞交——這一切依賴的不是語言，而是具身感知+空間推理+行為預(yù)測(cè)的整體智能。

李飛飛創(chuàng)立的 World Labs 正是在做這件事。

他們開發(fā)的 Marble 系統(tǒng)，正是一個(gè)能接收多模態(tài)輸入（語言、圖像、動(dòng)作指令），并生成一致的3D交互場(chǎng)景的世界模型系統(tǒng)。

Marble 不再只是“生成畫面”，而是能“維持一個(gè)世界”，讓用戶在里面走動(dòng)、探索、建構(gòu)。

世界模型，是讓AI走出屏幕、進(jìn)入現(xiàn)實(shí)的通道。它將AI從“會(huì)講故事”進(jìn)化為“能創(chuàng)造世界”的新物種。

05 空間智能會(huì)重做哪些行業(yè)？

當(dāng)AI擁有空間智能，它就不再是一個(gè)“內(nèi)容生成器”，而變成一個(gè)“現(xiàn)實(shí)世界的協(xié)作伙伴”。李飛飛認(rèn)為，這種能力的落地將帶來四個(gè)最重要的行業(yè)變革方向：

1）創(chuàng)意產(chǎn)業(yè)：從“畫畫”到“構(gòu)建世界”

過去的AI創(chuàng)作，是生成圖像、生成音樂、生成短片——它們都停留在二維屏幕里?？臻g智能的加入，讓創(chuàng)作從“表現(xiàn)”走向“構(gòu)建”。

導(dǎo)演可以直接生成一個(gè)可進(jìn)入、可漫游的虛擬電影場(chǎng)景，而不是靠綠幕加后期；

游戲開發(fā)者可以快速模擬多種物理互動(dòng)機(jī)制，加速劇情與環(huán)境的迭代；

建筑師可以提前“走進(jìn)”尚未建成的空間，對(duì)結(jié)構(gòu)與流線做出更人性化的優(yōu)化。

這一切的前提是：AI能理解空間邏輯、構(gòu)建三維世界，并支持與人互動(dòng)。

李飛飛舉了一個(gè)生動(dòng)的例子：過去我們是用圖紙“想象房子”，未來我們是“在AI生成的房子里走一圈再?zèng)Q定改哪里”。

2）機(jī)器人：從工具，走向協(xié)作伙伴

如果說空間智能是AI的核心感知能力，那么機(jī)器人就是其行動(dòng)延伸。

未來的機(jī)器人，不再是機(jī)械臂、倉儲(chǔ)搬運(yùn)、流水線操作員，而是具備空間理解力的“行動(dòng)者”與“助手”。

比如家庭助手：它能理解你“剛喝完水”的動(dòng)作，就去廚房拿水壺補(bǔ)滿杯子，而不是等你下指令；

比如實(shí)驗(yàn)室助手：它能自主協(xié)作實(shí)驗(yàn)流程，把研究者從重復(fù)性的操作中解放出來。

這種“看懂人+理解空間+預(yù)測(cè)行動(dòng)”的協(xié)作能力，正是空間智能帶來的躍遷。

AI不是拿來“替你做事”的，而是“跟你一起做事”的。

3）科學(xué)與醫(yī)療：多維模擬，加速突破

很多科學(xué)突破依賴的是空間結(jié)構(gòu)的直覺。

例如藥物開發(fā)，研究者需要理解分子的三維結(jié)合機(jī)制；材料設(shè)計(jì)，需要評(píng)估結(jié)構(gòu)變化對(duì)性能的影響；醫(yī)療影像，需要醫(yī)生在腦海中重建器官與病變位置。

空間智能 AI，可以在這些環(huán)節(jié)中扮演關(guān)鍵角色：它可以模擬無數(shù)可能的空間組合，加速推演，縮短試錯(cuò)周期。甚至在手術(shù)前，AI可以基于患者CT/MRI影像生成全息模型，讓醫(yī)生“預(yù)演手術(shù)”，提升成功率。

這是“從理解語言，到理解物體”的跨越，也是AI真正參與到“理解世界結(jié)構(gòu)”的開始。

4）教育：抽象知識(shí)，沉浸式體驗(yàn)

空間智能，還會(huì)深刻改變教育方式。過去我們靠想象力“理解原子結(jié)構(gòu)”“看懂地球公轉(zhuǎn)”“學(xué)習(xí)電磁場(chǎng)的方向”。

但對(duì)于很多學(xué)生來說，這些“看不到、摸不著”的知識(shí)，始終停留在記憶層面。

而擁有空間智能的AI，可以構(gòu)建沉浸式教學(xué)場(chǎng)景：讓你走進(jìn)細(xì)胞內(nèi)部、繞著DNA結(jié)構(gòu)飛一圈、在古戰(zhàn)場(chǎng)上穿梭、在數(shù)學(xué)幾何中旋轉(zhuǎn)。

知識(shí)不再是講述的，而是“進(jìn)入”的。

教育變成一場(chǎng)“空間旅程”，不僅提升理解，更激發(fā)好奇心。

李飛飛總結(jié)得很清晰：空間智能不是炫技，而是真正的“新型生產(chǎn)力”。它重構(gòu)的不只是工具，而是重塑“人如何與世界互動(dòng)”的方式。

06 為什么李飛飛強(qiáng)調(diào)“增強(qiáng)人，而不是替代人”？

當(dāng)“AI會(huì)說話”這件事變得越來越自然，我們開始焦慮“它是不是要搶我的工作”。

而李飛飛在這篇萬字長(zhǎng)文中反復(fù)強(qiáng)調(diào)一個(gè)基本立場(chǎng)：“AI不是來替代人類的，而是來增強(qiáng)人類的?！?/p>

語言模型的崛起，讓不少職業(yè)變得不安全——寫PPT、寫郵件、寫腳本似乎都可以被AI代勞。

但這正是“語言智能”的局限：它只能處理符號(hào)，無法理解動(dòng)機(jī)、情境與人本身。

而空間智能帶來的AI，則走向了另一個(gè)方向：從“替代”走向“協(xié)作”。李飛飛舉了許多例子：

在護(hù)理機(jī)構(gòu)中，AI可以協(xié)助照護(hù)人員進(jìn)行環(huán)境監(jiān)控、搬運(yùn)、提醒等操作，但不會(huì)剝奪老人的生活自主權(quán)。

在科研實(shí)驗(yàn)室中，AI機(jī)器人可以代替人類完成高度重復(fù)、標(biāo)準(zhǔn)化的操作，但發(fā)現(xiàn)科學(xué)規(guī)律的核心思考，依然由人來完成。

在設(shè)計(jì)創(chuàng)作中，AI可以幫助快速生成空間草圖與可交互場(chǎng)景，但真正有情感、有文化語義的“表達(dá)”，仍然需要人類的靈感點(diǎn)燃。

這是一個(gè)本質(zhì)性的理念差異：語言AI是“你說我做”，而空間AI是“你做我?guī)汀薄?/p>

后者強(qiáng)調(diào)配合、補(bǔ)位與增強(qiáng)——正如她所說的：“AI 的價(jià)值，不是取代人類的勞動(dòng)，而是讓我們做到原本做不到的事?！?/p>

這種“人機(jī)協(xié)作”的價(jià)值觀，不僅是李飛飛20多年AI研究者身份的總結(jié)，也是她在創(chuàng)業(yè)中親自實(shí)踐的底層信念。

她不談AGI神話，也不渲染AI末日，她只關(guān)心一件事：AI要如何為人類賦能，為人的尊嚴(yán)、能力與選擇，留出更大的空間。

07 AI 的未來不是更好說話，而是更會(huì)做事

我們已經(jīng)見證了語言智能帶來的“認(rèn)知革命”——從GPT-3到GPT-4，再到多模態(tài)模型如GPT-4V、Claude 2、Gemini Ultra，AI變得越來越能說、越來越能寫。

但李飛飛在這篇文章中提醒我們：真正的智能，不止于“說得漂亮”，更要“做得正確”。

空間智能，將開啟另一場(chǎng)“行動(dòng)革命”。它讓AI不再是坐在屏幕后講道理的“語文課代表”，而是走到現(xiàn)實(shí)中和人協(xié)同的“實(shí)習(xí)工程師”、”助理科學(xué)家“、”家庭照護(hù)員“、”創(chuàng)意導(dǎo)演“。

我們可以這樣描繪未來AI的三重躍遷：

從閱讀世界：AI能理解人類語言、圖像、視頻等符號(hào)信息；
到理解世界：AI能建立空間模型、推理物理關(guān)系、預(yù)測(cè)動(dòng)態(tài)；
再到建設(shè)世界：AI能創(chuàng)造、操作、協(xié)同，成為現(xiàn)實(shí)行動(dòng)的參與者。

這正是從“Words”走向“Worlds”的進(jìn)化。

而這場(chǎng)進(jìn)化，也正是李飛飛提出的下一站AI：空間智能的意義所在。

不是為了打造另一個(gè)神一樣的AGI，而是為了讓人類更自由地生活、創(chuàng)造與關(guān)懷；不是為了更快地替代人類，而是更深地增強(qiáng)人類。

真正的智能，不是能背多少書，而是能用知識(shí)去觸碰現(xiàn)實(shí)。

真正的未來，不是更好說話，而是更會(huì)做事。

真正的AI，不是造一個(gè)語言的宇宙，而是建一個(gè)理解世界、參與世界的“新物種”。

這，就是李飛飛心中，AI的下一站。

編輯：前沿在線編輯部

本文由 @前沿在線原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自百度官網(wǎng)截圖

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

前沿在線

前沿在線（www.FrontiersOnline.com）官方賬號(hào)，傳播科技新知

5篇作品 14818總閱讀量

如何成為交互設(shè)計(jì)師（一）- 初期篇

12-131717 瀏覽

地圖功能更全、行業(yè)更卷，離錢景還差幾步？

10-272091 瀏覽

以“工廠”視角來淺談產(chǎn)品經(jīng)理的工作推進(jìn)

12-15723 瀏覽

改進(jìn)到革新 — 尋找創(chuàng)造性解決方案

09-083589 瀏覽

抖音、快手、頭條、公眾號(hào)，小紅書，做自媒體，哪個(gè)更容易賺錢？

07-1910888 瀏覽

評(píng)論

Daylight

感謝翻譯學(xué)到了

最近來自浙江回復(fù)

一定會(huì)問到，但不好回答的產(chǎn)品經(jīng)理面試題（二）（附答案）

08-253981 瀏覽
拼多多如何開出高投產(chǎn)

10-056890 瀏覽
頂流網(wǎng)紅“秀才”翻車，“中老年收割機(jī)”易主？

09-054742 瀏覽

李飛飛萬字長(zhǎng)文解讀：AI真正的下一站是“空間智能”

01 為什么我們?cè)谟懻摗翱臻g智能”？

02 人類智能的起點(diǎn)：不是語言，而是空間

03 為什么當(dāng)前AI不具備空間智能？

04 世界模型：讓 AI 走出屏幕，進(jìn)入現(xiàn)實(shí)

05 空間智能會(huì)重做哪些行業(yè)？

1）創(chuàng)意產(chǎn)業(yè)：從“畫畫”到“構(gòu)建世界”

2）機(jī)器人：從工具，走向協(xié)作伙伴

3）科學(xué)與醫(yī)療：多維模擬，加速突破

4）教育：抽象知識(shí)，沉浸式體驗(yàn)

06 為什么李飛飛強(qiáng)調(diào)“增強(qiáng)人，而不是替代人”？

07 AI 的未來不是更好說話，而是更會(huì)做事

01 為什么我們?cè)谟懻摗翱臻g智能”？

02 人類智能的起點(diǎn)：不是語言，而是空間

04 世界模型：讓 AI 走出屏幕，進(jìn)入現(xiàn)實(shí)

05 空間智能會(huì)重做哪些行業(yè)？

2）機(jī)器人：從工具，走向協(xié)作伙伴

06 為什么李飛飛強(qiáng)調(diào)“增強(qiáng)人，而不是替代人”？