李飛飛萬字長(zhǎng)文解讀:AI真正的下一站是“空間智能”

1 評(píng)論 1952 瀏覽 21 收藏 18 分鐘

大模型會(huì)寫詩寫代碼,卻不會(huì)倒水開門。李飛飛萬字長(zhǎng)文指出:AI真正的下一站,不是語言智能,而是空間智能——理解世界、預(yù)測(cè)變化、參與行動(dòng),才是真正的智能革命。

01 為什么我們?cè)谟懻摗翱臻g智能”?

過去幾年,大模型的快速演化讓我們習(xí)慣了一個(gè)“說得越來越像人”的AI世界。它能寫文案、能畫圖、能編代碼、能演講、能陪聊,仿佛進(jìn)入了智能的黃金時(shí)代。

但當(dāng)我們真正問自己一個(gè)問題:“這些AI,能走進(jìn)現(xiàn)實(shí)世界嗎?”答案依然是——還遠(yuǎn)著呢。

它能寫出十種喝水的方式,卻倒不好一杯水。它能生成極美的臥室圖,卻連“開門進(jìn)房間”的物理結(jié)構(gòu)都不理解。它能模擬醫(yī)生問診,卻不會(huì)扶老人過馬路。

這并不是AI不夠聰明,而是它的“聰明”停留在一種語言層面:理解句子、預(yù)測(cè)詞語、生成符號(hào)。這種“認(rèn)知智能”,其實(shí)是一種“屏幕里的智能”。

李飛飛這篇萬字長(zhǎng)文中反復(fù)強(qiáng)調(diào)一點(diǎn):AI 革命走到了一個(gè)被語言“封印”的天花板上。

現(xiàn)在的 AI,看起來能言善道,但實(shí)際上像“黑暗中的文豪”,對(duì)世界毫無經(jīng)驗(yàn)。她直言:“AI 只會(huì)描述世界,但它不會(huì)生活在世界里?!?/p>

而要讓 AI 真正走進(jìn)物理世界,具備“行動(dòng)力”,空間智能(Spatial Intelligence)就是我們必須跨過的下一個(gè)臺(tái)階。

02 人類智能的起點(diǎn):不是語言,而是空間

我們通常以為,語言是人類智能的起點(diǎn)。

但李飛飛提醒我們,事實(shí)剛好相反。一個(gè)嬰兒在學(xué)會(huì)說話之前,就已經(jīng)會(huì)做很多事了:抓玩具、摸輪廓、扔?xùn)|西、摔東西,甚至盯著水滴滾落發(fā)呆。

表面上看,這只是好奇心,實(shí)際上,這是空間智能在生長(zhǎng)——通過觀察與試錯(cuò),嬰兒在“身體力行”地理解世界的規(guī)則。

空間智能,不是用來說話的,而是用來活著的。

在日常生活中,我們每一項(xiàng)動(dòng)作,幾乎都建立在對(duì)空間的直覺理解上:停車靠邊,要判斷輪胎與馬路牙子的距離;接住飛來的鑰匙,需要估算速度與軌跡;

不看杯子倒水,依賴的是對(duì)物體形狀和位置的記憶。這些事情我們做得毫不費(fèi)力,但背后都涉及復(fù)雜的空間計(jì)算。

更重要的是,人類文明的重大躍遷,往往就靠這類“空間感”觸發(fā)靈感。古希臘的埃拉托色尼通過觀察太陽影子的角度,測(cè)出了地球的圓周;

18世紀(jì)的哈格里夫斯將多個(gè)紡錘并列排布,創(chuàng)造出紡織效率提升八倍的“珍妮紡織機(jī)”;沃森與克里克則在擺弄鐵絲模型中,摸索出 DNA 的雙螺旋結(jié)構(gòu)——這些偉大發(fā)現(xiàn),不是“算”出來的,是“看”出來、是“擺”出來的,是靠空間理解而非語言邏輯建構(gòu)的。

李飛飛說得直接:空間智能是行動(dòng)的基礎(chǔ),而不是表達(dá)的產(chǎn)物。語言幫助我們溝通,但空間理解才幫助我們生存、創(chuàng)造和進(jìn)步。

03 為什么當(dāng)前AI不具備空間智能?

盡管我們已經(jīng)擁有了令人驚嘆的AI語言能力、圖像生成能力和代碼編寫能力,但在“理解世界”這件事上,它依然像個(gè)紙上談兵的孩子。

李飛飛指出,今天的大模型,學(xué)到的是“語言的皮膚”,不是“世界的骨架”。

這是因?yàn)楫?dāng)前AI的主流學(xué)習(xí)方式,都是基于“符號(hào)”——文字、標(biāo)簽、像素,它們學(xué)習(xí)的是詞與詞的關(guān)系、圖與圖的相似度,而不是物體與空間之間的真實(shí)互動(dòng)關(guān)系。

它們并不知道“水會(huì)流下來”、“影子在光照下會(huì)變形”、“玻璃是透明的”,它們只是根據(jù)訓(xùn)練數(shù)據(jù)生成“看起來像的東西”。

于是你會(huì)發(fā)現(xiàn),AI生成的圖像雖然精美,但常出現(xiàn)奇怪的物理錯(cuò)誤:水從杯子外流出來、影子方向反了、手有六根指頭。這不是算力的問題,而是“沒有物理常識(shí)”的問題。

再看機(jī)器人,表面上已經(jīng)能抓取、能行走,甚至能“裝配零件”,但這些行為大多建立在“高度定制”的環(huán)境里——比如專用軌道、特定參數(shù)、腳本控制。換個(gè)場(chǎng)景,它就“手忙腳亂”。

機(jī)器人無法像人類那樣在復(fù)雜環(huán)境中做出泛化判斷,更無法真正理解“物體之間的關(guān)系”和“下一步該怎么做”。

AI在屏幕里看起來很聰明,一旦進(jìn)入現(xiàn)實(shí)世界,就會(huì)暴露“空間盲點(diǎn)”:不會(huì)判斷距離、不會(huì)識(shí)別障礙、不會(huì)預(yù)測(cè)結(jié)果。

李飛飛說,這是因?yàn)樗鼈儧]有“住在世界里”,它們只是“讀取了關(guān)于世界的描述”。而要讓AI真正走出“屏幕邊界”,它需要的不只是看圖說話,而是“參與世界”的能力。

這,正是空間智能的起點(diǎn)。

04 世界模型:讓 AI 走出屏幕,進(jìn)入現(xiàn)實(shí)

如果說語言智能讓AI學(xué)會(huì)“說話”,那么世界模型(World Models),就是讓AI開始“做事”的關(guān)鍵。

李飛飛在文章中提出,空間智能的核心載體,不是多模態(tài)大模型,而是具備世界建模能力的生成模型——這是一種全新的AI范式,它不再只生成文本、圖片或視頻,而是生成一個(gè)“可以持續(xù)存在、可以交互變化”的世界。

AI第一次從“語言描述”走向“物理構(gòu)建”。

她將世界模型的核心能力,拆解為三大要素,我們可以用一張“人類類比表”來幫助理解:

這背后的轉(zhuǎn)變非常關(guān)鍵:傳統(tǒng)大模型訓(xùn)練的是“下一句文本”,世界模型訓(xùn)練的則是“下一幀世界狀態(tài)”。

這意味著,AI不再是復(fù)述者、描述者,而是變成了一個(gè)“參與者”、“構(gòu)建者”,甚至是“行動(dòng)者”。

想象一下:你告訴AI“請(qǐng)幫我布置一個(gè)適合8人聚會(huì)的客廳”,它不僅生成圖紙,而是直接生成一個(gè)完整、可交互的3D場(chǎng)景;

你說“把水壺拿給我”,它不是理解“語言”,而是理解你與水壺的空間關(guān)系,預(yù)測(cè)路徑、避障、抓取、遞交——這一切依賴的不是語言,而是具身感知+空間推理+行為預(yù)測(cè)的整體智能。

李飛飛創(chuàng)立的 World Labs 正是在做這件事。

他們開發(fā)的 Marble 系統(tǒng),正是一個(gè)能接收多模態(tài)輸入(語言、圖像、動(dòng)作指令),并生成一致的3D交互場(chǎng)景的世界模型系統(tǒng)。

Marble 不再只是“生成畫面”,而是能“維持一個(gè)世界”,讓用戶在里面走動(dòng)、探索、建構(gòu)。

世界模型,是讓AI走出屏幕、進(jìn)入現(xiàn)實(shí)的通道。它將AI從“會(huì)講故事”進(jìn)化為“能創(chuàng)造世界”的新物種。

05 空間智能會(huì)重做哪些行業(yè)?

當(dāng)AI擁有空間智能,它就不再是一個(gè)“內(nèi)容生成器”,而變成一個(gè)“現(xiàn)實(shí)世界的協(xié)作伙伴”。李飛飛認(rèn)為,這種能力的落地將帶來四個(gè)最重要的行業(yè)變革方向:

1)創(chuàng)意產(chǎn)業(yè):從“畫畫”到“構(gòu)建世界”

過去的AI創(chuàng)作,是生成圖像、生成音樂、生成短片——它們都停留在二維屏幕里??臻g智能的加入,讓創(chuàng)作從“表現(xiàn)”走向“構(gòu)建”。

導(dǎo)演可以直接生成一個(gè)可進(jìn)入、可漫游的虛擬電影場(chǎng)景,而不是靠綠幕加后期;

游戲開發(fā)者可以快速模擬多種物理互動(dòng)機(jī)制,加速劇情與環(huán)境的迭代;

建筑師可以提前“走進(jìn)”尚未建成的空間,對(duì)結(jié)構(gòu)與流線做出更人性化的優(yōu)化。

這一切的前提是:AI能理解空間邏輯、構(gòu)建三維世界,并支持與人互動(dòng)。

李飛飛舉了一個(gè)生動(dòng)的例子:過去我們是用圖紙“想象房子”,未來我們是“在AI生成的房子里走一圈再?zèng)Q定改哪里”。

2)機(jī)器人:從工具,走向協(xié)作伙伴

如果說空間智能是AI的核心感知能力,那么機(jī)器人就是其行動(dòng)延伸。

未來的機(jī)器人,不再是機(jī)械臂、倉儲(chǔ)搬運(yùn)、流水線操作員,而是具備空間理解力的“行動(dòng)者”與“助手”。

比如家庭助手:它能理解你“剛喝完水”的動(dòng)作,就去廚房拿水壺補(bǔ)滿杯子,而不是等你下指令;

比如實(shí)驗(yàn)室助手:它能自主協(xié)作實(shí)驗(yàn)流程,把研究者從重復(fù)性的操作中解放出來。

這種“看懂人+理解空間+預(yù)測(cè)行動(dòng)”的協(xié)作能力,正是空間智能帶來的躍遷。

AI不是拿來“替你做事”的,而是“跟你一起做事”的。

3)科學(xué)與醫(yī)療:多維模擬,加速突破

很多科學(xué)突破依賴的是空間結(jié)構(gòu)的直覺。

例如藥物開發(fā),研究者需要理解分子的三維結(jié)合機(jī)制;材料設(shè)計(jì),需要評(píng)估結(jié)構(gòu)變化對(duì)性能的影響;醫(yī)療影像,需要醫(yī)生在腦海中重建器官與病變位置。

空間智能 AI,可以在這些環(huán)節(jié)中扮演關(guān)鍵角色:它可以模擬無數(shù)可能的空間組合,加速推演,縮短試錯(cuò)周期。甚至在手術(shù)前,AI可以基于患者CT/MRI影像生成全息模型,讓醫(yī)生“預(yù)演手術(shù)”,提升成功率。

這是“從理解語言,到理解物體”的跨越,也是AI真正參與到“理解世界結(jié)構(gòu)”的開始。

4)教育:抽象知識(shí),沉浸式體驗(yàn)

空間智能,還會(huì)深刻改變教育方式。過去我們靠想象力“理解原子結(jié)構(gòu)”“看懂地球公轉(zhuǎn)”“學(xué)習(xí)電磁場(chǎng)的方向”。

但對(duì)于很多學(xué)生來說,這些“看不到、摸不著”的知識(shí),始終停留在記憶層面。

而擁有空間智能的AI,可以構(gòu)建沉浸式教學(xué)場(chǎng)景:讓你走進(jìn)細(xì)胞內(nèi)部、繞著DNA結(jié)構(gòu)飛一圈、在古戰(zhàn)場(chǎng)上穿梭、在數(shù)學(xué)幾何中旋轉(zhuǎn)。

知識(shí)不再是講述的,而是“進(jìn)入”的。

教育變成一場(chǎng)“空間旅程”,不僅提升理解,更激發(fā)好奇心。

李飛飛總結(jié)得很清晰:空間智能不是炫技,而是真正的“新型生產(chǎn)力”。它重構(gòu)的不只是工具,而是重塑“人如何與世界互動(dòng)”的方式。

06 為什么李飛飛強(qiáng)調(diào)“增強(qiáng)人,而不是替代人”?

當(dāng)“AI會(huì)說話”這件事變得越來越自然,我們開始焦慮“它是不是要搶我的工作”。

而李飛飛在這篇萬字長(zhǎng)文中反復(fù)強(qiáng)調(diào)一個(gè)基本立場(chǎng):“AI不是來替代人類的,而是來增強(qiáng)人類的?!?/p>

語言模型的崛起,讓不少職業(yè)變得不安全——寫PPT、寫郵件、寫腳本似乎都可以被AI代勞。

但這正是“語言智能”的局限:它只能處理符號(hào),無法理解動(dòng)機(jī)、情境與人本身。

而空間智能帶來的AI,則走向了另一個(gè)方向:從“替代”走向“協(xié)作”。李飛飛舉了許多例子:

在護(hù)理機(jī)構(gòu)中,AI可以協(xié)助照護(hù)人員進(jìn)行環(huán)境監(jiān)控、搬運(yùn)、提醒等操作,但不會(huì)剝奪老人的生活自主權(quán)。

在科研實(shí)驗(yàn)室中,AI機(jī)器人可以代替人類完成高度重復(fù)、標(biāo)準(zhǔn)化的操作,但發(fā)現(xiàn)科學(xué)規(guī)律的核心思考,依然由人來完成。

在設(shè)計(jì)創(chuàng)作中,AI可以幫助快速生成空間草圖與可交互場(chǎng)景,但真正有情感、有文化語義的“表達(dá)”,仍然需要人類的靈感點(diǎn)燃。

這是一個(gè)本質(zhì)性的理念差異:語言AI是“你說我做”,而空間AI是“你做我?guī)汀薄?/p>

后者強(qiáng)調(diào)配合、補(bǔ)位與增強(qiáng)——正如她所說的:“AI 的價(jià)值,不是取代人類的勞動(dòng),而是讓我們做到原本做不到的事?!?/p>

這種“人機(jī)協(xié)作”的價(jià)值觀,不僅是李飛飛20多年AI研究者身份的總結(jié),也是她在創(chuàng)業(yè)中親自實(shí)踐的底層信念。

她不談AGI神話,也不渲染AI末日,她只關(guān)心一件事:AI要如何為人類賦能,為人的尊嚴(yán)、能力與選擇,留出更大的空間。

07 AI 的未來不是更好說話,而是更會(huì)做事

我們已經(jīng)見證了語言智能帶來的“認(rèn)知革命”——從GPT-3到GPT-4,再到多模態(tài)模型如GPT-4V、Claude 2、Gemini Ultra,AI變得越來越能說、越來越能寫。

但李飛飛在這篇文章中提醒我們:真正的智能,不止于“說得漂亮”,更要“做得正確”。

空間智能,將開啟另一場(chǎng)“行動(dòng)革命”。它讓AI不再是坐在屏幕后講道理的“語文課代表”,而是走到現(xiàn)實(shí)中和人協(xié)同的“實(shí)習(xí)工程師”、”助理科學(xué)家“、”家庭照護(hù)員“、”創(chuàng)意導(dǎo)演“。

我們可以這樣描繪未來AI的三重躍遷:

  1. 從閱讀世界:AI能理解人類語言、圖像、視頻等符號(hào)信息;
  2. 到理解世界:AI能建立空間模型、推理物理關(guān)系、預(yù)測(cè)動(dòng)態(tài);
  3. 再到建設(shè)世界:AI能創(chuàng)造、操作、協(xié)同,成為現(xiàn)實(shí)行動(dòng)的參與者。

這正是從“Words”走向“Worlds”的進(jìn)化。

而這場(chǎng)進(jìn)化,也正是李飛飛提出的下一站AI:空間智能的意義所在。

不是為了打造另一個(gè)神一樣的AGI,而是為了讓人類更自由地生活、創(chuàng)造與關(guān)懷;不是為了更快地替代人類,而是更深地增強(qiáng)人類。

真正的智能,不是能背多少書,而是能用知識(shí)去觸碰現(xiàn)實(shí)。

真正的未來,不是更好說話,而是更會(huì)做事。

真正的AI,不是造一個(gè)語言的宇宙,而是建一個(gè)理解世界、參與世界的“新物種”。

這,就是李飛飛心中,AI的下一站。

編輯:前沿在線 編輯部

本文由 @前沿在線 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自百度官網(wǎng)截圖

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感謝翻譯 學(xué)到了

    來自浙江 回復(fù)