為什么AI能看到世界，卻不懂世界？

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

一帆

2025-12-19

0 評(píng)論 206 瀏覽 0 收藏

7 分鐘

今天的AI能識(shí)別圖像、流暢對(duì)話，卻仍被困在‘黑暗的文字匠’困境中。李飛飛提出的‘世界模型’概念揭示了一個(gè)殘酷真相：AI看到的只是像素排列與統(tǒng)計(jì)模式，而非真實(shí)的三維空間與物理法則。本文將深度拆解人類(lèi)認(rèn)知與AI‘偽理解’的本質(zhì)差異，帶你重新思考‘智能’的真正含義。

現(xiàn)在的 AI，真的讓人震撼。

它能一下認(rèn)出貓和狗，能看懂一張照片里發(fā)生了什么，還能跟你聊得頭頭是道，甚至看起來(lái)“很有智慧”。

于是很多人都會(huì)忍不住問(wèn)一句：AI 是不是已經(jīng)開(kāi)始理解這個(gè)世界了？

答案可能有點(diǎn)扎心——它看得見(jiàn)，但它并不真的懂。

李飛飛將今天的AI比作“黑暗中的文字匠”。它們只懂語(yǔ)言，不懂世界。

一、AI 真的“看見(jiàn)”了嗎？

從結(jié)果上看，AI 的確看見(jiàn)了。

你給它一張圖片，它可以告訴你：

這是一個(gè)杯子
那是一張桌子
杯子放在桌子上

聽(tīng)起來(lái)沒(méi)什么問(wèn)題，對(duì)吧？

但問(wèn)題在于：

AI 的“看見(jiàn)”，和人類(lèi)的“看見(jiàn)”，完全不是一回事。

二、人類(lèi)是怎么“看世界”的？

我們來(lái)看一個(gè)非常普通的場(chǎng)景：

一只杯子，放在桌子邊緣。

人類(lèi)幾乎不用思考，就會(huì)知道：

01、杯子是立體的

02、桌子在支撐它

03、再往外挪一點(diǎn)，杯子會(huì)掉下去

04、掉下去，大概率會(huì)摔碎

這些判斷幾乎是“本能”。

但你有沒(méi)有想過(guò)：你并不是因?yàn)椤白R(shí)別出了杯子和桌子”，才知道這些事情的。

你是因?yàn)椤?/p>

你生活在這個(gè)世界，你理解這個(gè)世界是怎么運(yùn)作的。

人類(lèi)“看世界”的方式遠(yuǎn)比接收視覺(jué)信號(hào)復(fù)雜得多。當(dāng)我們觀察環(huán)境時(shí)，大腦正在構(gòu)建一個(gè)動(dòng)態(tài)、多維的世界模型。

這個(gè)模型不僅包含物體的外觀，還包括它們的物理屬性、空間關(guān)系、運(yùn)動(dòng)規(guī)律和潛在功能。

三、在 AI 眼里，世界是“平的”

而對(duì)大多數(shù) AI 來(lái)說(shuō)，一張圖片意味著什么？本質(zhì)上只是：像素、數(shù)字、統(tǒng)計(jì)模式，AI 通過(guò)海量的文本和圖像數(shù)據(jù)學(xué)習(xí)，掌握了語(yǔ)言表達(dá)的規(guī)律，卻缺乏對(duì)物理世界的真實(shí)理解。

AI 知道：“杯子”這個(gè)詞，常常和某些形狀一起出現(xiàn)，“桌子”通常在杯子下面，“放在上面”是一個(gè)高頻描述。

但它并不知道：

01、杯子有重量

02、桌子是否能承重

03、重力一直存在

04、物體掉下去是不可逆的

換句話說(shuō)：

AI 看到的是一張“會(huì)說(shuō)話的照片”，而不是一個(gè)真實(shí)存在的空間。

四、一個(gè)關(guān)鍵差別：世界模型

這里有一個(gè)很重要、但不難理解的概念——

世界模型（World Model）。

“世界模型”是李飛飛空間智能概念的核心。一個(gè)真正的世界模型不僅能夠識(shí)別物體，還能夠理解物體之間的空間關(guān)系、物理約束和交互可能性。

你可以把它理解為：一個(gè)“腦內(nèi)的世界運(yùn)行說(shuō)明書(shū)”。

人類(lèi)的世界模型包括：

世界是三維的
物體會(huì)被遮擋，但不會(huì)消失
物理規(guī)律長(zhǎng)期穩(wěn)定存在
行為一定會(huì)帶來(lái)后果

而很多 AI：

沒(méi)有真正的三維世界
沒(méi)有物理直覺(jué)
不理解因果關(guān)系
只是在做模式匹配

所以它可以描述世界，卻無(wú)法真正理解世界。

五、會(huì)說(shuō)話 ≠ 懂世界

這也是為什么很多 AI 專(zhuān)家反復(fù)強(qiáng)調(diào)：語(yǔ)言，不等于世界本身。語(yǔ)言只是人類(lèi)對(duì)世界的總結(jié)和描述。

如果一個(gè) AI：只從文本中學(xué)習(xí)、只從圖片標(biāo)簽中學(xué)習(xí)、從未真正“接觸”過(guò)世界。

那它學(xué)到的，其實(shí)是：人類(lèi)是如何“談?wù)撌澜纭钡?/span>

而不是：世界是如何“運(yùn)作”的

語(yǔ)言模型就像“黑暗中的文字匠”，它們擅長(zhǎng)操縱符號(hào)和模式，卻不理解這些符號(hào)指向的現(xiàn)實(shí)。

六、AI 為什么總是犯“低級(jí)錯(cuò)誤”？

沒(méi)有世界模型的AI系統(tǒng)經(jīng)常會(huì)犯在人類(lèi)看來(lái)十分“低級(jí)”的錯(cuò)誤。這些錯(cuò)誤暴露了AI認(rèn)知的淺層本質(zhì)。

比如：在圖像生成領(lǐng)域，AI可以創(chuàng)作出視覺(jué)上令人驚嘆的作品，但仔細(xì)觀察，常常會(huì)發(fā)現(xiàn)違反物理定律的細(xì)節(jié)：錯(cuò)亂的光影方向、不可能的空間構(gòu)造、不符合解剖學(xué)的人體姿態(tài)。

這些“低級(jí)錯(cuò)誤”并非技術(shù)細(xì)節(jié)問(wèn)題，而是反映了當(dāng)前AI范式的根本局限。模式識(shí)別不能替代真實(shí)理解，統(tǒng)計(jì)相關(guān)性不等于因果關(guān)系。

七、真正的理解，來(lái)自互動(dòng)

人類(lèi)不是靠“說(shuō)明書(shū)”學(xué)會(huì)世界的。

我們是靠：行走、摔倒、嘗試、失敗、修正

正因?yàn)槿绱?，今?AI 研究中一個(gè)非常重要的方向是：讓 AI 進(jìn)入世界中學(xué)習(xí)。

也就是你可能聽(tīng)過(guò)的：空間智能、具身智能、世界模型

當(dāng) AI 能夠：感知環(huán)境、采取行動(dòng)、承擔(dān)后果、從失敗中學(xué)習(xí)。

它才有可能，真正開(kāi)始“懂”。

八、寫(xiě)在最后

未來(lái)，隨著空間智能的發(fā)展，我們或許會(huì)忘記AI曾經(jīng)是多么“笨拙”。它會(huì)成為預(yù)測(cè)你需求的家政伙伴、自主規(guī)劃路徑的出行助手，甚至能模擬分子運(yùn)動(dòng)的研發(fā)協(xié)作者。技術(shù)隱入生活體驗(yàn)的背后，曾讓我們驚訝的“笨拙”，終將成為數(shù)字進(jìn)化史上一段被淡忘的序章。

本文由 @一帆原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App