為什么AI能看到世界,卻不懂世界?

0 評(píng)論 206 瀏覽 0 收藏 7 分鐘

今天的AI能識(shí)別圖像、流暢對(duì)話,卻仍被困在‘黑暗的文字匠’困境中。李飛飛提出的‘世界模型’概念揭示了一個(gè)殘酷真相:AI看到的只是像素排列與統(tǒng)計(jì)模式,而非真實(shí)的三維空間與物理法則。本文將深度拆解人類(lèi)認(rèn)知與AI‘偽理解’的本質(zhì)差異,帶你重新思考‘智能’的真正含義。

現(xiàn)在的 AI,真的讓人震撼。

它能一下認(rèn)出貓和狗,能看懂一張照片里發(fā)生了什么,還能跟你聊得頭頭是道,甚至看起來(lái)“很有智慧”。

于是很多人都會(huì)忍不住問(wèn)一句:AI 是不是已經(jīng)開(kāi)始理解這個(gè)世界了?

答案可能有點(diǎn)扎心——它看得見(jiàn),但它并不真的懂。

李飛飛將今天的AI比作“黑暗中的文字匠”。它們只懂語(yǔ)言,不懂世界。

一、AI 真的“看見(jiàn)”了嗎?

從結(jié)果上看,AI 的確看見(jiàn)了。

你給它一張圖片,它可以告訴你:

  • 這是一個(gè)杯子
  • 那是一張桌子
  • 杯子放在桌子上

聽(tīng)起來(lái)沒(méi)什么問(wèn)題,對(duì)吧?

但問(wèn)題在于:

AI 的“看見(jiàn)”,和人類(lèi)的“看見(jiàn)”,完全不是一回事。

二、人類(lèi)是怎么“看世界”的?

我們來(lái)看一個(gè)非常普通的場(chǎng)景:

一只杯子,放在桌子邊緣。

人類(lèi)幾乎不用思考,就會(huì)知道:

01、杯子是立體的

02、桌子在支撐它

03、再往外挪一點(diǎn),杯子會(huì)掉下去

04、掉下去,大概率會(huì)摔碎

這些判斷幾乎是“本能”。

但你有沒(méi)有想過(guò):你并不是因?yàn)椤白R(shí)別出了杯子和桌子”,才知道這些事情的。

你是因?yàn)椤?/p>

你生活在這個(gè)世界,你理解這個(gè)世界是怎么運(yùn)作的。

人類(lèi)“看世界”的方式遠(yuǎn)比接收視覺(jué)信號(hào)復(fù)雜得多。當(dāng)我們觀察環(huán)境時(shí),大腦正在構(gòu)建一個(gè)動(dòng)態(tài)、多維的世界模型。

這個(gè)模型不僅包含物體的外觀,還包括它們的物理屬性、空間關(guān)系、運(yùn)動(dòng)規(guī)律和潛在功能。

三、在 AI 眼里,世界是“平的”

而對(duì)大多數(shù) AI 來(lái)說(shuō),一張圖片意味著什么?本質(zhì)上只是:像素、數(shù)字、統(tǒng)計(jì)模式,AI 通過(guò)海量的文本和圖像數(shù)據(jù)學(xué)習(xí),掌握了語(yǔ)言表達(dá)的規(guī)律,卻缺乏對(duì)物理世界的真實(shí)理解。

AI 知道:“杯子”這個(gè)詞,常常和某些形狀一起出現(xiàn),“桌子”通常在杯子下面,“放在上面”是一個(gè)高頻描述。

但它并不知道:

01、杯子有重量

02、桌子是否能承重

03、重力一直存在

04、物體掉下去是不可逆的

換句話說(shuō):

AI 看到的是一張“會(huì)說(shuō)話的照片”,而不是一個(gè)真實(shí)存在的空間。

四、 一個(gè)關(guān)鍵差別:世界模型

這里有一個(gè)很重要、但不難理解的概念——

世界模型(World Model)。

“世界模型”是李飛飛空間智能概念的核心。一個(gè)真正的世界模型不僅能夠識(shí)別物體,還能夠理解物體之間的空間關(guān)系、物理約束和交互可能性。

你可以把它理解為:一個(gè)“腦內(nèi)的世界運(yùn)行說(shuō)明書(shū)”。

人類(lèi)的世界模型包括:

  • 世界是三維的
  • 物體會(huì)被遮擋,但不會(huì)消失
  • 物理規(guī)律長(zhǎng)期穩(wěn)定存在
  • 行為一定會(huì)帶來(lái)后果

而很多 AI:

  • 沒(méi)有真正的三維世界
  • 沒(méi)有物理直覺(jué)
  • 不理解因果關(guān)系
  • 只是在做模式匹配

所以它可以描述世界,卻無(wú)法真正理解世界。

五、 會(huì)說(shuō)話 ≠ 懂世界

這也是為什么很多 AI 專(zhuān)家反復(fù)強(qiáng)調(diào):語(yǔ)言,不等于世界本身。語(yǔ)言只是人類(lèi)對(duì)世界的總結(jié)和描述。

如果一個(gè) AI:只從文本中學(xué)習(xí)、只從圖片標(biāo)簽中學(xué)習(xí)、從未真正“接觸”過(guò)世界。

那它學(xué)到的,其實(shí)是:人類(lèi)是如何“談?wù)撌澜纭钡?/span>

而不是:世界是如何“運(yùn)作”的

語(yǔ)言模型就像“黑暗中的文字匠”,它們擅長(zhǎng)操縱符號(hào)和模式,卻不理解這些符號(hào)指向的現(xiàn)實(shí)。

六、AI 為什么總是犯“低級(jí)錯(cuò)誤”?

沒(méi)有世界模型的AI系統(tǒng)經(jīng)常會(huì)犯在人類(lèi)看來(lái)十分“低級(jí)”的錯(cuò)誤。這些錯(cuò)誤暴露了AI認(rèn)知的淺層本質(zhì)。

比如:在圖像生成領(lǐng)域,AI可以創(chuàng)作出視覺(jué)上令人驚嘆的作品,但仔細(xì)觀察,常常會(huì)發(fā)現(xiàn)違反物理定律的細(xì)節(jié):錯(cuò)亂的光影方向、不可能的空間構(gòu)造、不符合解剖學(xué)的人體姿態(tài)。

這些“低級(jí)錯(cuò)誤”并非技術(shù)細(xì)節(jié)問(wèn)題,而是反映了當(dāng)前AI范式的根本局限。模式識(shí)別不能替代真實(shí)理解,統(tǒng)計(jì)相關(guān)性不等于因果關(guān)系。

七、 真正的理解,來(lái)自互動(dòng)

人類(lèi)不是靠“說(shuō)明書(shū)”學(xué)會(huì)世界的。

我們是靠:行走、摔倒、嘗試、失敗、修正

正因?yàn)槿绱?,今?AI 研究中一個(gè)非常重要的方向是:讓 AI 進(jìn)入世界中學(xué)習(xí)。

也就是你可能聽(tīng)過(guò)的:空間智能、具身智能、世界模型

當(dāng) AI 能夠:感知環(huán)境、采取行動(dòng)、承擔(dān)后果、從失敗中學(xué)習(xí)。

它才有可能,真正開(kāi)始“懂”。

八、 寫(xiě)在最后

未來(lái),隨著空間智能的發(fā)展,我們或許會(huì)忘記AI曾經(jīng)是多么“笨拙”。它會(huì)成為預(yù)測(cè)你需求的家政伙伴、自主規(guī)劃路徑的出行助手,甚至能模擬分子運(yùn)動(dòng)的研發(fā)協(xié)作者。技術(shù)隱入生活體驗(yàn)的背后,曾讓我們驚訝的“笨拙”,終將成為數(shù)字進(jìn)化史上一段被淡忘的序章。

本文由 @一帆 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!