ChatGPT的底層邏輯

7 評(píng)論 7993 瀏覽 47 收藏 74 分鐘

自從ChatGPT發(fā)布之后,其他技術(shù)原理和邏輯就成了很多人的分析對(duì)象。也有不少作者寫文章講述過(guò)其底層邏輯,每個(gè)人的角度和看法都不一致。這篇文章,作者從AI歷史出發(fā),結(jié)合之前大家對(duì)ChatGPT邏輯的判斷,給出了自己的看法,希望對(duì)你有所幫助。

“一些未知的東西正在做我們不知道的事情。”

——阿瑟·愛(ài)丁頓??

“為何不嘗試制作一個(gè)模擬兒童思維的程序呢?”?

——艾倫·圖靈

“只要是人腦能提出的問(wèn)題,它就能夠得到解決。”?

——庫(kù)爾特·哥德?tīng)?/p>

開始

傳說(shuō)中的掃地僧,在現(xiàn)實(shí)中極其罕見(jiàn)。

有些僧,只是在假裝掃地;而絕大多數(shù)“掃地僧”,并非真正的高僧。

電影《心靈捕手》講述了這樣一個(gè)少年天才,清潔工“呆萌”在大學(xué)拖地板時(shí),解出了麻省理工學(xué)院數(shù)學(xué)系教授給出的難題,他的天賦震驚了這位菲爾茨獎(jiǎng)(數(shù)學(xué)界的“諾貝爾獎(jiǎng)”)得主。

ChatGPT的底層邏輯

誰(shuí)是電影中貧苦而不羈的天才主角的原型?

人們也許會(huì)想起沃爾特·皮茨,一位在計(jì)算神經(jīng)科學(xué)領(lǐng)域工作的邏輯學(xué)家。

他提出了神經(jīng)活動(dòng)和生成過(guò)程的具有里程碑意義的理論表述,這些表述影響了認(rèn)知科學(xué)和心理學(xué)、哲學(xué)、神經(jīng)科學(xué)、計(jì)算機(jī)科學(xué)、人工神經(jīng)網(wǎng)絡(luò)和人工智能等不同領(lǐng)域,以及所謂的生成科學(xué)。

某種意義上,正是ChatGPT的源頭所在。

上世紀(jì)三十年代,皮茨在芝加哥大學(xué)掃地時(shí),大約是15歲。這是他人生當(dāng)中重要的轉(zhuǎn)折點(diǎn),也幾乎決定了當(dāng)今最火熱的神經(jīng)網(wǎng)絡(luò)的起點(diǎn)。

皮茨出身于一個(gè)窮苦家庭,和《心靈捕手》的主角一樣,打架之余靠在公共圖書館里借書自學(xué),他喜歡邏輯和數(shù)學(xué),還掌握了希臘語(yǔ)、拉丁語(yǔ)等多門語(yǔ)言。住在貧民區(qū)的他,12歲時(shí)花三天時(shí)間讀了羅素的《數(shù)學(xué)原理》,并寫信給作者指出其中的錯(cuò)誤。惜才如命的羅素立即邀請(qǐng)皮茨去劍橋大學(xué)當(dāng)研究生,未果。

15歲初中畢業(yè)時(shí),父親強(qiáng)行要他退學(xué)上班養(yǎng)家,皮茨離家出走了。無(wú)處可去的皮茨得知羅素要到芝加哥大學(xué)任教,只身前往,果真撞見(jiàn)了曠世大師。羅素愛(ài)才之心不減,將他推薦給哲學(xué)家卡爾納普教授。聽(tīng)聞皮茨是少年天才,卡爾納普把自己的《語(yǔ)言的邏輯句法》一書給皮茨看。皮茨很快看完,并將寫滿筆記的原書還給作者。這位著名的分析哲學(xué)家深感震撼,為初中畢業(yè)生皮茨安排了一份在芝加哥大學(xué)打掃衛(wèi)生的工作。

電影里那令觀眾動(dòng)容的一幕在現(xiàn)實(shí)世界出現(xiàn)了。掃地的工作不僅可以令皮茨不可不用流浪街頭,還讓他能跟隨大師們自由地探索真知。

命運(yùn)在此刻埋下的最大注腳,是讓這個(gè)可憐而又幸運(yùn)的孩子,在兩年之后遇見(jiàn)此生對(duì)他而言最重要的一個(gè)人。

1940年,17歲的皮茨與42歲的麥卡洛克教授相逢,從此兩人一起改變了世界。

與人生混亂不堪的皮茨截然不同,麥卡洛克先后就讀于哈佛、耶魯和哥倫比亞大學(xué),拿了一串眼花繚亂的學(xué)士、碩士和博士學(xué)位。麥卡洛克也不像《心理捕手》的那位落寞的心理學(xué)教授,他出生優(yōu)越,家庭幸福,事業(yè)蒸蒸日上,過(guò)著主流而正統(tǒng)的生活,學(xué)術(shù)上已經(jīng)受到廣泛贊譽(yù)。

可是,兩個(gè)仿佛來(lái)自不同時(shí)空的人,在思想的最深處走到了一起。

1943年,麥卡洛克和皮茨發(fā)表了題為《A Logical Calculus of the Ideas Immanent in Nervous Activity》的論文,首次提出神經(jīng)元的M-P模型。

該模型借鑒了已知的神經(jīng)細(xì)胞生物過(guò)程原理,是第一個(gè)神經(jīng)元數(shù)學(xué)模型,是人類歷史上第一次對(duì)大腦工作原理描述的嘗試。

ChatGPT的底層邏輯

M-P模型

M-P神經(jīng)元是一個(gè)理想化的簡(jiǎn)單模型,基于生物神經(jīng)元的基礎(chǔ)特性進(jìn)行建模。

其工作原理如下:

神經(jīng)元接收一組二進(jìn)制輸入,每個(gè)輸入都與一個(gè)權(quán)重相對(duì)應(yīng);

當(dāng)加權(quán)輸入之和超過(guò)某個(gè)閾值時(shí),神經(jīng)元被激活并輸出1,否則輸出0。

這種機(jī)制很好地模擬了生物神經(jīng)元的”全部或無(wú)”的響應(yīng)模式。

M-P模型的影響力在于它是一個(gè)很好的開始,為后來(lái)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型鋪平了道路。然而,M-P模型也有很大的局限性,比如它無(wú)法學(xué)習(xí)和調(diào)整自己的權(quán)重,以及只能處理二進(jìn)制輸入和輸出。

這個(gè)模型是人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)發(fā)展的基石。

現(xiàn)代的神經(jīng)網(wǎng)絡(luò)模型比McCulloch-Pitts模型復(fù)雜得多,但是它們的基本原理——根據(jù)輸入計(jì)算輸出,并且有可能調(diào)整自身以優(yōu)化這個(gè)過(guò)程——仍然是相同的。

麥卡洛克和皮茨的論文不僅是人工智能歷史上的一個(gè)重要里程碑,為理解大腦工作機(jī)制和發(fā)展人工智能打下了基礎(chǔ),還啟發(fā)了人們:生物大腦“有可能”是通過(guò)物理的、全機(jī)械化的邏輯運(yùn)算來(lái)完成信息處理的,而無(wú)需太多弗洛伊德式的神秘解釋。

麥卡洛克后來(lái)在一篇哲學(xué)文章里自豪地宣告:“我們知道了我們是怎么知道的,這是科學(xué)史上的第一次?!?/strong>

(本節(jié)部分參考了《人工智能簡(jiǎn)史》和《智慧的疆界》)

麥卡洛克和皮茨發(fā)表那篇里程碑式論文的同一年,艾倫·圖靈正在布萊切利公園破譯德國(guó)恩尼格瑪密碼機(jī)。他和團(tuán)隊(duì)用智慧拯救了數(shù)十萬(wàn)的生命,對(duì)盟軍在二戰(zhàn)中的勝利起到了關(guān)鍵作用。

他們的交集同樣與羅素有關(guān)。

在20世紀(jì)初,數(shù)學(xué)家和邏輯學(xué)家都在試圖找到一種能夠?qū)⑺械臄?shù)學(xué)真理減少到一套簡(jiǎn)單的公理和邏輯規(guī)則的系統(tǒng)。

這就是著名的希爾伯特計(jì)劃,由德國(guó)數(shù)學(xué)家大衛(wèi)·希爾伯特提出。羅素及其合作者懷特海在《數(shù)學(xué)原理》一書中就做了這樣的嘗試,他們?cè)噲D將數(shù)學(xué)基礎(chǔ)建立在形式邏輯的基礎(chǔ)之上。然而,希爾伯特計(jì)劃在1931年遭到了挫敗,因?yàn)楦绲聽(tīng)栕C明了他的不完備性定理。

這個(gè)定理表明:任何足夠強(qiáng)大的形式系統(tǒng),都存在一些在該系統(tǒng)內(nèi)部既不能被證明也不能被反駁的命題。

ChatGPT的底層邏輯

1936年,圖靈在一篇論文里研究了希爾伯特的“計(jì)算性”和“判定性問(wèn)題”。

為了解決這個(gè)問(wèn)題,圖靈首先定義了“計(jì)算”這個(gè)概念,并創(chuàng)建了圖靈機(jī),這是一種理論上的計(jì)算設(shè)備。然后,他通過(guò)構(gòu)造了一個(gè)圖靈機(jī)無(wú)法解決的問(wèn)題(即停機(jī)問(wèn)題)來(lái)證明判定問(wèn)題實(shí)際上是無(wú)法解決的。

這意味著沒(méi)有一個(gè)通用的算法能對(duì)任何可能的問(wèn)題都給出答案。

一個(gè)意外收獲是:圖靈創(chuàng)立了一個(gè)新的研究領(lǐng)域——計(jì)算理論(或可計(jì)算性)。圖靈機(jī)給出了一個(gè)對(duì)“計(jì)算”或“算法”進(jìn)行形式化的方式,這不僅在他的原始問(wèn)題中有用,而且對(duì)整個(gè)計(jì)算機(jī)科學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。

實(shí)際上,現(xiàn)代所有的電子計(jì)算機(jī)都是基于圖靈機(jī)模型的,這使得圖靈機(jī)成為了計(jì)算理論的核心。

ChatGPT的底層邏輯

沒(méi)有證據(jù)表明麥卡洛克和皮茨看過(guò)圖靈的論文。他們兩個(gè)人的共同興趣是,應(yīng)用萊布尼茨機(jī)械大腦的設(shè)想來(lái)建立一個(gè)大腦思維模型。

《數(shù)學(xué)原理》中僅使用了與、或、非三種基本邏輯運(yùn)算,就將一個(gè)個(gè)簡(jiǎn)單命題連接成越來(lái)越復(fù)雜的關(guān)系網(wǎng)絡(luò),進(jìn)而描述清楚了整個(gè)數(shù)學(xué)體系。(盡管并不完備)

ChatGPT的底層邏輯

麥卡洛克則構(gòu)想:人類的思考,是否也是靠神經(jīng)元來(lái)執(zhí)行這些最基礎(chǔ)的邏輯運(yùn)算而實(shí)現(xiàn)的?

皮茨在數(shù)學(xué)和邏輯上天賦,幫助麥卡洛克完成了這一偉大構(gòu)想。

ChatGPT的底層邏輯

麥卡洛克和皮茨(左)

麥卡洛克和皮茨在1943年提出的神經(jīng)元模型,構(gòu)成了今天我們稱之為人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

他們的模型描繪了一種簡(jiǎn)化的神經(jīng)元,當(dāng)其接受到的輸入超過(guò)一定閾值時(shí),就會(huì)被激活并向其它神經(jīng)元發(fā)送信號(hào)。

這個(gè)模型的一個(gè)關(guān)鍵思想就是,即使每個(gè)單獨(dú)的神經(jīng)元都很簡(jiǎn)單,但是通過(guò)將它們聯(lián)接在一起,就能形成一個(gè)能處理非常復(fù)雜問(wèn)題的網(wǎng)絡(luò)。

雖然單一的麥卡洛克-皮茨神經(jīng)元只能完成簡(jiǎn)單的邏輯任務(wù),但是,當(dāng)將這些神經(jīng)元組成一個(gè)復(fù)雜的網(wǎng)絡(luò)時(shí),神經(jīng)網(wǎng)絡(luò)就能進(jìn)行復(fù)雜的計(jì)算,從而表現(xiàn)出圖靈完備性。

事實(shí)上,神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)人工智能(AI)的重要方法之一。

通過(guò)設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu),并使用大量的數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,人工神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到完成各種任務(wù)的能力,包括圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等等。

AI的神經(jīng)網(wǎng)絡(luò),是對(duì)人類大腦和基于社會(huì)化網(wǎng)絡(luò)的人類群體智慧模仿游戲。

人類大腦神經(jīng)元結(jié)構(gòu)和工作原理如下:

ChatGPT的底層邏輯

圖片來(lái)自《深度學(xué)習(xí)的數(shù)學(xué)》一書。

以上原理,用計(jì)算模擬和解釋,就是:神經(jīng)元在信號(hào)之和超過(guò)閾值時(shí)點(diǎn)火,不超過(guò)閾值時(shí)不點(diǎn)火。

20世紀(jì)五六十年代,????奧利弗·塞弗里奇創(chuàng)造了名為“鬼域”的概念。這是一個(gè)圖案識(shí)別設(shè)備,其中進(jìn)行特征檢測(cè)的“惡魔”通過(guò)互相競(jìng)爭(zhēng),來(lái)爭(zhēng)取代表圖像中對(duì)象的權(quán)利。

“鬼域”是生動(dòng)的關(guān)于深度學(xué)習(xí)的隱喻,如下圖:

ChatGPT的底層邏輯

圖片來(lái)自《深度學(xué)習(xí)》一書。

上圖是對(duì)當(dāng)前多層次深度學(xué)習(xí)網(wǎng)絡(luò)的隱喻:

  1. 從左到右,是從低到高的惡魔級(jí)別。
  2. 如果每個(gè)級(jí)別的惡魔與前一個(gè)級(jí)別的輸入相匹配,就會(huì)興奮(點(diǎn)火)。?
  3. 高級(jí)別的惡魔負(fù)責(zé)從下一級(jí)的輸入中提取更復(fù)雜的特征和抽象概念,從而做出決定。然后傳遞給自己的上級(jí)。
  4. 最終,由大惡魔做出最終決定。

《深度學(xué)習(xí)的數(shù)學(xué)》一書中,依照如上隱喻,用一個(gè)生動(dòng)的例子,講解了神經(jīng)網(wǎng)絡(luò)的工作原理。

問(wèn)題:建立一個(gè)神經(jīng)網(wǎng)絡(luò),用來(lái)識(shí)別通過(guò) 4×3 像素的圖像讀取的手寫數(shù)字 0 和 1。

ChatGPT的底層邏輯

第一步:輸入層

12個(gè)格子,相當(dāng)于每個(gè)格子住一個(gè)人,分別編號(hào)為1-12。如下圖。

ChatGPT的底層邏輯

第二步:隱藏層

這一層,負(fù)責(zé)特征提取。假設(shè)有如下三種主要特征,分為為模式A、B、C。如下圖。

ChatGPT的底層邏輯

不同的模式對(duì)應(yīng)著相應(yīng)的數(shù)字格子的組合。如下圖。模式A對(duì)應(yīng)的是數(shù)字4和7,B對(duì)應(yīng)5和8,C對(duì)應(yīng)6和9。

ChatGPT的底層邏輯

第三步:輸出層

這一層,從隱藏層那里獲得信息。

ChatGPT的底層邏輯

如上圖,最下面是AI要識(shí)別的圖像。

首先,輸入層的2、5、8、11點(diǎn)火;

然后,隱藏層5和8所對(duì)應(yīng)的特征被提取,“模式B”點(diǎn)火;

最后,輸出層的1被對(duì)應(yīng)的“模式B”點(diǎn)火。

所以,“大惡魔”識(shí)別出圖像為數(shù)字1。

在上面的例子里,AI可以精確地識(shí)別出0和1,但它并不懂0和1,它的眼里只有像素。

可這么說(shuō),似乎過(guò)于擬人化了。人類又如何懂0和1呢?

人類不也是通過(guò)雙眼輸入,通過(guò)迄今仍是宇宙間最大謎團(tuán)的大腦神經(jīng)元網(wǎng)絡(luò)(更加復(fù)雜、強(qiáng)大且節(jié)能的隱藏層)提取特征,然后通過(guò)大腦的某個(gè)部位再進(jìn)行自我解釋的嗎?

辛頓曾在采訪中提及,認(rèn)知科學(xué)領(lǐng)域兩個(gè)學(xué)派關(guān)于“大腦處理視覺(jué)圖像”的不同理念:

一派認(rèn)為,當(dāng)大腦處理視覺(jué)圖像時(shí),你擁有的是一組正在移動(dòng)的像素。如同上面的演示;

另一學(xué)派偏向于老派的人工智能,認(rèn)為是分層、結(jié)構(gòu)性的描述,腦內(nèi)處理的是符號(hào)結(jié)構(gòu)。

辛頓自己則認(rèn)為以上兩派都不對(duì),“實(shí)際上大腦內(nèi)部是多個(gè)神經(jīng)活動(dòng)的大向量?!?/strong>而符號(hào)只是存在于外部世界。

不管怎樣,神經(jīng)網(wǎng)絡(luò)的模型有用,并且非常有用。

不愿意和外行分享專業(yè)話題的辛頓,用如下這段話生動(dòng)介紹了“神經(jīng)網(wǎng)絡(luò)”:

首先是相對(duì)簡(jiǎn)單的處理元素,也就是松散的神經(jīng)元模型。然后神經(jīng)元會(huì)連接起來(lái),每一個(gè)連接都有其權(quán)值,這種權(quán)值通過(guò)學(xué)習(xí)可以改變。

神經(jīng)元要做的事就是將連接的活動(dòng)量與權(quán)值相乘,然后累加,再?zèng)Q定是否發(fā)送結(jié)果。如果得到的數(shù)字足夠大,就會(huì)發(fā)送一個(gè)結(jié)果。如果數(shù)字是負(fù)的,就不會(huì)發(fā)送任何信息。

你要做的事就是將無(wú)數(shù)的活動(dòng)與無(wú)數(shù)的權(quán)重聯(lián)系起來(lái),然后搞清如何改變權(quán)重,那樣就行了。問(wèn)題的關(guān)鍵就是如何改變權(quán)重。

ChatGPT的底層邏輯極其復(fù)雜,但如果要簡(jiǎn)化為3個(gè)最核心的元素,ChatGPT-4認(rèn)為它們可能是:

1、深度學(xué)習(xí):ChatGPT的核心是一個(gè)基于 Transformer 的深度學(xué)習(xí)模型。

Transformer模型通過(guò)自注意力(Self-Attention)機(jī)制來(lái)捕獲輸入文本中的復(fù)雜模式。在訓(xùn)練過(guò)程中,模型通過(guò)反向傳播和梯度下降等優(yōu)化算法來(lái)學(xué)習(xí)這些模式,使得它能夠生成自然、連貫、與輸入相符的文本。

2、大數(shù)據(jù):ChatGPT通過(guò)訓(xùn)練海量的文本數(shù)據(jù)來(lái)學(xué)習(xí)語(yǔ)言模型。

數(shù)據(jù)集包含了各種語(yǔ)言模式和語(yǔ)境,使模型能夠在各種情況下生成合適的文本。大數(shù)據(jù)在這里起到了決定性的作用。

3、強(qiáng)大的計(jì)算能力:為了處理這些大量的數(shù)據(jù)和復(fù)雜的深度學(xué)習(xí)模型,ChatGPT需要強(qiáng)大的計(jì)算能力。

這包括強(qiáng)大的硬件(如高性能的GPU),優(yōu)秀的計(jì)算框架(如TensorFlow和PyTorch),以及高效的并行和分布式計(jì)算技術(shù)。

以上三個(gè)元素構(gòu)成了ChatGPT的基礎(chǔ),使得它能夠?qū)W習(xí)和生成自然語(yǔ)言。

但是,這只是表面上的邏輯。實(shí)際上,每一個(gè)環(huán)節(jié)背后都有深厚的理論基礎(chǔ),涵蓋了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等多個(gè)學(xué)科的知識(shí)。

深度學(xué)習(xí)是一種強(qiáng)大的機(jī)器學(xué)習(xí)方法,其底層邏輯相當(dāng)復(fù)雜。不過(guò),如果嘗試將深度學(xué)習(xí)核心原理簡(jiǎn)化為3個(gè)要素,ChatGPT-4認(rèn)為可以這樣描述:

1、神經(jīng)網(wǎng)絡(luò)架構(gòu):深度學(xué)習(xí)的核心是深度神經(jīng)網(wǎng)絡(luò),這是一種模擬人腦工作原理的計(jì)算模型。

神經(jīng)網(wǎng)絡(luò)由多個(gè)相互連接的層組成,每一層都由大量的神經(jīng)元(或稱為節(jié)點(diǎn))組成。每個(gè)神經(jīng)元都會(huì)接收前一層神經(jīng)元的輸入,并進(jìn)行一定的計(jì)算,然后將結(jié)果傳遞給下一層的神經(jīng)元。

2、權(quán)重優(yōu)化和學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)的每個(gè)連接都有一個(gè)權(quán)重,代表這個(gè)連接的重要性。

深度學(xué)習(xí)的目標(biāo)就是通過(guò)訓(xùn)練數(shù)據(jù)來(lái)調(diào)整這些權(quán)重,使得網(wǎng)絡(luò)的輸出盡可能接近于真實(shí)的目標(biāo)值。這個(gè)過(guò)程通常通過(guò)優(yōu)化算法(如梯度下降)實(shí)現(xiàn),算法會(huì)根據(jù)網(wǎng)絡(luò)輸出與目標(biāo)值之間的差距(損失)來(lái)調(diào)整權(quán)重。

3、非線性激活函數(shù):深度學(xué)習(xí)的另一個(gè)關(guān)鍵元素是非線性激活函數(shù),如ReLU(Rectified Linear Unit)或Sigmoid等。

這些函數(shù)用于增加神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,使其可以學(xué)習(xí)和表示非線性的復(fù)雜模式。

這三個(gè)要素共同構(gòu)成了深度學(xué)習(xí)的底層邏輯。

需要注意的是:這只是一個(gè)粗略的概述,實(shí)際上深度學(xué)習(xí)涉及的理論和技術(shù)要遠(yuǎn)比這復(fù)雜得多。

例如,還有正則化、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、自注意力機(jī)制、批歸一化、優(yōu)化算法、損失函數(shù)設(shè)計(jì)等等多種方法和技術(shù),都是深度學(xué)習(xí)不可或缺的一部分。

以下是神經(jīng)網(wǎng)絡(luò)發(fā)展的完整歷史(圖中并不完整),其中數(shù)度起伏。

ChatGPT的底層邏輯

  1. McCulloch-Pitts神經(jīng)元模型(1943):Warren McCulloch 和 Walter Pitts 首次提出了神經(jīng)元的McCulloch-Pitts(M-P)模型,借鑒了已知的神經(jīng)細(xì)胞生物過(guò)程原理。
  2. 感知器(1957):由Frank Rosenblatt提出的感知器模型基于生物神經(jīng)元的工作原理,是早期神經(jīng)網(wǎng)絡(luò)的主要形式。
  3. Minsky和Papert(1969): Marvin Minsky和Seymour Papert指出了感知器的局限性,即它們無(wú)法解決非線性可分問(wèn)題(例如異或問(wèn)題)。這部分導(dǎo)致了第一次人工智能寒冬。
  4. 多層感知器(1986):在Rumelhart,Hinton和Williams的研究下,多層感知器(MLP)成為了神經(jīng)網(wǎng)絡(luò)的主要形式。MLP引入了一個(gè)或多個(gè)隱藏層,并使用了反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。
  5. 卷積神經(jīng)網(wǎng)絡(luò)和LeNet-5(1989/1998):Yann LeCun等人提出的卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種專門處理網(wǎng)格狀數(shù)據(jù)(如圖像)的神經(jīng)網(wǎng)絡(luò)。LeCun和他的團(tuán)隊(duì)在1998年開發(fā)出了LeNet-5,這是第一個(gè)成功應(yīng)用到實(shí)際問(wèn)題(數(shù)字識(shí)別)的卷積神經(jīng)網(wǎng)絡(luò)。
  6. 長(zhǎng)短期記憶網(wǎng)絡(luò)(1997):由Hochreiter和Schmidhuber提出的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是一種專門處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM通過(guò)引入“門”結(jié)構(gòu),可以學(xué)習(xí)長(zhǎng)期依賴關(guān)系,避免了傳統(tǒng)RNN在處理長(zhǎng)序列時(shí)的梯度消失問(wèn)題。
  7. 深度學(xué)習(xí)和深度置信網(wǎng)絡(luò)(DBN,2006):Hinton等人提出了深度置信網(wǎng)絡(luò)(DBN)和深度自編碼器(DAE),標(biāo)志著深度學(xué)習(xí)時(shí)代的到來(lái)。深度學(xué)習(xí)利用多層神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)更復(fù)雜的模式和表示。
  8. ReLU激活函數(shù)(2010):Nair和Hinton提出了修正線性單元(ReLU)作為神經(jīng)元的激活函數(shù),這極大提高了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和性能。
  9. AlexNet(2012):Krizhevsky、Sutskever和Hinton的AlexNet模型大大超越了其它基于傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的模型,引發(fā)了深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的革命。
  10. word2vec(2013):Mikolov等人的word2vec是一種利用神經(jīng)網(wǎng)絡(luò)為詞生成密集向量表示的方法。
  11. GoogLeNet and VGGNet(2014):Szegedy等人的GoogLeNet和Simonyan和Zisserman的VGGNet進(jìn)一步提高了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上的性能,并推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)進(jìn)一步向深度發(fā)展。
  12. ResNet(2015):He等人的ResNet通過(guò)引入跳躍連接,解決了深度神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題,使得網(wǎng)絡(luò)的深度能夠達(dá)到之前無(wú)法想象的程度。
  13. 自注意力和Transformer(2017):由Vaswani等人提出的Transformer模型引入了自注意力機(jī)制,這讓神經(jīng)網(wǎng)絡(luò)可以在更大的范圍內(nèi)建立依賴關(guān)系,為處理序列數(shù)據(jù)提供了新的框架。

顯然,我是用ChatGPT-4完成了這一節(jié)的內(nèi)容。

人類的大腦可以自己思考自己,雖然謎團(tuán)難解;

神經(jīng)網(wǎng)絡(luò)也能回憶自己的歷史,盡管它無(wú)法為那些為此進(jìn)程添磚加瓦的人類而感動(dòng)。????????

Chris McCormick認(rèn)為,神經(jīng)網(wǎng)絡(luò)是純粹的數(shù)學(xué)。

從技術(shù)上講,“機(jī)器學(xué)習(xí)”模型在很大程度上基于統(tǒng)計(jì)數(shù)據(jù)。它們估計(jì)所有選項(xiàng)的概率,即使所有選項(xiàng)的正確概率都極低,它們?nèi)匀恢粫?huì)選擇概率最高的路徑。

神經(jīng)網(wǎng)絡(luò)的靈感來(lái)源于生物學(xué),特別是人腦的工作原理,但其設(shè)計(jì)和操作基礎(chǔ)確實(shí)是數(shù)學(xué),包括線性代數(shù)(用于數(shù)據(jù)和權(quán)重的表示和操作)、微積分(用于優(yōu)化算法,如梯度下降)和概率論(用于理解和量化不確定性)。

神經(jīng)網(wǎng)絡(luò)的每個(gè)部分都可以用數(shù)學(xué)表達(dá)式來(lái)描述,訓(xùn)練過(guò)程則是通過(guò)優(yōu)化數(shù)學(xué)目標(biāo)函數(shù)(損失函數(shù))來(lái)學(xué)習(xí)模型參數(shù)的過(guò)程。

黃仁勛說(shuō):“AI既是深度學(xué)習(xí),也是一種解決難以指定的問(wèn)題的算法。這也是一種開發(fā)軟件的新方法。想象你有一個(gè)任意維度的通用函數(shù)逼近器?!痹邳S仁勛的比喻中,“通用函數(shù)逼近器”確實(shí)是對(duì)深度神經(jīng)網(wǎng)絡(luò)的一個(gè)精確且富有洞見(jiàn)的描述。這個(gè)比喻突出了深度神經(jīng)網(wǎng)絡(luò)的核心特性:它們可以學(xué)習(xí)并逼近任意復(fù)雜的函數(shù)映射,只要網(wǎng)絡(luò)足夠深,參數(shù)足夠多。這種“函數(shù)逼近”的能力使得深度學(xué)習(xí)能夠應(yīng)對(duì)各種各樣的任務(wù),從圖像分類和語(yǔ)音識(shí)別到自然語(yǔ)言理解和生成,甚至是更復(fù)雜的任務(wù),如游戲和決策制定。

只要我們有足夠的數(shù)據(jù)來(lái)訓(xùn)練這些模型,神經(jīng)網(wǎng)絡(luò)就能學(xué)習(xí)到這些任務(wù)背后的復(fù)雜模式。–哪怕這些模式對(duì)人類而言只是一個(gè)黑盒子。??尤其在生成式模型(如ChatGPT)中,這種“函數(shù)逼近”的能力使得模型能夠生成富有創(chuàng)造性的輸出,如編寫文章、創(chuàng)作詩(shī)歌或音樂(lè)等。這些模型通過(guò)學(xué)習(xí)大量的數(shù)據(jù),理解語(yǔ)言或音樂(lè)的規(guī)則,然后生成符合這些規(guī)則的新的創(chuàng)作。

ChatGPT到底在做什么?為什么它能夠成功?

大神Wolfram對(duì)此解釋道:令人驚奇的是,ChatGPT嘗試寫一篇文章時(shí),基本上只是一次又一次地詢問(wèn)“在已有的文本基礎(chǔ)上,下一個(gè)單詞應(yīng)該是什么?” ,然后每次都添加一個(gè)單詞。(更準(zhǔn)確地說(shuō)是一個(gè)token)

那么,是否每次都選取概率最大的那個(gè)單詞呢???????

并非簡(jiǎn)單如此。

Wolfram告訴了我們ChatGPT如何靠概率來(lái)“寫”出一篇文章:??

  1. 每一步,ChatGPT都會(huì)生成一個(gè)帶有概率的單詞列表。
  2. 但若總是選擇最高“概率”的單詞,通常會(huì)得到一篇非?!捌降钡奈恼?。
  3. 于是巫術(shù)出現(xiàn)了,有一個(gè)特定的所謂“溫度”參數(shù),它控制了較低排名的單詞會(huì)被使用的頻率。
  4. 對(duì)于文章生成,我們發(fā)現(xiàn)“溫度”為0.8效果最好。

概率和隨機(jī)性,再次顯示出神奇的魔力。

在微軟的報(bào)告里,研究者用GPT-4模擬了一段對(duì)話:

蘇格拉底:我的朋友,我對(duì)最近這些所謂自回歸語(yǔ)言模型的興起感到不安。

亞里士多德:你是什么意思,蘇格拉底?

蘇格拉底:我的意思是,這些模型被用來(lái)生成看起來(lái)是人類寫的文本,但實(shí)際上是由機(jī)器產(chǎn)生的。

亞里士多德:那有什么問(wèn)題呢?

蘇格拉底:?jiǎn)栴}是,這些模型被用來(lái)欺騙人們,操縱他們,控制他們。

亞里士多德:但這些模式肯定也有一些積極的應(yīng)用?

蘇格拉底:可能是這樣,但我仍然對(duì)濫用的可能性感到不安。畢竟,一個(gè)能夠生成與人類所寫的文字無(wú)法區(qū)分的模型可以被用來(lái)傳播假新聞,冒充他人,并制造宣傳。

亞里士多德:但這不只是一個(gè)如何使用這些模型的問(wèn)題,而不是模型本身的問(wèn)題嗎?

蘇格拉底:我不同意。我認(rèn)為這些模型本身就有問(wèn)題。它們是一種偽裝的形式,一種創(chuàng)造幻覺(jué)的方式,是人類思想和互動(dòng)的一部分。因此,它們可以被用來(lái)以難以察覺(jué)的方式進(jìn)行欺騙和操縱。

亞里士多德:但這不正是你反對(duì)修辭和演說(shuō)的理由嗎?

蘇格拉底:是的,我也堅(jiān)持這個(gè)觀點(diǎn)。我相信,任何旨在欺騙或操縱的藝術(shù)或交流形式都是內(nèi)在的危險(xiǎn)。

亞里士多德:我明白了。謝謝你分享你的想法,蘇格拉底。

喬布斯曾經(jīng)設(shè)想過(guò)如上的對(duì)話,他預(yù)測(cè)有一天可以用計(jì)算機(jī)捕捉亞里士多德的底層世界觀,如此一來(lái)人們就可以和他親自對(duì)話了。

反對(duì)修辭和演說(shuō)的蘇格拉底認(rèn)為:感覺(jué)是不可靠的,感性認(rèn)識(shí)是不確定的,只有理性才能夠認(rèn)識(shí)事物本身。??

而在亞里士多德的方法里,他將修辭確定為哲學(xué)的三個(gè)關(guān)鍵要素之一。另外兩個(gè)則是邏輯辯證法。

亞里士多德認(rèn)為,邏輯關(guān)注的是用推理達(dá)到科學(xué)確定性,而辯證法和修辭則關(guān)注概率。后者適用于人類事務(wù)。

上面兩段文字我摘自網(wǎng)絡(luò)百科,雖無(wú)法確認(rèn)其原文與出處(尤其是概率那部分),卻令人叫好。

然而,在隨后的年代里,亞里士多德的邏輯和確定性知識(shí)體系更大程度地影響了人類。

人們信奉因果論和決定論,在牛頓的推動(dòng)下,世界仿佛是一個(gè)由無(wú)數(shù)個(gè)精密齒輪構(gòu)成的機(jī)器,在上帝的首次推動(dòng)下,持續(xù)有條不紊地運(yùn)轉(zhuǎn)著。

而另外一條線索亦在孕育之中。休謨的懷疑論和經(jīng)驗(yàn)主義徹底改變了人們的思想世界,他認(rèn)為感性知覺(jué)是認(rèn)識(shí)的唯一對(duì)象,人不可能超出知覺(jué)去解決知覺(jué)的來(lái)源問(wèn)題。

在休謨看來(lái),客觀因果并不存在。????????

隨后康德試圖對(duì)理性主義和經(jīng)驗(yàn)主義進(jìn)行調(diào)和,他否認(rèn)客觀因果聯(lián)系,但主張用先天的理智范疇對(duì)雜亂的經(jīng)驗(yàn)進(jìn)行整理。??

馬赫則開創(chuàng)了經(jīng)驗(yàn)批判主義,他強(qiáng)調(diào)直接討論觀測(cè)數(shù)據(jù),科學(xué)定律只是被視為以最經(jīng)濟(jì)的方式對(duì)數(shù)據(jù)進(jìn)行描述的手段而已。

《科學(xué)推斷》一書認(rèn)為,他開啟了現(xiàn)代方法論的主要進(jìn)展。

曾經(jīng)深受馬赫影響的愛(ài)因斯坦,無(wú)法接受這種對(duì)科學(xué)信仰的破壞性,以及對(duì)法則、公式、定律的輕視,后來(lái)與其分道揚(yáng)鑣。

愛(ài)因斯坦用探索性的演繹法建構(gòu)了邏輯嚴(yán)謹(jǐn)?shù)脑恚嘈庞钪嬗薪?,不相信鬼魅之力?/p>

某種意義上,愛(ài)因斯坦是最后的牛頓(除了用斯賓諾莎的“神”替代了上帝),是科學(xué)因果決定論的捍衛(wèi)者。??

1967年,波普爾對(duì)如上交織而漫長(zhǎng)的哲學(xué)歷程做了一個(gè)了結(jié),他提出了三元世界的觀點(diǎn),布爾金將其繪制如下:

ChatGPT的底層邏輯

這似乎是柏拉圖洞穴理論的現(xiàn)代版。

看看,人是多么無(wú)知,又是多么分裂??!

基于這樣的結(jié)構(gòu),波普爾提出:我們無(wú)法證實(shí)這個(gè)世界,無(wú)法證實(shí)規(guī)律和定理,只能去證偽。

也許你還記得上一代的老實(shí)人工智能–深藍(lán)。龐大的機(jī)器,手工制作無(wú)盡的代碼,多名參與其中的職業(yè)棋手,以及暴力算法,雖然打敗了卡斯帕羅夫,卻如流星般閃過(guò)。

《麻省理工科技評(píng)論》將深藍(lán)形容為恐龍,而這一代的神經(jīng)網(wǎng)絡(luò)(尤其是深度學(xué)習(xí))則是生存且改變地球的小哺乳動(dòng)物。

上世紀(jì)50年代,香農(nóng)曾經(jīng)樂(lè)觀地預(yù)測(cè)AI將很快出現(xiàn),事實(shí)并非如此。失敗的主要原因是:

人工智能的創(chuàng)造者們?cè)噲D用純粹的邏輯來(lái)處理日常生活中的混亂,他們會(huì)耐心地為人工智能需要做的每一個(gè)決定都制定一條規(guī)則。但是,由于現(xiàn)實(shí)世界過(guò)于模糊和微妙,無(wú)法以刻板的方式進(jìn)行管理。

我們無(wú)法像是依照牛頓的原理造車般,用發(fā)條思維和專家系統(tǒng)來(lái)打造智能系統(tǒng)。那一類AI不僅狹窄,而且脆弱。

ChatGPT是經(jīng)驗(yàn)主義進(jìn)化論的“勝利產(chǎn)物”。

經(jīng)驗(yàn)主義亦稱“經(jīng)驗(yàn)論”。作為一種認(rèn)識(shí)論學(xué)說(shuō),與“理性主義”相對(duì)。經(jīng)驗(yàn)主義認(rèn)為感性經(jīng)驗(yàn)是知識(shí)的來(lái)源,一切知識(shí)都通過(guò)經(jīng)驗(yàn)而獲得,并在經(jīng)驗(yàn)中得到驗(yàn)證。

這正是ChatGPT的思考和學(xué)習(xí)路徑。

虛擬進(jìn)化又指數(shù)級(jí)放大了基于經(jīng)驗(yàn)的學(xué)習(xí)速度。在波普爾看來(lái),科學(xué)發(fā)展本身就是一種進(jìn)化。

ChatGPT不僅從時(shí)間的角度加速模擬了進(jìn)化,還通過(guò)大模型從空間的角度拓展了可能性之廣度,以至于令人們禁不住又驚又喜地探討起涌現(xiàn)

那么,人工智能是如何思考的?又是如何決策的???

有別于齒輪般的演繹推理,我們需要借助概率在證據(jù)和結(jié)論之間建立起聯(lián)系。????

AI的任務(wù)是做決策,在不確定性下結(jié)合信念與愿望,選擇動(dòng)作。

《人工智能:現(xiàn)代方法》如此描述:

由于部分可觀測(cè)性、非確定性和對(duì)抗者的存在,真實(shí)世界中的智能體需要處理不確定性(uncertainty)。智能體可能永遠(yuǎn)都無(wú)法確切地知道它現(xiàn)在所處的狀態(tài),也無(wú)法知道一系列動(dòng)作之后結(jié)束的位置。

此外,智能體的正確的動(dòng)作——理性決策,既依賴各種目標(biāo)的相對(duì)重要性,也依賴它們實(shí)現(xiàn)的可能性和程度。

為了進(jìn)行不確定推理,我們需要引入信念度,例如牙痛患者有80%的概率存在蛀牙。

???概率論提供了一種概括因我們的惰性與無(wú)知而產(chǎn)生的不確定性的方式。

除了概率,智能體在做決策時(shí)還需要一個(gè)概念:效用理論。?

例如,你要去機(jī)場(chǎng),假如提前90分鐘出發(fā),趕上飛機(jī)的概率是95%;提早120分鐘出發(fā),概率提升至97%。??????

那么,是不是應(yīng)該越早越高,追求趕上飛機(jī)的最大概率呢?如此一來(lái),你可能要提前一天或者更早住在機(jī)場(chǎng)了。??????

大多數(shù)時(shí)候不必如此,但假如你有一個(gè)無(wú)法錯(cuò)過(guò)的會(huì)議,或者要趕國(guó)際航班,提早一天住到機(jī)場(chǎng),可能是最佳決策。萬(wàn)豪酒店最早就是靠洞察到商務(wù)人士的這一需求而崛起的。????

由此,我們得出決策論的通用理論:??

決策論=概率論+效用理論

以上的現(xiàn)代方法,離不開兩個(gè)未曾謀面的古代敵手。

在諸多反對(duì)休謨的人當(dāng)中,貝葉斯也許是最重要的一位。

當(dāng)休謨斬?cái)嗔艘蚬g的必然聯(lián)系時(shí),最惱火的莫過(guò)于教會(huì),因?yàn)樯系垡恢北灰暈橐蚬牡谝煌苿?dòng)力。??????

一個(gè)人往往要到了一定歲數(shù),才能夠理解休謨的哲學(xué)。尤其是我們這些從小接受確定性訓(xùn)練的人。

邏輯推理的基本形式是:如果A,則B。

休謨則說(shuō),如上這類推理要么是幻覺(jué),要么是胡說(shuō)八道,要么是自圓其說(shuō)。

據(jù)說(shuō)虔誠(chéng)且又擅長(zhǎng)數(shù)學(xué)的牧師貝葉斯是為了反駁休謨,而研究出了貝葉斯公式。???

一個(gè)神奇的結(jié)局出現(xiàn)了:貝葉斯公式反而成為了休謨哲學(xué)的現(xiàn)實(shí)解藥,將其大刀斬?cái)嗟囊蚬媚娓怕实膽覙蜻B接了起來(lái)。?????????

概率,將邏輯推理的形式修正為:如果A,則有x%的可能性導(dǎo)致B。??

而貝葉斯公式,則完成了一個(gè)小小的(卻產(chǎn)生了無(wú)法估量的巨大影響)由果推因的顛倒:

如果觀察到B,則有x%的可能性是因?yàn)锳導(dǎo)致。

如此一來(lái),被休謨懷疑的世界,繼續(xù)晃晃悠悠地構(gòu)建出更為龐大繁復(fù)的、以概率關(guān)聯(lián)的因果網(wǎng)絡(luò)。??????????????

假如貝葉斯試圖反擊休謨的動(dòng)機(jī)是真的,就為“要愛(ài)惜你的對(duì)手”添加了有力論據(jù)。???

讓我們用一個(gè)簡(jiǎn)單的貝葉斯計(jì)算,來(lái)看看智能體如何學(xué)習(xí)經(jīng)驗(yàn)。????

題目:黑盒子里有兩個(gè)骰子,一個(gè)是正常骰子,扔出數(shù)字6的概率是1/6;一個(gè)是作弊骰子,扔出數(shù)字6的概率是1/2。????????

這時(shí),你從中摸出一個(gè)骰子,扔了一次,得到一個(gè)6。??

請(qǐng)問(wèn):你再扔一次這個(gè)未知的骰子,得到6的概率是多大?

計(jì)算的第一步,是計(jì)算這個(gè)骰子是正常骰子作弊骰子的概率分別是多大。

請(qǐng)?jiān)试S我跳過(guò)貝葉斯公式快速計(jì)算如下。????????

是正常骰子的概率為:1/6÷(1/6+1/2)=1/4??????

是作弊骰子的概率為:1/2÷(1/6+1/2)=3/4

計(jì)算的第二步,更新這個(gè)骰子的信息。原來(lái)的概率是各1/2,但現(xiàn)在分別是1/4和3/4。??

那么,再扔一次,得到6的概率就是:1/4×1/6+3/4×1/2=5/12。?

從本質(zhì)層面理解如上這個(gè)簡(jiǎn)單的計(jì)算并不是容易的事情:

兩次扔骰子都是獨(dú)立事件,為什么第一次扔骰子得到6的概率和第二次的概率不一樣?

貝葉斯概率的解釋是,第一次扔骰子得到6的這一結(jié)果,作為信息,更新了我們對(duì)第二次扔骰子得到6的概率的判斷。

疑惑的人會(huì)繼續(xù)問(wèn):骰子沒(méi)有記憶,為什么第一次的結(jié)果會(huì)“改變”第二次結(jié)果呢??

答案是:沒(méi)有改變結(jié)果,只是改變了“信念”

即使扔了兩次骰子,我們依然不知道這個(gè)骰子是正常的還是作弊的,但我們可以帶著這種不確定性向前走,為此需要“猜”這個(gè)骰子是正常還是作弊的概率。這個(gè)概率,就是信念。???????

根據(jù)信息的變化,快速更新,體現(xiàn)了某種達(dá)爾文式的進(jìn)化。????

從這個(gè)角度看,AI推理起初或許弱小含混,卻有主動(dòng)適應(yīng)性,從經(jīng)驗(yàn)中不斷學(xué)習(xí),并快速演化。

以本題為例:第二次扔骰子,從第一次骰子的結(jié)果中學(xué)習(xí)了經(jīng)驗(yàn),從而令預(yù)測(cè)更加精確。

這個(gè)過(guò)程還可以不斷重復(fù),如同發(fā)動(dòng)機(jī)般,從而產(chǎn)生了決策和智能的杠桿效應(yīng)。

如前所述,亞里士多德曾經(jīng)認(rèn)為,修辭和概率等不確定性元素,應(yīng)該應(yīng)用于人類社會(huì)。而在自然科學(xué)和數(shù)學(xué)領(lǐng)域,則是邏輯推理(尤其是數(shù)學(xué)邏輯)的陣地。??

而如今,確定世界已經(jīng)成為不確定世界,絕對(duì)真理也被或然真理替代。??

于是,概率不僅成為“真理”的懸梯,甚至成為真理本身。???

《人工智能:現(xiàn)代方法》寫道,世界就是這樣,實(shí)際示范有時(shí)比證明更有說(shuō)服力。基于概率論的推斷系統(tǒng)的成功要比哲學(xué)論證更容易改變?nèi)说挠^點(diǎn)。

就像兩個(gè)人就不同的觀點(diǎn)爭(zhēng)論,一種辦法是講道理,講邏輯;還有一種辦法是:?????

我們先下個(gè)注,然后試著跑跑看唄。??

OpenAI早期投資人里德·霍夫曼在嘗試將 GPT-4 應(yīng)用于工作中時(shí),發(fā)現(xiàn)了以下三個(gè)關(guān)鍵原則。

原則1:將GPT-4視為本科生水平的研究助手,而非無(wú)所不知的預(yù)言家。

原則2:把自己當(dāng)作導(dǎo)演,而非木匠。

原則3:勇敢嘗試!

多么有趣的建議啊,我們從中看見(jiàn)了《園丁與木匠》與《自下而上》的智慧:

在大部分工作中,我們習(xí)慣于提前計(jì)劃,力求避免失誤。這是因?yàn)閳?zhí)行計(jì)劃在時(shí)間和其他資源上都耗費(fèi)巨大,“三思而后行”的說(shuō)法指的就是這種情況。

如果實(shí)施計(jì)劃比思考它更加省時(shí)省力呢?

霍夫曼認(rèn)為這正是GPT-4及大語(yǔ)言模型令人費(fèi)解的悖論所在。

既然如此,正確的做法是:

  1. 在比討論制訂計(jì)劃更短的時(shí)間里,GPT-4能為你生成一個(gè)完整的回應(yīng)供你審閱。
  2. 如果你對(duì)回應(yīng)不滿意,可以直接丟棄并嘗試生成另一個(gè)。?
  3. 或者一次性生成多個(gè)版本,獲得更多選擇。

我們已經(jīng)來(lái)到了一個(gè)“三行而后思”的“強(qiáng)化學(xué)習(xí)”時(shí)代。

??????八

在《人工通用智能的火花:GPT-4的早期實(shí)驗(yàn)》的報(bào)告里,微軟實(shí)驗(yàn)室如此表述:??

“我們過(guò)去幾年,人工智能研究中最顯著的突破是大型語(yǔ)言模型(LLMs)在自然語(yǔ)言處理方面取得的進(jìn)展。

這些神經(jīng)網(wǎng)絡(luò)模型基于Transformer架構(gòu),并在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)體上進(jìn)行訓(xùn)練,其核心是使用一個(gè)自我監(jiān)督的目標(biāo)來(lái)預(yù)測(cè)部分句子中的下一個(gè)單詞?!?/strong>

ChatGPT,是位“語(yǔ)言游戲”的高手,用的是神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)。

這與傳統(tǒng)的語(yǔ)言,以及邏輯語(yǔ)言,都不一樣。

羅素曾經(jīng)試圖構(gòu)建一套邏輯語(yǔ)言,想從少數(shù)的邏輯公理中,推演出數(shù)學(xué)。

他提出了自己邏輯原子主義,試圖消除那些形而上語(yǔ)言的混亂,以邏輯語(yǔ)言和我們的現(xiàn)實(shí)世界一一對(duì)應(yīng)。

在與羅素的相互影響下,維特根斯坦認(rèn)為哲學(xué)的所有問(wèn)題其實(shí)就是語(yǔ)言問(wèn)題,從而推動(dòng)了哲學(xué)的語(yǔ)言轉(zhuǎn)向。

一種西方哲學(xué)史觀點(diǎn)認(rèn)為:古代哲學(xué)關(guān)注本體論,近代哲學(xué)關(guān)注認(rèn)識(shí)論,20世紀(jì)哲學(xué)關(guān)注語(yǔ)言學(xué)問(wèn)題。

那么,作為“系統(tǒng)地從語(yǔ)言來(lái)思考世界的第一人”,維特根斯坦與羅素有何不同?

陳嘉映的論斷是:羅素從本體論來(lái)思考語(yǔ)言的本質(zhì),維特根斯坦則一直從語(yǔ)言的本質(zhì)來(lái)構(gòu)想本體論。

也許我們能從羅素給情人奧托林·莫雷爾夫人一封信里,發(fā)現(xiàn)維特根斯坦哲學(xué)上的某些經(jīng)驗(yàn)主義線索:

“我們這位德國(guó)工程師啊,我認(rèn)為他是個(gè)傻瓜。他認(rèn)為沒(méi)有什么經(jīng)驗(yàn)性的東西是可知的——我讓他承認(rèn)房間里沒(méi)有一頭犀牛,但他不肯。”

和每個(gè)天才一樣,維特根斯坦卓絕,但也疑惑。

再說(shuō)回ChatGPT,它懂語(yǔ)言嗎?如同《天才與算法》一書的設(shè)問(wèn):

機(jī)器可以在不理解語(yǔ)言或不接觸周圍物理世界的情況下,生成有意義的句子,甚至是美的句子嗎?

老派的AI,試圖采用羅素的方法。這類模型認(rèn)為:

“理性和智能是深度的、多步驟的推理,由一個(gè)串行過(guò)程指揮,并由一個(gè)或幾個(gè)線程組成,使用少量的信息,由少量的強(qiáng)相關(guān)變量來(lái)表達(dá)信息?!?/p>

對(duì)比而言,“現(xiàn)代的機(jī)器學(xué)習(xí)模式由淺(少步)推理組成,使用大量信息的大規(guī)模并行處理,并涉及大量弱相關(guān)變量?!?/p>

一個(gè)有趣的來(lái)描述二者對(duì)比的例子是,電影《模仿游戲》里的圖靈,炒掉了自己的密碼破解小組里的語(yǔ)言學(xué)專家。

《人工智能:現(xiàn)代方法》認(rèn)為,純粹的數(shù)據(jù)驅(qū)動(dòng)的模型,對(duì)比基于“文法、句法分析和語(yǔ)義解釋”的手工構(gòu)建方法,更容易開發(fā)和維護(hù),并且在標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試中得分更高。

該書作者還提及:

可能是Transformer及其相關(guān)模型學(xué)習(xí)到了潛在的表征,這些表征捕捉到與語(yǔ)法和語(yǔ)義信息相同的基本思想,也可能是在這些大規(guī)模模型中發(fā)生了完全不同的事情,但我們根本不知道。

未必那么精確的類比是:AI如孩子般學(xué)習(xí)語(yǔ)言。這正是當(dāng)年圖靈所所設(shè)想的:

有一個(gè)孩子般的大腦,然后去學(xué)習(xí)。而非一開始就設(shè)計(jì)一個(gè)成年人的大腦。????

孩子不懂語(yǔ)法構(gòu)建,也沒(méi)有成熟的邏輯,也遠(yuǎn)沒(méi)有成年人那樣有主動(dòng)的刻意練習(xí)??墒窍胂肟?,成年人學(xué)習(xí)語(yǔ)言的效率,與孩子對(duì)比,是不是爛到渣?

我不禁聯(lián)想起一個(gè)對(duì)教育的嘲諷:天生就是語(yǔ)言學(xué)習(xí)天才的孩子,卻要在一輩子都學(xué)不好一門語(yǔ)言的成年人的指導(dǎo)下學(xué)習(xí)語(yǔ)言。

讓我們來(lái)看看,AI如何像一個(gè)孩子般,天才般地學(xué)習(xí)。

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)經(jīng)歷了并不算短暫的黑暗期。

從上世紀(jì)80年代開始的整整30年間,只有很少一部分相關(guān)研究者義無(wú)反顧地投身其間,他們飽受懷疑,也幾乎拿不到科研經(jīng)費(fèi)。????????????????

也許是由于這個(gè)原因,深度學(xué)習(xí)三巨頭辛頓(Hinton)、本吉奧(Bengio)、楊立昆(LeCun)似乎都和加拿大有些關(guān)系,他們退守在那里研究、教學(xué)、讀書。這倒是很符合那個(gè)“傻國(guó)家”的氣質(zhì)。

一個(gè)讓人“心酸”的細(xì)節(jié)是,2012年辛頓帶著學(xué)生在ImageNet 圖像識(shí)別比賽上拿了冠軍,商業(yè)公司蜂擁而至。辛頓教授開出的商業(yè)報(bào)價(jià),只是區(qū)區(qū)一百萬(wàn)美元。

(后來(lái)谷歌以4400萬(wàn)美元“中標(biāo)”。)

“老派”AI,使用明確的一步步指令指引計(jì)算機(jī),而深度學(xué)習(xí)則使用學(xué)習(xí)算法從數(shù)據(jù)中提取輸入數(shù)據(jù)與期望輸出的關(guān)聯(lián)模式,正如上一節(jié)的演示。

眾所周知,漫漫長(zhǎng)夜之后,隨著人類計(jì)算機(jī)算力和數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),深度學(xué)習(xí)一飛沖天,從阿爾法狗一戰(zhàn)封神,再到ChatGPT征服全球。????

為什么是Open AI,而不是DeepMInd?我對(duì)此略有好奇。

OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家伊利亞·薩特斯基弗,是辛頓在多倫多大學(xué)帶的學(xué)生。

他似乎延續(xù)了辛頓對(duì)深度學(xué)習(xí)的信仰,并且勇于全力下注。????

辛頓認(rèn)為“深度學(xué)習(xí)足以復(fù)制人類所有的智力”,將無(wú)所不能,只要有更多概念上的突破。例如“transformers”利用向量來(lái)表示詞義的概念性突破。

此外,還要大幅度增加規(guī)模,包括神經(jīng)網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)規(guī)模。例如,人腦大約有100萬(wàn)億個(gè)參數(shù),是真正的巨大模型。而GPT-3有1750億個(gè)參數(shù),約比大腦小一千倍。

神經(jīng)網(wǎng)絡(luò)模仿了人類的優(yōu)勢(shì):處理有大量參數(shù)的少量數(shù)據(jù)。但人類在這方面做得更好,而且節(jié)能許多倍。

先行一步的DeepMInd,其發(fā)展方向和速度,除了陷入與谷歌的“商業(yè)VS科研”的兩難糾纏,還不可避免地受到哈薩比斯的AI哲學(xué)觀的影響。

哈薩比斯認(rèn)為不管是ChatGPT,還是自家的Gopher,盡管可以幫你寫作,為你繪畫,“有一些令人印象深刻的模仿”,但AI“仍然不能真正理解它在說(shuō)什么”。

所以,他說(shuō):“(這些)不是真正的意義上的(智能)?!?/p>

哈薩比斯的老師,MIT的Poggio教授更尖銳地指出:深度學(xué)習(xí)有點(diǎn)像這個(gè)時(shí)代的“煉金術(shù)”,但是需要從“煉金術(shù)”轉(zhuǎn)化為真正的化學(xué)。

楊立昆反對(duì)煉金術(shù)的提法,但他也認(rèn)為要探究智能與學(xué)習(xí)的本質(zhì)。人工神經(jīng)元受到腦神經(jīng)元的直接啟發(fā),不能僅僅復(fù)制大自然

他的觀點(diǎn)大概是,工程學(xué)實(shí)現(xiàn)了的東西,也只有通過(guò)科學(xué)打開黑盒子,才能走得更遠(yuǎn)。??????????????

“我認(rèn)為,我們必須探究智能和學(xué)習(xí)的基礎(chǔ)原理,不管這些原理是以生物學(xué)的形式還是以電子的形式存在。正如空氣動(dòng)力學(xué)解釋了飛機(jī)、鳥類、蝙蝠和昆蟲的飛行原理,熱力學(xué)解釋了熱機(jī)和生化過(guò)程中的能量轉(zhuǎn)換一樣,智能理論也必須考慮到各種形式的智能?!?/p>

幾年前,巔峰時(shí)刻的哈薩比斯就表達(dá)過(guò),僅靠神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí),無(wú)法令人工智能走得更遠(yuǎn)。

類似的反思,也發(fā)生于貝葉斯網(wǎng)絡(luò)之父 Judea Pearl。

他說(shuō),機(jī)器學(xué)習(xí)不過(guò)是在擬合數(shù)據(jù)和概率分布曲線。變量的內(nèi)在因果關(guān)系不僅沒(méi)有被重視,反而被刻意忽略和簡(jiǎn)化。

簡(jiǎn)單來(lái)說(shuō),就是:重視相關(guān),忽視因果。?????

在Pearl看來(lái),如果要真正解決科學(xué)問(wèn)題,甚至開發(fā)具有真正意義智能的機(jī)器,因果關(guān)系是必然要邁過(guò)的一道坎。????????

不少科學(xué)家有類似的觀點(diǎn),認(rèn)為應(yīng)該給人工智能加上常識(shí),加上因果推理的能力,加上了解世界事實(shí)的能力。所以,解決方案也許是“混合模式”–用神經(jīng)網(wǎng)絡(luò)結(jié)合老式的手工編碼邏輯。?????????

辛頓對(duì)此頗為不屑,一方面他堅(jiān)信神經(jīng)網(wǎng)絡(luò)完全可以有推理能力,畢竟大腦就是類似的神經(jīng)網(wǎng)絡(luò)。另一方面,他認(rèn)為加入手工編碼的邏輯很蠢:

它會(huì)遇到所有專家系統(tǒng)的問(wèn)題,那就是你永遠(yuǎn)無(wú)法預(yù)測(cè)你想要給機(jī)器的所有常識(shí)。

AI真的需要那些人類概念嗎?阿爾法狗早已證明,所謂棋理和定式只是多余的夾層解釋而已。????????

關(guān)于AI是否真正“理解”,真正“懂得”,真正有“判斷力”,辛頓以“昆蟲識(shí)別花朵”為例:

“昆蟲可以看到紫外線,而人類不能,所以在人類看來(lái)一模一樣的兩朵花,在昆蟲眼中卻可能截然不同。那么能不能說(shuō)昆蟲判斷錯(cuò)誤了呢?昆蟲通過(guò)不同的紫外線信號(hào)識(shí)別出這是兩朵不同的花,顯然昆蟲沒(méi)有錯(cuò),只是人類看不到紫外線,所以不知道有區(qū)別而已?!?/p>

我們說(shuō)AI“不懂”什么,會(huì)不會(huì)是過(guò)于以人類為中心了?

假如我們認(rèn)為AI沒(méi)有可解釋性,算不上智能,可會(huì)不會(huì)是即使AI解釋了,我們也不懂?就像“人類只有借助機(jī)器檢測(cè),看到兩朵花的顏色信號(hào)在電磁波譜上分屬不同區(qū)域,才能確信兩朵花確有不同?!?/p>

從十幾歲開始,就相信“模仿大腦神經(jīng)網(wǎng)絡(luò)”的辛頓,仿佛有某種宗教式的堅(jiān)定。

于是,在某個(gè)路口,哈薩比斯略有遲疑,而伊利亞·薩特斯基弗則和辛頓一路向前,豪賭到底。

辛頓的人生哲學(xué)是“基于信仰的差異化”,他的確也是如此實(shí)踐的。

如今,盡管哈薩比斯認(rèn)為ChatGPT僅僅是更多的計(jì)算能力和數(shù)據(jù)的蠻力,但他也不得不承認(rèn),這是目前獲得最佳結(jié)果的有效方式。

對(duì)AI路線的分歧,不過(guò)是一百多年來(lái)某類科學(xué)暗涌的延續(xù)。???????????

相當(dāng)長(zhǎng)的歲月里,在大雪紛飛的多倫多,辛頓幾乎是深度學(xué)習(xí)唯一的守夜人。

他本科在劍橋大學(xué)讀生理學(xué)和物理學(xué),其間轉(zhuǎn)向哲學(xué),拿的是心理學(xué)學(xué)士學(xué)位,后來(lái)再讀了人工智能博士學(xué)位。

辛頓等人在統(tǒng)計(jì)力學(xué)中得到靈感,于1986 年提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)玻爾茲曼機(jī),向有隱藏單元的網(wǎng)絡(luò)引入了玻爾茲曼機(jī)器學(xué)習(xí)算法。

如下圖,所有節(jié)點(diǎn)之間的連線都是雙向的。所以玻爾茲曼機(jī)具有負(fù)反饋機(jī)制,節(jié)點(diǎn)向相鄰節(jié)點(diǎn)輸出的值會(huì)再次反饋到節(jié)點(diǎn)本身。

玻爾茲曼機(jī)在神經(jīng)元狀態(tài)變化中引入了統(tǒng)計(jì)概率,網(wǎng)絡(luò)的平衡狀態(tài)服從玻爾茲曼分布,網(wǎng)絡(luò)運(yùn)行機(jī)制基于模擬退火算法。

ChatGPT的底層邏輯

玻爾茲曼機(jī)。圖片來(lái)自《圖解人工智能》一書

從香農(nóng),再到辛頓,他們都從玻爾茲曼那里獲得了巨大的靈感。

將“概率”引入物理學(xué),看起來(lái)非常奇怪。??

人類直到19世紀(jì)之后,才知道“熱”是物體內(nèi)部大量分子的無(wú)規(guī)則運(yùn)動(dòng)的表現(xiàn)。那么,為什么熱量總從熱的物體傳到冷的物體??????

玻爾茲曼說(shuō),原子(分子)完全是隨機(jī)運(yùn)動(dòng)的。并非是熱量無(wú)法從冷的物體傳到熱的物體,只是因?yàn)椋?

從統(tǒng)計(jì)學(xué)的角度看,一個(gè)快速運(yùn)動(dòng)的熱物體的原子更有可能撞上一個(gè)冷物體的原子,傳遞給它一部分能量;而相反過(guò)程發(fā)生的概率則很小。在碰撞的過(guò)程中能量是守恒的,但當(dāng)發(fā)生大量偶然碰撞時(shí),能量?jī)A向于平均分布。

這其中,沒(méi)有物理定律,只有統(tǒng)計(jì)概率。這看起來(lái)非?;闹?。??

堅(jiān)定的科學(xué)主義者費(fèi)曼,后來(lái)也提出“概率振幅”,用來(lái)描述物理世界的本質(zhì)。

對(duì)此,費(fèi)曼解釋道:這是不是意味著物理學(xué)——一門極精確的學(xué)科——已經(jīng)退化到“只能計(jì)算事件的概率,而不能精確地預(yù)言究竟將要發(fā)生什么”的地步了呢?是的!這是一個(gè)退卻!但事情本身就是這樣的:

自然界允許我們計(jì)算的只是概率,不過(guò)科學(xué)并沒(méi)就此垮臺(tái)。

事實(shí)上,羅素也主張因果關(guān)系的概然性,認(rèn)為一切規(guī)律皆有例外,所以他也不贊成嚴(yán)格的決定論。?

也許是因?yàn)槎汲钟小白韵露稀钡氖澜缬^,玻爾茲曼喜歡達(dá)爾文,他在一次講座中宣稱:?????????

“如果你問(wèn)我內(nèi)心深處的信念,我們的世紀(jì)將被稱為鋼鐵世紀(jì)還是蒸汽或電的世紀(jì)呢?我會(huì)毫不猶豫地回答:它將被稱為機(jī)械自然觀的世紀(jì),達(dá)爾文的世紀(jì)。”

對(duì)達(dá)爾文的自然選擇理論,玻爾茲曼認(rèn)識(shí)到,生物之間通過(guò)資源競(jìng)爭(zhēng)展開“一種使熵最小化的戰(zhàn)斗”,生命是通過(guò)捕獲盡可能多的可用能量來(lái)使熵降低的斗爭(zhēng)。

和生命系統(tǒng)一樣,人工智能也是能夠自動(dòng)化實(shí)現(xiàn)“熵減”的系統(tǒng)。??

生命以“負(fù)熵”為食,人工智能系統(tǒng)則消耗算力和數(shù)據(jù)。?

楊立昆估算,需要10萬(wàn)個(gè)GPU才能接近大腦的運(yùn)算能力。一個(gè)GPU的功率約為250瓦,而人類大腦的功率大約僅為25瓦。

這意味著硅基智能的效率是碳基智能的一百萬(wàn)分之一。

所以,辛頓相信克服人工智能局限性的關(guān)鍵,在于搭建“一個(gè)連接計(jì)算機(jī)科學(xué)和生物學(xué)的橋梁”。

十一

達(dá)·芬奇曾說(shuō)過(guò):“簡(jiǎn)單是終極的復(fù)雜?!?/p>

牛頓那一代相信上帝的科學(xué)家,認(rèn)為神創(chuàng)造這個(gè)世界時(shí),一定運(yùn)用了規(guī)則。

他們只管去發(fā)現(xiàn)規(guī)則,而不必在意暫時(shí)的不可理解。例如,萬(wàn)有引力公式為什么長(zhǎng)成那樣?為什么要和距離的平方成反比?

另一方面,牛頓們信奉?yuàn)W卡姆剃刀的原則,認(rèn)為世界的模型基于某些簡(jiǎn)潔的公式。他們至少相信存在某個(gè)這樣的公式,從愛(ài)因斯坦到霍金,莫不如是。

然而在不確定性時(shí)代,概率似乎比決定論派更能解釋這個(gè)世界。牛頓式的確定退縮到了有限的領(lǐng)域。

也許費(fèi)曼是對(duì)的,科學(xué)家是在用一個(gè)篩網(wǎng)檢驗(yàn)這個(gè)世界,某些時(shí)刻似乎所有的現(xiàn)象都能通過(guò)篩孔,但如今我們知道多么完備的科學(xué)都只是暫時(shí)的解釋,只是暫時(shí)未被證偽的篩網(wǎng)。但這并不影響我們向前。

還有一種哲學(xué)認(rèn)為,世界本身就是在為自己建模。試圖用一個(gè)大一統(tǒng)理論解釋世界幾乎是不可能的,更何況宇宙還在繼續(xù)膨脹。

從以上有趣但略顯含混的角度看,ChatGPT是用一種反愛(ài)因斯坦的方式為世界建模。它有如下特點(diǎn):

  1. 是概率的,而非因果的;
  2. 盡可能地去模擬人類世界這一“大模型”,從經(jīng)驗(yàn)中學(xué)習(xí)和進(jìn)化,而非去探尋第一原理;
  3. 它信奉(至少暫時(shí)如此)“復(fù)雜是終極的簡(jiǎn)單”;
  4. 它驅(qū)逐了神。因?yàn)樗约涸絹?lái)越像一個(gè)神。

AI和人類別的熱鬧事物一樣,經(jīng)常會(huì)有周期性的熱潮。

上一波是2016年,熱起來(lái),然后又慢慢靜下來(lái)。

七年過(guò)去了,AI再次熱起。Open AI照例沒(méi)有打開“黑盒子”,卻帶來(lái)了影響力更為廣泛的浪潮。

這一次,廣泛性似乎戰(zhàn)勝了專業(yè)性。人們似乎更關(guān)注那個(gè)會(huì)畫畫的、可能替代自己摸魚的AI,而不是那個(gè)能戰(zhàn)勝世界冠軍、能研究蛋白質(zhì)折疊解決人類頂尖難題的AI。

這其中有多少是工程的突破和技術(shù)的飛躍?有多少是商業(yè)驅(qū)動(dòng)下的大力出奇跡?有多少是人類社會(huì)慣常的泡沫?

毋庸置疑,人類過(guò)往的偉大突破,不少都是在多種理性和非理性力量的交織之下實(shí)現(xiàn)的。

這里面的機(jī)會(huì)是:

1、賣水者。如英偉達(dá),Scale AI等;

2、新平臺(tái)的出現(xiàn)。會(huì)有超級(jí)應(yīng)用突破微軟和谷歌等巨頭無(wú)敵的新瓶裝老酒嗎?

3、新平臺(tái)既有通過(guò)生產(chǎn)力的提升創(chuàng)造的新價(jià)值空間,如各種全新的產(chǎn)品和服務(wù),也有對(duì)舊有價(jià)值空間的掠奪;

4、也許會(huì)有iPhone的顛覆者,以及圍繞其展開的各種應(yīng)用和服務(wù);???

5、AI會(huì)成為基礎(chǔ)設(shè)施。

但是,水和電成為基礎(chǔ)設(shè)施,互聯(lián)網(wǎng)成為基礎(chǔ)設(shè)施,與AI成為基礎(chǔ)設(shè)施,絕非簡(jiǎn)單的類比或升級(jí)。

大概的趨勢(shì)也許是,商業(yè)上的壟斷與兩極分化會(huì)更加殘酷。職業(yè)上,或許中間階層會(huì)更加無(wú)望;

6、因?yàn)锳I極其耗電,能源領(lǐng)域大有可為;????????????

7、“場(chǎng)景”和“應(yīng)用”會(huì)有機(jī)遇。尤其是那些能夠較好地利用AI平臺(tái)實(shí)現(xiàn)人機(jī)結(jié)合的場(chǎng)景與應(yīng)用。

8、對(duì)個(gè)體而言,我們要問(wèn)的是,AI還需要人類充當(dāng)新基礎(chǔ)設(shè)施和新系統(tǒng)的類似于“操作員、司機(jī)、程序員、快遞員”的新時(shí)代角色嗎??????????????

十二

人工智能的變遷,幾乎對(duì)應(yīng)著人類認(rèn)知世界的變遷結(jié)構(gòu)。

從確定性到不確定性,從物理定律到統(tǒng)計(jì)概率,物理和信息交匯于“”,并以類似的達(dá)爾文觀念,進(jìn)化出有生命的熵減系統(tǒng)。

在這個(gè)愈發(fā)茫然的世界里,AI在疫情后時(shí)代獲得了世人額外的關(guān)切;

諸神已被人類背棄,算法用強(qiáng)大而未知的相關(guān)性替代了神秘主義因果霸權(quán),仿佛成為新神。

真實(shí)與信念,確定與隨機(jī),意識(shí)與虛無(wú),再次于大眾的狂歡之中,對(duì)峙在時(shí)代的斷崖邊緣。

從樂(lè)觀的角度看,牛頓的信徒和達(dá)爾文的信徒也許可以攜手,借助于尚不知進(jìn)化邊界何在的人工智能,去突破人類的智慧疆界。??????????

哈耶克說(shuō):“一個(gè)秩序之所以可取,不是因?yàn)樗屍渲械囊馗骶推湮?,而是在這個(gè)秩序上能夠生長(zhǎng)出其他情況下不能生長(zhǎng)出的新力量。”

迄今為止,我們尚不能定義什么是智能,什么是意識(shí)。??????

然而,卻有一個(gè)黑乎乎的盒子,告訴我們可能會(huì)超越人類的智能,甚至涌現(xiàn)出人類的意識(shí)。

微軟的報(bào)告中這樣寫道:

我們沒(méi)有解決為什么以及如何實(shí)現(xiàn)如此卓越的智能的基本問(wèn)題。它是如何推理、計(jì)劃和創(chuàng)造的?

當(dāng)它的核心只是簡(jiǎn)單的算法組件–梯度下降和大規(guī)模變換器與極其大量的數(shù)據(jù)的結(jié)合時(shí),它為什么會(huì)表現(xiàn)出如此普遍和靈活的智能?

AI研究人員承認(rèn),智能是否可以在沒(méi)有任何代理或內(nèi)在動(dòng)機(jī)的情況下實(shí)現(xiàn),是一個(gè)重要的哲學(xué)問(wèn)題。

在2023年的這個(gè)并不容易的春天,我對(duì)ChatGPT的態(tài)度坦然而期待:

我希望見(jiàn)到它所具備的可能性,為這個(gè)混亂的世界帶來(lái)某些“熵減”。??

在所有預(yù)測(cè)中,我期待Kurzweil的那個(gè)“2030 年技術(shù)將使人類享受永生”的預(yù)言。

我自己對(duì)永生沒(méi)興趣,但不想失去身邊的人們。我對(duì)世俗的依賴大過(guò)對(duì)“超人類主義”的擔(dān)憂。

我不太相信意識(shí)的上傳,因?yàn)橐坏┥蟼?,就可以?fù)制,就不是唯一的,就失去了自由意志,又談何“意識(shí)”呢??

人類會(huì)洞察大腦最深層次的秘密嗎?湯姆·斯托帕警告過(guò):

“當(dāng)我們發(fā)現(xiàn)了所有的奧秘,并失去了所有的意義時(shí),我們將會(huì)在空蕩蕩的海邊孤身一人?!?/p>

哥德?tīng)柕摹安煌陚湫远ɡ怼备嬖V我們,不確定性是人類認(rèn)識(shí)的形式邏輯思維本身所固有的。

“一個(gè)計(jì)算機(jī)可以修改自身的程序,但不能違背自身的指令——充其量只能通過(guò)服從自身的指令來(lái)改變自身的某些部分。”

哥德?tīng)査闶菫锳I,為人類劃定了邊界嗎?否則,人類制造超級(jí)AI,然后拜其為神,何嘗不是自我奴役??

哥德?tīng)栍指嬖V我們,人類永遠(yuǎn)可以在“實(shí)在主義”中通過(guò)“直觀和直覺(jué)”引入構(gòu)成高一級(jí)形式系統(tǒng)的新東西,建立新公理系統(tǒng),如此推進(jìn)以至無(wú)窮。

這就是彭羅斯所持的那種“人心超過(guò)計(jì)算機(jī)”的觀念。

最后

上一次,七年前,在阿爾法狗面前,人類曾經(jīng)哭泣過(guò);

這一次,無(wú)人哭泣,卻有萬(wàn)眾狂歡。

在兩次AI高潮之間的7年里,我們經(jīng)歷了許多,失去了許多。

人們渴望擁抱某些希望,某些確定性,即使那些確定性來(lái)自一些不確定性的智慧。????

就我自己而言,也遭遇了一些前所未有的艱難時(shí)刻。所謂艱難,并非指一些困難的抉擇,也并非說(shuō)沒(méi)有選項(xiàng)。???????

恰恰相反,依照最優(yōu)決策原理,我很容易通過(guò)期望值計(jì)算,得出最佳選項(xiàng),獲得所謂最大化的收益。

然而,我追溯到內(nèi)心的源頭,重新定義了自己的期望效用,然后據(jù)此做出了有點(diǎn)兒辛頓風(fēng)格的“基于信仰的差異化”選擇。??????

對(duì)任何一個(gè)人而言,不管是難是易,是聰明是愚蠢,是理性是任性,這種事兒在技術(shù)層面都只算小菜一碟。

可對(duì)AI來(lái)說(shuō),自己去定義期望效用,暫時(shí)難于登天。??

所以,研究人員稱,為“大型語(yǔ)言模型”配備代理權(quán)和內(nèi)在動(dòng)機(jī)是未來(lái)工作的一個(gè)迷人的重要方向。

而“代理權(quán)”與“內(nèi)在動(dòng)機(jī)”這兩點(diǎn),一個(gè)普通人類只需要一秒鐘或者幾個(gè)不眠之夜即可實(shí)現(xiàn)。??

或許關(guān)鍵不在于得失,不在于效用函數(shù),而在于“存在”。

如伊塔洛·卡爾維諾所言:

“隨著時(shí)光流逝,我慢慢地明白了,只有存在的東西才會(huì)消失,不管是城市,愛(ài)情,還是父母?!?/p>

在本文開篇寫到的傳奇故事里,掃地少年皮茨和教授麥卡洛克兩人之間非凡的友誼直至終生。???

比起電影《心理捕手》里的心理學(xué)教授“威廉姆斯”,麥卡洛克對(duì)皮茨的情感更為深厚,充滿了父親般的愛(ài),和學(xué)術(shù)上的“琴瑟和鳴”。

后來(lái),當(dāng)麥卡洛克與控制論之父維納產(chǎn)生決裂,皮茨毫不猶豫地站在了麥卡洛克一邊,盡管維納是他的博士生導(dǎo)師,幾乎能夠左右他在學(xué)術(shù)界的前程。皮茨甚至為此燒掉了自己的論文。????????

他如街頭少年般熱血而沖動(dòng)。

不久以后,皮茨繼續(xù)遭遇了學(xué)術(shù)上的打擊,有個(gè)實(shí)驗(yàn)表明,似乎邏輯并未如他的理論所預(yù)期般決定大腦的思維過(guò)程。

這個(gè)鍋爐工的孩子再次回到命運(yùn)的枷鎖之中。曾經(jīng)點(diǎn)燃他灰暗歲月的對(duì)數(shù)學(xué)和邏輯的激情,以及關(guān)于人工智能的天才般的構(gòu)想,一點(diǎn)點(diǎn)被世俗的煙塵淹沒(méi)了。????????

隕落中的天才用血脈中無(wú)法斬?cái)嗟淖晕覛?,?lái)違背自己無(wú)與倫比的邏輯天賦。皮茨開始酗酒,最后在寄宿之家孤獨(dú)死去,年僅46歲。???四個(gè)月后,麥卡洛克也在同一年去世了。?

ChatGPT的底層邏輯

許多年后,當(dāng)人們追溯神經(jīng)網(wǎng)絡(luò)波瀾起伏的發(fā)展歷程,總會(huì)來(lái)到起點(diǎn):麥卡洛克和皮茨共同構(gòu)建的豐碑。??????

就像我們來(lái)到大江大河的源頭,發(fā)現(xiàn)不過(guò)是一處小小的溪流。

哥德?tīng)栐谡軐W(xué)手稿中留下一句話:世界的意義就在于事實(shí)與愿望的分離,即事與愿違。

我更愿意用紀(jì)伯倫的話語(yǔ)來(lái)代替哥德?tīng)柕拿糟M管就底層而言也許是同一件事。詩(shī)人說(shuō):

我們活著只為了去發(fā)現(xiàn)美,其他一切都是等待的種種形式。

作者:孤獨(dú)大腦,公眾號(hào):孤獨(dú)大腦(ID:lonelybrain)

本文由 @孤獨(dú)大腦 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這個(gè)就叫專業(yè),好文!

    來(lái)自廣東 回復(fù)
  2. 太專業(yè)了,這知識(shí)儲(chǔ)備,一個(gè)非技術(shù)人員讀的也津津有味

    來(lái)自浙江 回復(fù)
  3. 臥槽,真長(zhǎng)

    來(lái)自上海 回復(fù)
  4. 太長(zhǎng),太專業(yè)

    來(lái)自重慶 回復(fù)
  5. 這不會(huì)是AI寫的吧?

    來(lái)自廣東 回復(fù)
    1. 你用GPT寫一個(gè)看看能不能出來(lái)

      來(lái)自福建 回復(fù)
    2. 你試過(guò)了?

      來(lái)自廣東 回復(fù)