吳恩達(dá):圖靈測(cè)試不夠用了,我會(huì)設(shè)計(jì)一個(gè)AGI專用版

0 評(píng)論 153 瀏覽 0 收藏 7 分鐘

隨著AI技術(shù)快速迭代,傳統(tǒng)圖靈測(cè)試已難以衡量真正的通用智能水平。吳恩達(dá)提出的圖靈-AGI測(cè)試聚焦于AI的實(shí)際工作能力,通過多日任務(wù)模擬真實(shí)職場(chǎng)場(chǎng)景,為AGI評(píng)估設(shè)立新標(biāo)準(zhǔn)。這一測(cè)試不僅旨在終結(jié)行業(yè)炒作,更將推動(dòng)AI向?qū)嵱没较虬l(fā)展,為技術(shù)突破提供清晰判據(jù)。

新年新氣象!AI大神吳恩達(dá)2026年目標(biāo)公開:

要做一個(gè)新的圖靈測(cè)試,他稱之為圖靈-AGI測(cè)試。

光看名字就知道,這個(gè)測(cè)試專為AGI而生。

去年是AGI水漲船高的一年,吳恩達(dá)在其年度總結(jié)中也曾表示:

2025年或許會(huì)被銘記為人工智能工業(yè)時(shí)代的開端。

創(chuàng)新推動(dòng)模型性能到達(dá)新的高度,AI驅(qū)動(dòng)的應(yīng)用變得不可或缺,頂尖企業(yè)人才爭(zhēng)奪激烈,基礎(chǔ)設(shè)施建設(shè)推動(dòng)社會(huì)生產(chǎn)總值增長(zhǎng)。

學(xué)術(shù)界和工業(yè)界頻繁提及AGI概念,硅谷的公司也會(huì)為搶先AGI定下季度目標(biāo)。

但關(guān)于AGI的定義至今還沒有統(tǒng)一標(biāo)準(zhǔn),現(xiàn)有基準(zhǔn)測(cè)試還常常誤導(dǎo)大眾,使其高估當(dāng)前的AI水平。

吳恩達(dá)注意到該趨勢(shì),于是新的圖靈測(cè)試將試圖彌補(bǔ)這一空白。

正如網(wǎng)友所言:

要衡量智能首先要定義智能。

圖靈-AGI測(cè)試設(shè)想

傳統(tǒng)的圖靈測(cè)試在AGI時(shí)代顯然不夠用。

它由艾倫·圖靈在上世紀(jì)五十年代提出,提出用人機(jī)對(duì)話來測(cè)試機(jī)器的智能水平。

在測(cè)試過程中,人類評(píng)估者需要確定他們是在與人還是與機(jī)器交談。如果機(jī)器能夠成功騙過評(píng)估者,那么就算通過了測(cè)試。

但現(xiàn)在的AI顯然不再滿足于簡(jiǎn)單的對(duì)話交互,而是要構(gòu)建起經(jīng)濟(jì)有用的系統(tǒng),所以亟需一個(gè)能夠衡量AI工作能力的測(cè)試。

而這就是圖靈-AGI測(cè)試的核心,要讓AI像人類一樣智能,并完成大部分的知識(shí)型工作。

測(cè)試對(duì)象將會(huì)是AI系統(tǒng)或?qū)I(yè)人士,他們將會(huì)被提供一臺(tái)可以訪問互聯(lián)網(wǎng)并配備瀏覽器和Zoom等軟件的計(jì)算機(jī)。

裁判將通過計(jì)算機(jī)為測(cè)試對(duì)象設(shè)計(jì)一個(gè)多日的體驗(yàn)任務(wù),比如作為客服,會(huì)先被培訓(xùn)一段時(shí)間,然后要求執(zhí)行接聽電話的任務(wù),并需要提供持續(xù)的反饋。

只要AI能夠像人類一樣熟練完成工作任務(wù),就會(huì)被認(rèn)為通過測(cè)試。

該測(cè)試將聚焦AGI的經(jīng)濟(jì)性和實(shí)際產(chǎn)出,更接近普世意義下對(duì)AGI的初始定義——可用于工作和生產(chǎn)場(chǎng)景的智能。

它也會(huì)比基準(zhǔn)測(cè)試更考驗(yàn)AI的通用能力。

現(xiàn)在幾乎所有的AI基準(zhǔn)測(cè)試,如GPQA、AIME、SWE-bench等,都會(huì)預(yù)先確定一個(gè)測(cè)試集。這意味著AI團(tuán)隊(duì)都會(huì)直接針對(duì)已發(fā)布的測(cè)試集來調(diào)整他們的模型。

這就導(dǎo)致很多AI模型榜單排名靠前,但真實(shí)物理世界中又能力不夠。

去年鬧得沸沸揚(yáng)揚(yáng)的Llama 4刷榜丑聞就是其中一個(gè)典型,明明數(shù)據(jù)看起來都很不錯(cuò),但用戶真正上手后卻傻眼了。

此外,固定測(cè)試集只能衡量AI在某一狹窄領(lǐng)域的能力。相比之下,圖靈測(cè)試可以由評(píng)委自由提出任意問題,沒有提前限定范圍,更能判斷系統(tǒng)在通用任務(wù)上的表現(xiàn)。

在改進(jìn)的圖靈-AGI測(cè)試中,延續(xù)了這一設(shè)定,裁判可以任意設(shè)計(jì)體驗(yàn)任務(wù),而受測(cè)試的AI或人類測(cè)試者均不會(huì)事先知道任務(wù)內(nèi)容,這將比基準(zhǔn)測(cè)試更能判斷AGI水平。

同時(shí)為了校準(zhǔn)社會(huì)對(duì)AI的期望,吳恩達(dá)表示,或許他將舉辦一場(chǎng)圖靈-AGI測(cè)試,讓所有AI參與其中。

即便最后的結(jié)果會(huì)是所有AI系統(tǒng)均未能達(dá)到標(biāo)準(zhǔn),但也能平息長(zhǎng)期以來對(duì)AGI的過度炒作。

這種降溫將會(huì)為AI領(lǐng)域創(chuàng)造更穩(wěn)健的環(huán)境,讓行業(yè)重新聚焦于非AGI級(jí)別的實(shí)際進(jìn)步,比如開發(fā)有實(shí)用價(jià)值的應(yīng)用,而不是沉迷于實(shí)現(xiàn)AGI的營(yíng)銷噱頭。

從長(zhǎng)期來說,圖靈-AGI測(cè)試也會(huì)為AI團(tuán)隊(duì)設(shè)定一個(gè)具體的努力目標(biāo),而非模糊地實(shí)現(xiàn)人類級(jí)智能。

倘若真有某一家公司能夠通過測(cè)試,其成果也必定具備真實(shí)價(jià)值,圖靈-AGI測(cè)試將會(huì)為真正的AGI突破提供可信的判定依據(jù)。

所以接下來,只需拭目以待。

參考鏈接:

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

鷺羽 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自作者 提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!