吳恩達(dá)：圖靈測(cè)試不夠用了，我會(huì)設(shè)計(jì)一個(gè)AGI專用版

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

吳恩達(dá)：圖靈測(cè)試不夠用了，我會(huì)設(shè)計(jì)一個(gè)AGI專用版

量子位

2026-01-12

0 評(píng)論 153 瀏覽 0 收藏

7 分鐘

隨著AI技術(shù)快速迭代，傳統(tǒng)圖靈測(cè)試已難以衡量真正的通用智能水平。吳恩達(dá)提出的圖靈-AGI測(cè)試聚焦于AI的實(shí)際工作能力，通過多日任務(wù)模擬真實(shí)職場(chǎng)場(chǎng)景，為AGI評(píng)估設(shè)立新標(biāo)準(zhǔn)。這一測(cè)試不僅旨在終結(jié)行業(yè)炒作，更將推動(dòng)AI向?qū)嵱没较虬l(fā)展，為技術(shù)突破提供清晰判據(jù)。

新年新氣象！AI大神吳恩達(dá)2026年目標(biāo)公開：

要做一個(gè)新的圖靈測(cè)試，他稱之為圖靈-AGI測(cè)試。

光看名字就知道，這個(gè)測(cè)試專為AGI而生。

去年是AGI水漲船高的一年，吳恩達(dá)在其年度總結(jié)中也曾表示：

2025年或許會(huì)被銘記為人工智能工業(yè)時(shí)代的開端。

創(chuàng)新推動(dòng)模型性能到達(dá)新的高度，AI驅(qū)動(dòng)的應(yīng)用變得不可或缺，頂尖企業(yè)人才爭(zhēng)奪激烈，基礎(chǔ)設(shè)施建設(shè)推動(dòng)社會(huì)生產(chǎn)總值增長(zhǎng)。

學(xué)術(shù)界和工業(yè)界頻繁提及AGI概念，硅谷的公司也會(huì)為搶先AGI定下季度目標(biāo)。

但關(guān)于AGI的定義至今還沒有統(tǒng)一標(biāo)準(zhǔn)，現(xiàn)有基準(zhǔn)測(cè)試還常常誤導(dǎo)大眾，使其高估當(dāng)前的AI水平。

吳恩達(dá)注意到該趨勢(shì)，于是新的圖靈測(cè)試將試圖彌補(bǔ)這一空白。

正如網(wǎng)友所言：

要衡量智能首先要定義智能。

圖靈-AGI測(cè)試設(shè)想

傳統(tǒng)的圖靈測(cè)試在AGI時(shí)代顯然不夠用。

它由艾倫·圖靈在上世紀(jì)五十年代提出，提出用人機(jī)對(duì)話來測(cè)試機(jī)器的智能水平。

在測(cè)試過程中，人類評(píng)估者需要確定他們是在與人還是與機(jī)器交談。如果機(jī)器能夠成功騙過評(píng)估者，那么就算通過了測(cè)試。

但現(xiàn)在的AI顯然不再滿足于簡(jiǎn)單的對(duì)話交互，而是要構(gòu)建起經(jīng)濟(jì)有用的系統(tǒng)，所以亟需一個(gè)能夠衡量AI工作能力的測(cè)試。

而這就是圖靈-AGI測(cè)試的核心，要讓AI像人類一樣智能，并完成大部分的知識(shí)型工作。

測(cè)試對(duì)象將會(huì)是AI系統(tǒng)或?qū)I(yè)人士，他們將會(huì)被提供一臺(tái)可以訪問互聯(lián)網(wǎng)并配備瀏覽器和Zoom等軟件的計(jì)算機(jī)。

裁判將通過計(jì)算機(jī)為測(cè)試對(duì)象設(shè)計(jì)一個(gè)多日的體驗(yàn)任務(wù)，比如作為客服，會(huì)先被培訓(xùn)一段時(shí)間，然后要求執(zhí)行接聽電話的任務(wù)，并需要提供持續(xù)的反饋。

只要AI能夠像人類一樣熟練完成工作任務(wù)，就會(huì)被認(rèn)為通過測(cè)試。

該測(cè)試將聚焦AGI的經(jīng)濟(jì)性和實(shí)際產(chǎn)出，更接近普世意義下對(duì)AGI的初始定義——可用于工作和生產(chǎn)場(chǎng)景的智能。

它也會(huì)比基準(zhǔn)測(cè)試更考驗(yàn)AI的通用能力。

現(xiàn)在幾乎所有的AI基準(zhǔn)測(cè)試，如GPQA、AIME、SWE-bench等，都會(huì)預(yù)先確定一個(gè)測(cè)試集。這意味著AI團(tuán)隊(duì)都會(huì)直接針對(duì)已發(fā)布的測(cè)試集來調(diào)整他們的模型。

這就導(dǎo)致很多AI模型榜單排名靠前，但真實(shí)物理世界中又能力不夠。

去年鬧得沸沸揚(yáng)揚(yáng)的Llama 4刷榜丑聞就是其中一個(gè)典型，明明數(shù)據(jù)看起來都很不錯(cuò)，但用戶真正上手后卻傻眼了。

此外，固定測(cè)試集只能衡量AI在某一狹窄領(lǐng)域的能力。相比之下，圖靈測(cè)試可以由評(píng)委自由提出任意問題，沒有提前限定范圍，更能判斷系統(tǒng)在通用任務(wù)上的表現(xiàn)。

在改進(jìn)的圖靈-AGI測(cè)試中，延續(xù)了這一設(shè)定，裁判可以任意設(shè)計(jì)體驗(yàn)任務(wù)，而受測(cè)試的AI或人類測(cè)試者均不會(huì)事先知道任務(wù)內(nèi)容，這將比基準(zhǔn)測(cè)試更能判斷AGI水平。

同時(shí)為了校準(zhǔn)社會(huì)對(duì)AI的期望，吳恩達(dá)表示，或許他將舉辦一場(chǎng)圖靈-AGI測(cè)試，讓所有AI參與其中。

即便最后的結(jié)果會(huì)是所有AI系統(tǒng)均未能達(dá)到標(biāo)準(zhǔn)，但也能平息長(zhǎng)期以來對(duì)AGI的過度炒作。

這種降溫將會(huì)為AI領(lǐng)域創(chuàng)造更穩(wěn)健的環(huán)境，讓行業(yè)重新聚焦于非AGI級(jí)別的實(shí)際進(jìn)步，比如開發(fā)有實(shí)用價(jià)值的應(yīng)用，而不是沉迷于實(shí)現(xiàn)AGI的營(yíng)銷噱頭。

從長(zhǎng)期來說，圖靈-AGI測(cè)試也會(huì)為AI團(tuán)隊(duì)設(shè)定一個(gè)具體的努力目標(biāo)，而非模糊地實(shí)現(xiàn)人類級(jí)智能。

倘若真有某一家公司能夠通過測(cè)試，其成果也必定具備真實(shí)價(jià)值，圖靈-AGI測(cè)試將會(huì)為真正的AGI突破提供可信的判定依據(jù)。

所以接下來，只需拭目以待。

參考鏈接：

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

鷺羽發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號(hào)：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自作者提供

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App