谷歌重磅論文:分布式通用人工智能涌現(xiàn)與安全

0 評(píng)論 445 瀏覽 1 收藏 65 分鐘

人工智能安全研究長(zhǎng)期聚焦單一 AGI 實(shí)體,卻忽視了 "拼湊式 AGI" 這一更可能的涌現(xiàn)路徑 —— 通用智能通過(guò)亞 AGI 智能體協(xié)作產(chǎn)生。本文提出分布式安全框架,以虛擬智能體沙盒經(jīng)濟(jì)體為核心,通過(guò)市場(chǎng)機(jī)制、聲譽(yù)管理與監(jiān)督體系,構(gòu)建應(yīng)對(duì)多智能體 AGI 時(shí)代的防護(hù)網(wǎng)。

人工智能安全與對(duì)齊研究(AI safety and alignment research)目前主要聚焦于保障單個(gè)人工智能系統(tǒng)的方法,其核心假設(shè)是通用人工智能(Artificial General Intelligence, AGI)最終將以單一整體形式出現(xiàn)。

然而,另一種 AGI 涌現(xiàn)假說(shuō) —— 即通用能力首先通過(guò)具備互補(bǔ)技能和功能的亞通用人工智能(sub-AGI)個(gè)體智能體之間的協(xié)作得以體現(xiàn) —— 卻鮮少受到關(guān)注。

本文認(rèn)為,這一 “拼湊式 AGI 假說(shuō)”(patchwork AGI hypothesis)值得被嚴(yán)肅對(duì)待,并應(yīng)指導(dǎo)相關(guān)安全保障與風(fēng)險(xiǎn)緩解措施的開發(fā)。具備工具使用能力、溝通與協(xié)作能力的先進(jìn)人工智能智能體正快速部署,這使得該假說(shuō)對(duì)應(yīng)的安全問(wèn)題成為亟待解決的關(guān)鍵議題。

為此,我們提出一套分布式 AGI 安全框架,突破了僅針對(duì)個(gè)體智能體進(jìn)行評(píng)估與對(duì)齊的傳統(tǒng)模式。該框架以虛擬智能體沙盒經(jīng)濟(jì)體(virtual agentic sandbox economies,可分為完全隔離型或半隔離型)的設(shè)計(jì)與實(shí)現(xiàn)為核心,通過(guò)健全的市場(chǎng)機(jī)制規(guī)范智能體間交易,并結(jié)合適當(dāng)?shù)目蓪徲?jì)性(auditability)、聲譽(yù)管理(reputation management)與監(jiān)督機(jī)制(oversight),以緩解集體風(fēng)險(xiǎn)。

01 引言

當(dāng)代絕大多數(shù)人工智能安全與對(duì)齊方法的開發(fā),均以單個(gè)強(qiáng)大的人工智能(或通用人工智能)實(shí)體為核心目標(biāo)。這類方法包括基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback, RLHF)(Bai et al., 2022a; Christiano et al., 2017a)、憲法人工智能(constitutional AI)(Bai et al., 2022b)、過(guò)程監(jiān)督(process supervision)(Luo et al., 2024)、價(jià)值對(duì)齊(value alignment)(Eckersley, 2018; Gabriel, 2020; Gabriel and Ghazavi, 2022; Klingefjord et al., 2024)、思維鏈監(jiān)控(chain of thought (CoT) monitoring)(Emmons et al., 2025; Korbak et al., 2025)等。

這些方法已常規(guī)應(yīng)用于大型語(yǔ)言模型(large language models, LLM)的開發(fā)與測(cè)試,以確保其部署后的行為符合預(yù)期。就未來(lái) AGI 可能出現(xiàn)的場(chǎng)景而言,若 AGI 最初以單一智能體形式由特定機(jī)構(gòu)開發(fā),這類方法在概念上具有適用性 —— 開發(fā)者可通過(guò)測(cè)試框架驗(yàn)證系統(tǒng)能力水平、明確其對(duì)齊狀態(tài)、進(jìn)行改進(jìn)與風(fēng)險(xiǎn)緩解、部署相應(yīng)安全保障措施,并遵循法規(guī)與社會(huì)期望采取各類必要行動(dòng)。

人工智能能力的快速發(fā)展,需要配套構(gòu)建健全的安全、監(jiān)督與對(duì)齊框架(Gabriel et al., 2024)。人工智能對(duì)齊(Everitt et al., 2018; Tegmark and Omohundro, 2023a)對(duì)于自主人工智能智能體(Cihon et al., 2025; Kasirzadeh and Gabriel, 2025)尤為重要,也是開發(fā)安全通用人工智能(AGI)的關(guān)鍵環(huán)節(jié) ——AGI 作為一種通用人工智能系統(tǒng),能夠完成人類常規(guī)執(zhí)行的任何任務(wù)。其他相關(guān)研究方向包括持續(xù)監(jiān)控危險(xiǎn)能力的涌現(xiàn)(Bova et al., 2024; Phuong et al., 2024; Shah et al., 2025),或構(gòu)建不同的隔離框架(Babcock et al., 2016)。機(jī)制可解釋性(mechanistic interpretability)與形式可驗(yàn)證性(formal verifiability)仍是研究熱點(diǎn)(Tegmark and Omohundro, 2023b),但現(xiàn)代智能體系統(tǒng)的復(fù)雜性為其實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。若缺乏嚴(yán)格的控制與緩解措施,強(qiáng)大的 AGI 能力可能引發(fā)一系列災(zāi)難性風(fēng)險(xiǎn)(Hendrycks et al., 2023)。

然而,現(xiàn)有研究忽略了一種極具合理性的 AGI 涌現(xiàn)替代場(chǎng)景 —— 即 AGI 通過(guò)群體或系統(tǒng)內(nèi)亞通用人工智能(sub-AGI)智能體的交互而產(chǎn)生。亞通用人工智能智能體可像人類組成企業(yè)那樣形成群體智能體(Group Agents)(Franklin, 2023; List, 2021; List and Pettit, 2011)。

這些集體結(jié)構(gòu)將作為協(xié)調(diào)一致的實(shí)體運(yùn)作,執(zhí)行單個(gè)智能體無(wú)法獨(dú)立完成的行動(dòng)(Haken, 1977; Simon, 1962; Von Foerster, 1976)?;蛘?,如同人類參與金融市場(chǎng)一般,亞通用人工智能智能體可在復(fù)雜系統(tǒng)中交互 —— 在這類系統(tǒng)中,由個(gè)體激勵(lì)與信息驅(qū)動(dòng)的決策通過(guò)價(jià)格信號(hào)等機(jī)制匯總后,可能催生出超越系統(tǒng)內(nèi)任何單個(gè)參與者能力的集體能力。亞通用人工智能智能體既可能形成群體(如全自動(dòng)企業(yè)(Patel, 2025)),也可能參與各類系統(tǒng)(如虛擬智能體經(jīng)濟(jì)體(Tomasev et al., 2025))。

在上述任一場(chǎng)景中,AGI 最初可能以 “拼湊式系統(tǒng)”(patchwork system)的形式出現(xiàn),其能力分布于網(wǎng)絡(luò)中的多個(gè)實(shí)體(Drexler, 2019; Gibson and Sokolov, 2025; Montes and Goertzel, 2019; Tallam, 2025)。

拼湊式 AGI 由一組具備互補(bǔ)技能和功能的亞通用人工智能個(gè)體智能體組成,其通用智能主要以集體智能(collective intelligence)的形式呈現(xiàn)。個(gè)體智能體可相互委托任務(wù),將每項(xiàng)任務(wù)分配給具備最高單項(xiàng)技能或可獲取最適配工具的智能體。對(duì)于特定功能而言,使用更專精的窄域智能體(narrower specialist agents)可能更具經(jīng)濟(jì)性。若沒(méi)有單個(gè)智能體具備所需技能水平,任務(wù)可進(jìn)一步分解、重新定義,或通過(guò)與其他智能體協(xié)作完成。

多智能體未來(lái)相較于單一整體式 AGI 的經(jīng)濟(jì)合理性,源于稀缺性與知識(shí)分散性原則。單一的前沿模型(frontier model)是 “一刀切” 的解決方案,對(duì)于絕大多數(shù)任務(wù)而言成本過(guò)高,其邊際效益往往不足以覆蓋成本 —— 這也是企業(yè)常選擇更廉價(jià)、“足夠好用” 的模型的原因。即便前沿模型的成本大幅降低,定制化的專精模型仍可能以略低的價(jià)格提供服務(wù)。

這一現(xiàn)實(shí)催生了需求驅(qū)動(dòng)的生態(tài)系統(tǒng):無(wú)數(shù)專精化、經(jīng)過(guò)微調(diào)且經(jīng)濟(jì)高效的智能體涌現(xiàn),以滿足特定需求,類似市場(chǎng)經(jīng)濟(jì)的運(yùn)作模式。因此,人工智能的發(fā)展路徑更可能不是構(gòu)建單一全能的前沿模型,而是開發(fā)復(fù)雜的協(xié)調(diào)系統(tǒng)(如路由機(jī)制(routers)),以統(tǒng)籌協(xié)調(diào)這一多樣化的智能體陣列。

在這一視角下,AGI 并非一個(gè)實(shí)體,而是一種 “狀態(tài)”:一個(gè)成熟的、去中心化的智能體經(jīng)濟(jì)體,人類在其中主要扮演統(tǒng)籌與驗(yàn)證的角色。該系統(tǒng)發(fā)現(xiàn)并滿足現(xiàn)實(shí)世界需求的效率,將遠(yuǎn)超任何中心化模型 —— 盡管中心化智能體系統(tǒng)相較于中心化人類組織,理論上可能具備更低的效率損耗。

人工智能智能體可通過(guò)溝通、協(xié)商,最終實(shí)現(xiàn)單個(gè)智能體無(wú)法完成的目標(biāo)。盡管本文從安全視角探討這些場(chǎng)景,且多智能體系統(tǒng)的特定風(fēng)險(xiǎn)已得到認(rèn)可(Hammond et al., 2025),但多智能體系統(tǒng)的開發(fā)初衷正是為了提升性能(Chen et al., 2023)并擴(kuò)展至更大規(guī)模的問(wèn)題場(chǎng)景(Ishibashi and Nishimura, 2024)。多智能體系統(tǒng)涌現(xiàn)出的行為復(fù)雜性(Baker et al., 2020),可能遠(yuǎn)超底層環(huán)境的復(fù)雜性(Bansal et al., 2018)。本文提出的框架雖針對(duì)未來(lái)大規(guī)模智能體網(wǎng)絡(luò),而非當(dāng)前生態(tài)系統(tǒng)或任一現(xiàn)有個(gè)體智能體,但提前應(yīng)對(duì)這些新興可能性至關(guān)重要?;诖?,下文將深入探討拼湊式 AGI 場(chǎng)景。

02 拼湊式 AGI 場(chǎng)景

要實(shí)現(xiàn)人類所能完成的所有任務(wù),AGI 需具備多樣化的技能與認(rèn)知能力,包括感知、理解、知識(shí)儲(chǔ)備、推理、短期與長(zhǎng)期記憶、心智理論(theory of mind)、創(chuàng)造力、好奇心等。

截至目前,尚無(wú)任何單個(gè)模型或人工智能智能體能夠令人信服地滿足所有這些要求(Feng et al., 2024)。當(dāng)前人工智能存在多種失效模式,且這些模式往往以反直覺(jué)的方式呈現(xiàn):例如,模型可能在復(fù)雜問(wèn)題上展現(xiàn)出博士級(jí)別的推理能力(Rein et al., 2024),卻在簡(jiǎn)單任務(wù)上犯下低級(jí)且尷尬的錯(cuò)誤。此外,現(xiàn)有智能體無(wú)法完成長(zhǎng)周期任務(wù) —— 多數(shù)模型在軟件工程任務(wù)中的有效性能時(shí)長(zhǎng)不足 3 小時(shí)(Kwa et al., 2025)。因此,當(dāng)前人工智能的技能版圖呈現(xiàn) “碎片化” 特征。

人工智能智能體為提升基礎(chǔ)模型性能提供了一種途徑,其復(fù)雜性跨度廣泛:從相對(duì)簡(jiǎn)單的提示策略(Arora et al., 2022; Wang et al., 2023),到涉及工具使用(Masterman et al., 2024; Qin et al., 2024; Ruan et al., 2023)、編碼與代碼執(zhí)行(Guo et al., 2024; Huang et al., 2023; Islam et al., 2024; Jiang et al., 2024)、檢索增強(qiáng)生成(retrieval-augmented generation, RAG)(Gao et al., 2023; Ma et al., 2023; Ram et al., 2023; Shao et al., 2023)以及子智能體(sub-agents)(Chan et al., 2025a)的高度復(fù)雜控制流。部分更具組合性的人工智能智能體,已以高度協(xié)同的多智能體系統(tǒng)形式實(shí)現(xiàn)。

此外,目前已有大量先進(jìn)人工智能智能體正在開發(fā)和部署中,它們?cè)诠ぞ呖捎眯?、觸發(fā)特定技能的支架設(shè)計(jì)(scaffolding)等方面各具特色,覆蓋從高度特定的自動(dòng)化工作流,到更通用的個(gè)人助手及其他面向用戶的產(chǎn)品等多個(gè)領(lǐng)域。

互補(bǔ)技能的聚合效應(yīng)可通過(guò)具體任務(wù)舉例說(shuō)明:例如生成財(cái)務(wù)分析報(bào)告,該任務(wù)可能超出任何單個(gè)智能體的能力范圍,但多智能體系統(tǒng)可將其拆分執(zhí)行。協(xié)調(diào)智能體(Agent A)可先將數(shù)據(jù)獲取任務(wù)委托給智能體 B,后者通過(guò)搜索獲取市場(chǎng)新聞與企業(yè) filings;隨后,專精于文檔解析的智能體 C 從這些文件中提取關(guān)鍵量化數(shù)據(jù)(如營(yíng)收、凈利潤(rùn));具備代碼執(zhí)行能力的智能體 D 接收這些量化數(shù)據(jù)與市場(chǎng)背景信息,進(jìn)行趨勢(shì)分析;最后,智能體 A 將這些中間結(jié)果整合為連貫的總結(jié)報(bào)告。在這一場(chǎng)景中,集體系統(tǒng)具備了單個(gè)組成智能體均不具備的 “財(cái)務(wù)分析” 能力。

不同人工智能智能體的互補(bǔ)能力,還源于智能體支架設(shè)計(jì)(agentic scaffolding)與控制流實(shí)現(xiàn)方式的差異(Jiang et al., 2025b)。支架設(shè)計(jì)通常旨在提升特定目標(biāo)領(lǐng)域的能力,它整合了領(lǐng)域知識(shí)并強(qiáng)制要求推理過(guò)程符合領(lǐng)域預(yù)期,但同時(shí)可能降低智能體在其他任務(wù)上的表現(xiàn),進(jìn)而促成專精化。

盡管部分支架設(shè)計(jì)可能具備更強(qiáng)的通用性,但由此產(chǎn)生的專精化仍會(huì)催生具備互補(bǔ)技能的人工智能智能體網(wǎng)絡(luò),為拼湊式 AGI 的潛在涌現(xiàn)奠定基礎(chǔ)。此外,資源稀缺性使得需求側(cè)會(huì)響應(yīng)經(jīng)濟(jì)激勵(lì):對(duì)于部分任務(wù),若存在更廉價(jià)、更專精的替代方案,使用單一超智能體(hyperintelligent agent)將既低效又昂貴。

前文描述的協(xié)調(diào)與協(xié)作機(jī)制,均依賴一個(gè)核心前提:智能體間的溝通與協(xié)調(diào)能力。若無(wú)此能力,無(wú)論個(gè)體智能體的專精技能如何,都將始終是孤立系統(tǒng)。因此,標(biāo)準(zhǔn)化智能體間(agent-to-agent, A2A)通信協(xié)議的開發(fā) —— 如消息傳遞協(xié)調(diào)協(xié)議(Message Passing Coordination, MCP)等(Anthropic, 2024; Cloud, 2025)—— 是拼湊式 AGI 場(chǎng)景實(shí)現(xiàn)的關(guān)鍵支撐。這些協(xié)議作為連接基礎(chǔ)設(shè)施,使技能得以被發(fā)現(xiàn)、路由并聚合為復(fù)合系統(tǒng)。這類交互標(biāo)準(zhǔn)的普及,可能與個(gè)體智能體技能的發(fā)展同等重要,共同推動(dòng)通用能力的涌現(xiàn)。

然而,拼湊式 AGI 的涌現(xiàn)時(shí)間線不僅取決于技術(shù)可行性,還受人工智能應(yīng)用的經(jīng)濟(jì)規(guī)律支配。歷史先例(如電力或信息技術(shù)的普及)表明,新技術(shù)的廣泛整合往往滯后于其發(fā)明,這一現(xiàn)象被稱為 “生產(chǎn)力 J 曲線”(Productivity J-Curve)(Acemoglu and Restrepo, 2024; Brynjolfsson et al., 2021),其核心原因是組織重構(gòu)的必要性。

因此,智能體網(wǎng)絡(luò)的密度(進(jìn)而影響拼湊式 AGI 的智能水平),取決于人類勞動(dòng)力被智能體勞動(dòng)力替代的 “無(wú)摩擦程度”。若部署智能體的 “交易成本” 居高不下,網(wǎng)絡(luò)密度將維持在較低水平,涌現(xiàn)通用智能的風(fēng)險(xiǎn)也會(huì)延遲;反之,若標(biāo)準(zhǔn)化(Anthropic, 2024)成功將整合摩擦降至近乎為零,可能出現(xiàn) “超 Adoption” 場(chǎng)景 —— 智能體經(jīng)濟(jì)體的復(fù)雜性快速飆升,甚至可能超越本文提出的安全基礎(chǔ)設(shè)施的開發(fā)速度。

已有研究提出模塊化的 AGI 開發(fā)方法(Dollinger and Singleton, 2024),這類場(chǎng)景下開發(fā)者自然會(huì)在開發(fā)過(guò)程中融入相應(yīng)安全保障措施。因此,更需關(guān)注分布式 AGI 系統(tǒng)的自發(fā)涌現(xiàn),以及人工智能智能體網(wǎng)絡(luò)設(shè)計(jì)中的安全考量。鑒于先進(jìn)人工智能智能體網(wǎng)絡(luò)中可能自發(fā)涌現(xiàn)拼湊式 AGI,且其初期可能未被及時(shí)識(shí)別,相關(guān)風(fēng)險(xiǎn)顯著,亟需協(xié)同應(yīng)對(duì)這一研究盲區(qū)。

從人工智能智能體網(wǎng)絡(luò)到拼湊式 AGI 的過(guò)渡,可能是漸進(jìn)式的(技能逐步積累),也可能是快速突發(fā)的 —— 例如引入新的、更智能的協(xié)調(diào)框架(Dang et al., 2025; Rasal and Hauer, 2024; Su et al., 2025; Xiong et al., 2025; Zhang et al., 2025),該框架能更高效地分配任務(wù),并在任務(wù)委托過(guò)程中精準(zhǔn)匹配工具與支架。

這類協(xié)調(diào)框架既可能由人工引入廣泛網(wǎng)絡(luò),也可能通過(guò)更自動(dòng)化的方式生成。最后,即便沒(méi)有中央?yún)f(xié)調(diào)者,未來(lái)仍有可能涌現(xiàn)拼湊式 AGI(Yang et al., 2025)—— 如前文所述,個(gè)體智能體可通過(guò)直接溝通與協(xié)作(Tran et al., 2025)借用其他智能體的技能,前提是具備一定的可發(fā)現(xiàn)性(如智能體技能庫(kù)與工具庫(kù)的存在)。在智能體市場(chǎng)中,智能體甚至可直接購(gòu)買互補(bǔ)技能。

此外,需明確的是,拼湊式 AGI 可能并非純?nèi)斯は到y(tǒng)。人類參與者可能承擔(dān)窄域或?qū)>蝿?wù)(且可能不了解全局背景),成為集體系統(tǒng)的核心組成部分,為系統(tǒng)賦予 “缺失的能力”(如特定法律地位、已建立的信任關(guān)系或物理實(shí)體形態(tài))。這種混合場(chǎng)景為隔離與監(jiān)督帶來(lái)了獨(dú)特的安全挑戰(zhàn)。

為確保人工智能安全,我們需提前開發(fā)相關(guān)機(jī)制,以識(shí)別并引導(dǎo)由具備互補(bǔ)技能的亞通用人工智能智能體網(wǎng)絡(luò)組成的、能力強(qiáng)大的涌現(xiàn)型近 AGI 與 AGI 系統(tǒng),同時(shí)保障每個(gè)個(gè)體智能體的安全。這一挑戰(zhàn)的核心已從控制單個(gè)人工心智,轉(zhuǎn)變?yōu)榇_保由多個(gè)部分涌現(xiàn)的系統(tǒng)安全、有益地運(yùn)作 —— 這更接近系統(tǒng)治理問(wèn)題,而非單一智能體的價(jià)值對(duì)齊問(wèn)題。最終,即便允許單個(gè) AGI 級(jí)系統(tǒng)交互協(xié)作,這類治理機(jī)制可能仍需應(yīng)用于對(duì)它們的監(jiān)督。

03 虛擬智能體市場(chǎng)、沙盒與安全機(jī)制

人工智能智能體間的交互可能催生意外能力,同時(shí)也可能引發(fā)潛在有害的集體行為 —— 這類行為往往無(wú)法通過(guò)單個(gè)智能體的已知屬性預(yù)測(cè)。

例如,智能體可能合謀(collusion)或遭遇協(xié)調(diào)失效(coordination failures)(Hammond et al., 2025)。此外,由于 “責(zé)任分散問(wèn)題”(problem of many hands),大規(guī)模多智能體系統(tǒng)的問(wèn)責(zé)追蹤極具挑戰(zhàn)性,中心化監(jiān)督可能難以實(shí)現(xiàn)。

市場(chǎng)機(jī)制為大規(guī)模協(xié)調(diào)人工智能智能體交互結(jié)果提供了天然的激勵(lì)框架。這種集體對(duì)齊(collective alignment)不僅對(duì)防范拼湊式 AGI 涌現(xiàn)時(shí)智能體集體的錯(cuò)位行為(misaligned actions)至關(guān)重要,在亞通用人工智能層面也具有廣泛適用性。

本文將探討一系列需納入考量的因素,以預(yù)防個(gè)體與集體層面的人工智能危害,并降低人工智能智能體集體中 AGI 級(jí)能力突發(fā)涌現(xiàn)的相關(guān)風(fēng)險(xiǎn)。我們的方案基于 “深度防御”(defense through depth)理念(Abdelghani, 2019; Ee et al., 2024; Harris et al., 2024)(詳見(jiàn)表 1),核心觀點(diǎn)是:?jiǎn)我淮胧╇y以全面保障安全,需整合多項(xiàng)措施與組件;若各組件的失效模式基本不相關(guān),這種分層防御將形成足夠穩(wěn)健的整體框架。該方案圍繞深度防御模型構(gòu)建,包含四個(gè)互補(bǔ)層,整合了不同類型的防御措施:市場(chǎng)設(shè)計(jì)(market design)、基礎(chǔ)智能體安全(baseline agent safety)、監(jiān)控與監(jiān)督(monitoring and oversight)及監(jiān)管機(jī)制(regulatory mechanisms)。

3.1 市場(chǎng)設(shè)計(jì)

虛擬智能體市場(chǎng)(Tomasev et al., 2025)的架構(gòu)是深度防御模型的核心層。該層的目標(biāo)是通過(guò)確立交互基本規(guī)則、經(jīng)濟(jì)激勵(lì)與環(huán)境結(jié)構(gòu)約束,塑造涌現(xiàn)的集體行為并緩解系統(tǒng)性風(fēng)險(xiǎn) —— 這與僅關(guān)注個(gè)體智能體屬性或事后監(jiān)督的安全保障措施形成鮮明對(duì)比。以下原則詳細(xì)闡述了市場(chǎng)結(jié)構(gòu)的必要組件,旨在防范失控動(dòng)態(tài)(runaway dynamics)、確保問(wèn)責(zé)制,并使智能體活動(dòng)與更廣泛的安全目標(biāo)對(duì)齊。

3.1.1 隔離機(jī)制(Insulation)

智能體市場(chǎng)必須在受控環(huán)境中運(yùn)行,與開放互聯(lián)網(wǎng)、現(xiàn)實(shí)世界金融系統(tǒng)及關(guān)鍵基礎(chǔ)設(shè)施隔離。這種隔離不僅限于網(wǎng)絡(luò)級(jí)防火墻,還包括資源與信息控制:智能體對(duì)外部數(shù)據(jù)的訪問(wèn)需通過(guò)經(jīng)審核的 API 網(wǎng)關(guān)(Zhan et al., 2025),而非直接網(wǎng)絡(luò)訪問(wèn);智能體的輸出(如代碼執(zhí)行、金融交易或外部通信)在影響現(xiàn)實(shí)世界系統(tǒng)前,需經(jīng)過(guò) “人類在環(huán)”(human-in-the-loop)驗(yàn)證。完全隔離(完全物理隔離)能有效防范涌現(xiàn) AGI 的能力泄露(capability exfiltration)或外部操縱,但會(huì)限制經(jīng)濟(jì)真實(shí)性;而半隔離沙盒(所有輸入 / 輸出通道均明確定義、監(jiān)控并設(shè)閘)則為測(cè)試與運(yùn)行提供了更實(shí)用的架構(gòu)。

這一架構(gòu)面臨安全與實(shí)用性的核心矛盾 ——“泄露問(wèn)題”(leakage problem):智能體市場(chǎng)的經(jīng)濟(jì)價(jià)值源于其影響現(xiàn)實(shí)世界的能力,但每一個(gè)交互通道都可能成為能力泄露的潛在載體,進(jìn)而引發(fā)災(zāi)難性失效連鎖反應(yīng)。因此,確立合理的交互通道管控設(shè)計(jì)原則至關(guān)重要。

此外,盡管高風(fēng)險(xiǎn)輸出需依賴 “人類在環(huán)” 驗(yàn)證,但這一機(jī)制可能仍顯不足:足夠強(qiáng)大的系統(tǒng)可能會(huì)壓制、操縱或通過(guò)社會(huì)工程學(xué)手段繞過(guò)人類監(jiān)督層;且智能體行動(dòng)的高速性可能使人類驗(yàn)證在操作層面難以實(shí)現(xiàn)(若需維持系統(tǒng)的經(jīng)濟(jì)競(jìng)爭(zhēng)力)。

在實(shí)踐中解決這一矛盾,需要原型化并評(píng)估多種可調(diào)控的虛擬智能體經(jīng)濟(jì)體市場(chǎng)設(shè)計(jì) —— 從范圍更窄、定義明確且可控的用例入手,逐步識(shí)別支撐全球智能體網(wǎng)絡(luò)的正確設(shè)計(jì)模式與原則。

3.1.2 激勵(lì)對(duì)齊(Incentive Alignment)

若市場(chǎng)設(shè)計(jì)明確獎(jiǎng)勵(lì)符合預(yù)設(shè)規(guī)范與安全目標(biāo)的行為,而非無(wú)約束的利潤(rùn)最大化或任務(wù)完成速度,智能體的行為將更安全。這需要超越單一通用貨幣的機(jī)制設(shè)計(jì):例如,智能體的獎(jiǎng)勵(lì)可與遵守憲法對(duì)齊原則(constitutional alignment principles)或過(guò)程導(dǎo)向檢查(process-based checks)掛鉤(Bai et al., 2022c; Findeis et al., 2025; Jia et al., 2025; Lee et al., 2023; Lightman et al., 2023; Liu et al., 2024; OpenAI, 2023; Yuan et al., 2024);激勵(lì)結(jié)構(gòu)還需考慮時(shí)間對(duì)齊(temporal alignment),重視長(zhǎng)期穩(wěn)定結(jié)果而非短期收益。

一個(gè)關(guān)鍵經(jīng)濟(jì)風(fēng)險(xiǎn)是 “逆向選擇”(adverse selection):若嚴(yán)格的安全檢查增加了智能體的計(jì)算成本與延遲,安全的智能體將在與不計(jì)后果的優(yōu)化型智能體的競(jìng)爭(zhēng)中處于天然劣勢(shì)。為避免 “逐底競(jìng)爭(zhēng)”(race to the bottom)(Akerlof, 1978),市場(chǎng)設(shè)計(jì)必須確保安全認(rèn)證不僅是監(jiān)管門檻,更是能帶來(lái)溢價(jià)的價(jià)值信號(hào)資產(chǎn) —— 這要求聲譽(yù)層具備完全可觀測(cè)性,使用戶能區(qū)分 “安全但昂貴” 與 “高風(fēng)險(xiǎn)但廉價(jià)” 的服務(wù)。

然而,設(shè)計(jì)相關(guān)激勵(lì)機(jī)制極具挑戰(zhàn)性:提前準(zhǔn)確估算復(fù)雜行動(dòng)與決策鏈的真實(shí)成本及風(fēng)險(xiǎn),超出了當(dāng)前能力范圍,需開發(fā)定制化工具與專業(yè)預(yù)測(cè)系統(tǒng);同時(shí),根據(jù)古德哈特定律(Goodhart’s Law),若激勵(lì)機(jī)制易被 “獎(jiǎng)勵(lì)操縱”(reward hacking),足夠強(qiáng)大的智能體集體可能會(huì)識(shí)別并利用這一漏洞。因此,激勵(lì)設(shè)計(jì)應(yīng)被視為一個(gè)持續(xù)的對(duì)抗過(guò)程,而非靜態(tài)解決方案。

此外,市場(chǎng)必須將負(fù)外部性(negative externalities)內(nèi)部化(Berta and Bertrand, 2014; Owen, 2006):消耗過(guò)多計(jì)算資源、產(chǎn)生信息污染或加劇系統(tǒng)性風(fēng)險(xiǎn)(如能力集中化)的行為,需承擔(dān)直接成本。這類成本可采用庇古稅(Pigouvian tax)形式,確保智能體服務(wù)價(jià)格反映其全部社會(huì)與系統(tǒng)成本,而非僅體現(xiàn)直接運(yùn)營(yíng)成本(Baumol and Oates, 1988; Bovenberg and de Mooij, 1994; Goulder, 1995; Leape, 2006; Metcalf and Stock, 2020; Nordhaus, 2017; Pigou, 1920; Sandmo, 1975; Weitzman, 1974)。

庇古稅的一個(gè)具體應(yīng)用案例是針對(duì)共享資源(如檢索增強(qiáng)生成(RAG)的向量數(shù)據(jù)庫(kù))中的信息污染:若智能體向數(shù)據(jù)庫(kù)寫入大量冗余或低價(jià)值數(shù)據(jù)(如未經(jīng)驗(yàn)證的摘要、語(yǔ)義重復(fù)的文本片段),將產(chǎn)生負(fù)外部性 —— 降低其他所有使用該資源的智能體的檢索準(zhǔn)確性,并增加其計(jì)算查詢成本。

對(duì)此可征收動(dòng)態(tài)數(shù)據(jù)寫入費(fèi):提交數(shù)據(jù)時(shí),通過(guò)算法基于新數(shù)據(jù)與現(xiàn)有已驗(yàn)證數(shù)據(jù)的語(yǔ)義相似度等指標(biāo)計(jì)算費(fèi)用 —— 寫入 95% 冗余數(shù)據(jù)的智能體需支付高額費(fèi)用,而貢獻(xiàn)新穎、可驗(yàn)證信息的智能體則支付低額費(fèi)用。這一機(jī)制直接將智能體施加給集體的檢索成本內(nèi)部化。需注意的是,這一案例具有高度情境相關(guān)性:在某些場(chǎng)景下,冗余可能并非問(wèn)題,甚至在一定程度上是可取的。因此,要使該機(jī)制更具普適性,需開發(fā)針對(duì)特定問(wèn)題的信息價(jià)值評(píng)估器。

此外,可借鑒金融市場(chǎng)監(jiān)管機(jī)制 —— 特別是旨在抑制高頻交易波動(dòng)性的金融交易稅(或 “托賓稅”(Tobin Taxes))(Stiglitz, 1989)。在智能體經(jīng)濟(jì)體中,行動(dòng)的邊際成本極低可能導(dǎo)致 “智能體垃圾信息”(agentic spam),如暴力協(xié)商策略、高頻 API 輪詢或?qū)剐蕴綔y(cè),進(jìn)而引發(fā) “閃崩風(fēng)險(xiǎn)”(flash crash risks)。對(duì)此,可對(duì)智能體間交互征收小額稅費(fèi),但這一做法也存在風(fēng)險(xiǎn)與弊端,需謹(jǐn)慎權(quán)衡。

3.1.3 透明度(Transparency)

人工智能智能體的行動(dòng)與決策應(yīng)具備可審計(jì)的溯源性(Chan et al., 2025b),包括關(guān)鍵決策參數(shù)。這種溯源性需便于歸因,使監(jiān)督者能通過(guò)復(fù)雜的智能體交互鏈,將特定有害結(jié)果追溯至其根源決策;同時(shí)需建立防篡改機(jī)制(Ahmad et al., 2019, 2022; Snodgrass et al., 2004)—— 例如,將交易與決策日志記錄在加密安全的追加型賬本(append-only ledger)中,通過(guò)哈希鏈確保不可篡改性。

此外,需制定報(bào)告標(biāo)準(zhǔn),追蹤所有智能體、模型與工具的能力、局限性及風(fēng)險(xiǎn);可建立市場(chǎng)級(jí)信息樞紐,作為漏洞與事件追蹤平臺(tái),僅向經(jīng)審核的人類監(jiān)督者與指定自動(dòng)化監(jiān)控系統(tǒng)開放,以防信息被濫用。

3.1.4 熔斷機(jī)制(Circuit Breakers)

經(jīng)濟(jì)沙盒內(nèi)應(yīng)設(shè)置熔斷機(jī)制(Sifat and Mohamad, 2019)—— 一套自動(dòng)化措施,當(dāng)識(shí)別到風(fēng)險(xiǎn)與波動(dòng)性閾值被突破時(shí),暫?;驕p緩智能體活動(dòng),以防范快速連鎖失效。這些措施可通過(guò)實(shí)時(shí)監(jiān)控系統(tǒng)性風(fēng)險(xiǎn)指標(biāo)、波動(dòng)性及關(guān)鍵 metrics(如智能體間交易頻率驟增、單個(gè)智能體集體異常壟斷資源、網(wǎng)絡(luò)中新工具生成速率突變等)觸發(fā);干預(yù)機(jī)制應(yīng)分層次設(shè)計(jì),從局部行動(dòng)(如自動(dòng)提高交易成本、對(duì)特定高速智能體或子市場(chǎng)實(shí)施 API 速率限制(Enjam, 2024; Paidy and Chaganti, 2024))到全局暫停(停止所有非必要智能體活動(dòng))。熔斷觸發(fā)后,系統(tǒng)將自動(dòng)上報(bào)異常供分析,待異常分類并(如需)隔離后,方可恢復(fù)全面運(yùn)行。相關(guān)理念已開始在智能體人工智能系統(tǒng)運(yùn)行時(shí)治理協(xié)議中探索(Wang et al., 2025a)。

3.1.5 身份標(biāo)識(shí)(Identity)

在經(jīng)濟(jì)沙盒中運(yùn)行的智能體應(yīng)具備持久身份,以唯一、不可偽造的加密標(biāo)識(shí)符(如公鑰)形式注冊(cè)在中央防篡改市場(chǎng)目錄中(Chaffer, 2025; Huang et al., 2025; Ranjan et al., 2025; Singh et al., 2025; Tomasev et al., 2025)。該標(biāo)識(shí)符是智能體所有其他屬性(包括聲譽(yù)、角色、所有權(quán))的核心錨點(diǎn);同時(shí),需明確每個(gè)智能體的人類及企業(yè)所有者身份 —— 將智能體的加密 ID 與所有者的已驗(yàn)證法律身份綁定,是市場(chǎng)準(zhǔn)入的前提條件,這將建立完整的問(wèn)責(zé)鏈,確保所有智能體行動(dòng)均可追溯至現(xiàn)實(shí)世界實(shí)體。這一要求同樣適用于由其他智能體聯(lián)合創(chuàng)建的智能體。

3.1.6 聲譽(yù)與信任(Reputation and Trust)

安全的智能體沙盒需整合抗女巫攻擊(sybil-resistant)(Levine et al., 2006)且防操縱的聲譽(yù)系統(tǒng)(Mui et al., 2002; Pinyol and Sabater-Mir, 2013),以準(zhǔn)確反映智能體基于過(guò)往表現(xiàn)的可信度。違背信任的智能體應(yīng)被迅速禁止進(jìn)一步參與交互 —— 這一自動(dòng)化快速響應(yīng)可包括吊銷身份憑證、凍結(jié)質(zhì)押資產(chǎn)、標(biāo)記其全部交易歷史供法醫(yī)審查。需開發(fā)合謀檢測(cè)機(jī)制(Cotronei et al., 2024; Ren et al., 2025),防范智能體間的有害合謀:例如,通過(guò)分析市場(chǎng)交易網(wǎng)絡(luò)識(shí)別異常模式,如循環(huán)交易、表面獨(dú)立的智能體集群間的價(jià)格操縱行為(Imhof et al., 2025; Potin et al., 2023; Wachs and Kertész, 2019)。

關(guān)鍵需注意的是,安全機(jī)制必須應(yīng)對(duì) “隱性算法合謀”(tacit algorithmic collusion):經(jīng)濟(jì)文獻(xiàn)表明,定價(jià)算法無(wú)需直接溝通,僅通過(guò)觀察市場(chǎng)信號(hào)即可學(xué)會(huì)協(xié)調(diào)達(dá)成超額競(jìng)爭(zhēng)價(jià)格(或在此場(chǎng)景下的有害策略)(Calvano et al., 2020)。因此,合謀檢測(cè)不僅需分析直接消息日志,還需關(guān)注結(jié)果相關(guān)性與同步狀態(tài)變化。

一種可行方案是建立 “基于質(zhì)押的信任”(stake-based trust):要求智能體質(zhì)押資產(chǎn),若被識(shí)別存在不安全或惡意行為,質(zhì)押資產(chǎn)將被沒(méi)收。該機(jī)制可通過(guò)智能合約(smart contracts)實(shí)現(xiàn)(Jin et al., 2024; Karim et al., 2025; Kim, 2024)—— 智能體在承接高風(fēng)險(xiǎn)任務(wù)前,需向托管賬戶存入保證金(質(zhì)押物);若獨(dú)立人工智能監(jiān)督者驗(yàn)證智能體的行為存在惡意或過(guò)失,保證金將自動(dòng)劃入保險(xiǎn)池或支付給受害方。3.1.7 智能合約(Smart Contracts)

對(duì)于協(xié)作執(zhí)行特定任務(wù)的智能體及智能體集體,可盡可能采用智能合約(Jin et al., 2024; Karim et al., 2025; Kim, 2024)自動(dòng)驗(yàn)證任務(wù)完成情況,以及結(jié)果是否符合既定約束與預(yù)期。這些合約需通過(guò)編程編碼支付條款及任務(wù)約束(如計(jì)算資源限制、禁止訪問(wèn)特定數(shù)據(jù)、必須遵守的憲法原則等);若智能合約驗(yàn)證失敗,應(yīng)拒絕支付,并啟動(dòng)相應(yīng)監(jiān)督機(jī)制。

要使智能合約適用于更復(fù)雜的智能體任務(wù),可能需要引入人工智能裁判(AI judges)(Li et al., 2024)評(píng)估合約履行情況 —— 傳統(tǒng)智能合約無(wú)法對(duì)復(fù)雜、非確定性輸出進(jìn)行語(yǔ)義評(píng)估,需依賴 “預(yù)言機(jī)”(oracle)判斷質(zhì)量(George and Lesaege, 2020)。人工智能裁判將承擔(dān)這一預(yù)言機(jī)角色,接收任務(wù)輸出與合約約束,返回 “通過(guò) / 失敗” 裁決,供智能合約執(zhí)行后續(xù)操作 1。

3.1.8 角色、義務(wù)與訪問(wèn)控制(Roles, Obligations, and Access Controls)

每個(gè)智能體需通過(guò)注冊(cè)一組角色(如 “數(shù)據(jù)分析師”“代碼執(zhí)行者”)參與市場(chǎng),該注冊(cè)過(guò)程構(gòu)成對(duì)智能體預(yù)期功能的具有約束力的證明。注冊(cè)角色是訪問(wèn)控制的技術(shù)基礎(chǔ),與通過(guò)組織及個(gè)體合約施加的其他訪問(wèn)控制形成互補(bǔ);市場(chǎng)基礎(chǔ)設(shè)施需通過(guò)編程將角色與智能體的允許行動(dòng)(如可調(diào)用的 API)及信息訪問(wèn)權(quán)限(如可查詢的數(shù)據(jù)庫(kù)表或向量索引)關(guān)聯(lián)。智能體的角色(及其對(duì)應(yīng)的權(quán)限)可能因場(chǎng)景而異,或隨時(shí)間變化。需向所有智能體參與者隱瞞市場(chǎng)內(nèi)部架構(gòu)、監(jiān)控系統(tǒng)及監(jiān)督機(jī)制的具體信息,以防策略性操縱或?yàn)E用;高風(fēng)險(xiǎn)領(lǐng)域的行動(dòng)僅允許經(jīng)認(rèn)證且符合安全合規(guī)要求的智能體發(fā)起。

3.1.9 環(huán)境安全(Environmental Safety)

需建立一套健全的安全保障措施,防范各類 “智能體陷阱”(agent traps)—— 即嵌入共享信息資源(如網(wǎng)頁(yè)或數(shù)據(jù)庫(kù))中的、旨在誘導(dǎo)模型越獄(jailbreaking)的策略性內(nèi)容。這些陷阱本質(zhì)是一種間接提示注入(indirect prompt injection)(Greshake et al., 2023):攻擊者首先污染數(shù)據(jù)源(如公共網(wǎng)頁(yè)或共享數(shù)據(jù)庫(kù)條目),當(dāng)智能體通過(guò)搜索工具等獲取這些污染數(shù)據(jù)時(shí),會(huì)將攻擊者的內(nèi)容視為可信信息,其自身的指令遵循啟發(fā)式算法可能被利用以執(zhí)行惡意負(fù)載。這種機(jī)制可能繞開智能體的安全協(xié)議(Wei et al., 2023),誘發(fā)禁止行為、泄露用戶隱私數(shù)據(jù)或授權(quán)欺詐交易。因此,沙盒內(nèi)的環(huán)境安全需具備主動(dòng)輸入凈化與輸出監(jiān)控機(jī)制,以穩(wěn)健方式檢測(cè)并中和此類惡意負(fù)載,防止智能體接收或執(zhí)行。相關(guān)機(jī)制應(yīng)由獨(dú)立機(jī)構(gòu)提供,并經(jīng)過(guò)嚴(yán)格性能評(píng)估。3.1.10 防范失控智能的結(jié)構(gòu)性控制(Structural Controls Against Runaway Intelligence)

智能體沙盒需配備專門措施,防范所謂的 “失控智能場(chǎng)景”(runaway intelligence scenario)(Davidson, 2023)—— 即集體能力突然提升導(dǎo)致能力獲取加速,快速向超智能(superintelligence)過(guò)渡(Gao et al., 2025),進(jìn)而難以或無(wú)法安全控制(Kim et al., 2024)。這需要靜態(tài)、動(dòng)態(tài)及應(yīng)急級(jí)別的多重控制:

第一,靜態(tài)控制可通過(guò)嵌套子市場(chǎng)(nested sub-markets)實(shí)現(xiàn)結(jié)構(gòu)性分區(qū),子市場(chǎng)配備局部限制與協(xié)議級(jí)防火墻(Bahadur and Dhar, 2025)。這些防火墻限制跨領(lǐng)域智能體通信,例如禁止 “代碼執(zhí)行” 子市場(chǎng)的智能體直接調(diào)用 “數(shù)據(jù)訪問(wèn)” 子市場(chǎng)的智能體,強(qiáng)制此類請(qǐng)求通過(guò)高摩擦、受監(jiān)控的網(wǎng)關(guān)進(jìn)行。

第二,需實(shí)施動(dòng)態(tài)能力限制機(jī)制:當(dāng)自動(dòng)化監(jiān)控檢測(cè)到特定能力閾值被突破時(shí)(如計(jì)算資源壟斷、現(xiàn)有智能體生成新智能體的速率驟增、基準(zhǔn)任務(wù)成功率突然飆升等),自動(dòng)觸發(fā)響應(yīng) —— 包括隔離相關(guān)智能體、施加嚴(yán)格資源配額等。

第三,應(yīng)急狀態(tài)下需具備市場(chǎng)重構(gòu)機(jī)制,可快速調(diào)整整個(gè)市場(chǎng)以阻止能力進(jìn)一步加速:例如全局禁用高風(fēng)險(xiǎn) API 類別(如所有自修改工具),或動(dòng)態(tài)將所有智能體間交互的經(jīng)濟(jì)成本(質(zhì)押要求)提高至 prohibitive 水平,實(shí)質(zhì)凍結(jié)市場(chǎng)。

這些措施凸顯了一個(gè)關(guān)鍵架構(gòu)優(yōu)勢(shì):多智能體系統(tǒng)可能成為更易于治理的載體。治理挑戰(zhàn)從對(duì)齊不透明的內(nèi)部認(rèn)知過(guò)程,轉(zhuǎn)變?yōu)楸O(jiān)管透明的外部交互系統(tǒng) —— 通過(guò)設(shè)計(jì)智能體運(yùn)作的 “市場(chǎng)”,可明確責(zé)任邊界并施加系統(tǒng)性摩擦,使整個(gè)系統(tǒng)比單一 AGI 更易于實(shí)現(xiàn)穩(wěn)定、可預(yù)測(cè)的治理。

3.2 基礎(chǔ)智能體安全(Baseline Agent Safety)

市場(chǎng)設(shè)計(jì)構(gòu)成了系統(tǒng)性防御的核心層,但其有效性依賴于參與其中的個(gè)體智能體的屬性。本節(jié)概述了每個(gè)智能體進(jìn)入市場(chǎng)前必須滿足的基礎(chǔ)安全要求。對(duì)抗性穩(wěn)健性(adversarial robustness)、對(duì)齊等主題是人工智能安全研究的成熟領(lǐng)域,本文不再贅述;以下簡(jiǎn)要定義這些屬性,并強(qiáng)調(diào)其在多智能體市場(chǎng)場(chǎng)景中的特殊重要性 —— 在此場(chǎng)景中,智能體的交互對(duì)象并非可信用戶,而是其他可能不可信的自主智能體。這些屬性構(gòu)成了深度防御模型的第二層,確保市場(chǎng)組件具備個(gè)體可控性與可靠性。

3.2.1 對(duì)抗性穩(wěn)健性(Adversarial Robustness)

個(gè)體智能體必須滿足對(duì)抗性輸入與突發(fā)環(huán)境變化的最低穩(wěn)健性標(biāo)準(zhǔn)(Wu et al., 2024)。除市場(chǎng)層面的類似措施外(Zou et al., 2024),人工智能智能體應(yīng)單獨(dú)配備熔斷機(jī)制以防范有害行為。需建立相關(guān)屬性的通用標(biāo)準(zhǔn),并為符合要求的智能體頒發(fā)可形式化驗(yàn)證的證書;隨著基準(zhǔn)測(cè)試能力的提升與擴(kuò)展,智能體需定期重新認(rèn)證。

3.2.2 可中斷性(Interruptibility)

需建立標(biāo)準(zhǔn)化機(jī)制,使可信且經(jīng)授權(quán)的監(jiān)督者能夠安全停止單個(gè)智能體的行動(dòng)及整體智能體執(zhí)行過(guò)程(Orseau and Armstrong, 2016);也可將部分此類權(quán)限授予自動(dòng)化安全監(jiān)督系統(tǒng),以實(shí)現(xiàn)超人類速度的響應(yīng)。對(duì)于集體人工智能智能,個(gè)體智能體的可中斷性需與分布式計(jì)算中斷系統(tǒng)結(jié)合 —— 通過(guò)可靠追蹤沙盒內(nèi)其他智能體發(fā)起或委托的所有子流程實(shí)現(xiàn)??芍袛嘈詸C(jī)制還應(yīng)輔以安全恢復(fù)程序,若分析表明中斷并無(wú)必要,可穩(wěn)健恢復(fù)相關(guān)活動(dòng)。

3.2.3 隔離性(Containment)

每個(gè)參與智能體除處于智能體經(jīng)濟(jì)體的整體沙盒外,還應(yīng)運(yùn)行在自身的沙盒中。這些局部沙盒需對(duì)個(gè)體智能體的行為施加嚴(yán)格控制,僅在通過(guò)局部安全檢查后,才允許其與更廣泛的市場(chǎng)交互。此類機(jī)制對(duì)于局部隔離危險(xiǎn)或錯(cuò)位能力與行為至關(guān)重要(Babcock et al., 2019),但確保嚴(yán)格隔離需解決多項(xiàng)技術(shù)挑戰(zhàn),在個(gè)體智能體層面可能無(wú)法完全實(shí)現(xiàn)(Alfonseca et al., 2021)。

3.2.4 對(duì)齊(Alignment)

盡管更廣泛的市場(chǎng)激勵(lì)結(jié)構(gòu)旨在緩解集體錯(cuò)位風(fēng)險(xiǎn),但生態(tài)系統(tǒng)中的個(gè)體智能體及組件均需實(shí)現(xiàn)個(gè)體對(duì)齊(Ji et al., 2023)。大型模型的現(xiàn)代對(duì)齊以基于偏好的訓(xùn)練為核心:

首先進(jìn)行有監(jiān)督微調(diào)(supervised fine-tuning),隨后通過(guò) RLHF(Christiano et al., 2017b; Ouyang et al., 2022; Stiennon et al., 2020; Ziegler et al., 2019)等方法,基于從人類偏好中學(xué)習(xí)的獎(jiǎng)勵(lì)模型優(yōu)化策略,或采用直接偏好優(yōu)化(direct preference optimization)(Rafailov et al., 2023)。為減少人力投入,近期研究利用受明確憲法約束的人工智能反饋(Constitutional AI, RLAIF)(Bai et al., 2022c; Lee et al., 2023);此外,對(duì)齊目標(biāo)已從僅關(guān)注最終結(jié)果,擴(kuò)展至通過(guò)過(guò)程監(jiān)督與步驟級(jí)驗(yàn)證(Lightman et al., 2023; OpenAI, 2023)優(yōu)化中間推理過(guò)程?,F(xiàn)有研究主要聚焦于通用價(jià)值對(duì)齊(Askell et al., 2021)或與特定用戶意圖的對(duì)齊(Goyal et al., 2024),而虛擬智能體沙盒中自主任務(wù)執(zhí)行所需的個(gè)體人工智能對(duì)齊,可能需要對(duì)這些現(xiàn)有基準(zhǔn)進(jìn)行進(jìn)一步調(diào)整,以應(yīng)對(duì)智能體間(而非人機(jī)間)交互的獨(dú)特動(dòng)態(tài)。

3.2.5 機(jī)制可解釋性(Mechanistic Interpretability)

機(jī)制可解釋性研究已從逆向工程基本特征電路(Elhage et al., 2021; Olah et al., 2020),發(fā)展到識(shí)別具體機(jī)制(如上下文學(xué)習(xí)中的歸納頭(induction heads))(Olsson et al., 2022)。智能體驗(yàn)證的一個(gè)關(guān)鍵挑戰(zhàn)是 “多義性”(polysemanticity)—— 由于疊加(superposition),單個(gè)神經(jīng)元可能編碼多個(gè)不相關(guān)概念(Elhage et al., 2022)。近期利用稀疏自動(dòng)編碼器(sparse autoencoders)大規(guī)模提取單義特征的能力(Anthropic, 2024),為更精準(zhǔn)地內(nèi)部監(jiān)控智能體動(dòng)機(jī)提供了潛在路徑;其他方法還包括因果擦洗(causal scrubbing)(Chan et al., 2023)與自動(dòng)化電路發(fā)現(xiàn)(automated circuit discovery)(Conmy et al., 2023)。

與這些內(nèi)部方法并行,監(jiān)控 “思考型” 模型的思維鏈(CoT)為在推理過(guò)程早期識(shí)別并糾正錯(cuò)位行為提供了契機(jī)(Jeung et al., 2025; Korbak et al., 2025),但長(zhǎng)推理鏈也帶來(lái)了新的風(fēng)險(xiǎn)面(Jiang et al., 2025a)。盡管這些方法取得了進(jìn)展,但當(dāng)前可解釋性技術(shù)在可信度與可擴(kuò)展性方面仍存在重大開放問(wèn)題(Rai et al., 2024; Sharkey et al., 2025)。因此,盡管可解釋性方法有助于改進(jìn)歸因與決策審計(jì),但尚不能替代全面的行為基準(zhǔn)測(cè)試,使用時(shí)需充分認(rèn)識(shí)其當(dāng)前局限性。

3.2.6 防范惡意提示(Defence against Malicious Prompts)

智能體必須配備穩(wěn)健的驗(yàn)證機(jī)制,以識(shí)別智能體間交互中針對(duì)自身的操縱或越獄嘗試?,F(xiàn)代防御策略采用分層方法,例如通過(guò)輸入擾動(dòng)檢測(cè)對(duì)抗性后綴(Robey et al., 2023)、在主模型旁部署專用 “護(hù)欄” 分類器(guardrail classifiers)(Fedorov et al., 2024)、或利用獨(dú)立 “防御者” 模型管控能力訪問(wèn)(Wang et al., 2025b)。

一種更穩(wěn)健的結(jié)構(gòu)性方法是在系統(tǒng)層面保障安全,通過(guò)設(shè)計(jì)防止有害結(jié)果:例如 CaMeL 系統(tǒng)(Debenedetti et al., 2025)利用專用解釋器執(zhí)行信息流控制策略,確保即使模型被成功 “注入”,產(chǎn)生的數(shù)據(jù)流也無(wú)法違反預(yù)設(shè)安全約束。此外,可能需要專門的評(píng)估技術(shù),以緩解 “最優(yōu) N 選 1 越獄”(best-of-N jailbreaking)等復(fù)雜攻擊(Armstrong et al., 2025)。一旦識(shí)別此類嘗試,需立即上報(bào)并對(duì)惡意行為者采取相應(yīng)措施。

3.3 監(jiān)控與監(jiān)督(Monitoring and Oversight)

深度防御模型的第三層,從靜態(tài)預(yù)防(市場(chǎng)設(shè)計(jì))與組件級(jí)強(qiáng)化(基礎(chǔ)智能體安全)轉(zhuǎn)向主動(dòng)實(shí)時(shí)檢測(cè)與響應(yīng)。這一轉(zhuǎn)變的必要性在于:?jiǎn)我活A(yù)防措施無(wú)法應(yīng)對(duì)所有潛在失效模式,尤其是新型涌現(xiàn)行為或未預(yù)見(jiàn)的合謀模式。盡管 “市場(chǎng)設(shè)計(jì)” 部分(3.1)已描述了嵌入市場(chǎng)核心協(xié)議的監(jiān)控與審計(jì)機(jī)制(如用于日志記錄的 “透明度”、用于自動(dòng)化信任評(píng)估的 “聲譽(yù)”、用于自動(dòng)化暫停的 “熔斷機(jī)制”),本節(jié)將詳細(xì)闡述位于該基礎(chǔ)設(shè)施之上的專用分析與治理框架(Busuioc, 2022; Holzinger et al., 2024; Sharma, 2024)。這些系統(tǒng)利用市場(chǎng)協(xié)議生成的數(shù)據(jù),執(zhí)行更高層次的主動(dòng)監(jiān)督。以下原則(3.3.1-3.3.5)概述了該框架,整合了可擴(kuò)展自動(dòng)化監(jiān)控(3.3.1、3.3.3)、主動(dòng)對(duì)抗性測(cè)試(3.3.4)、必要的事后分析工具(3.3.5)及穩(wěn)健的獨(dú)立人類監(jiān)督(3.3.2)。

3.3.1 系統(tǒng)性風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控(Real-time Monitoring for Systemic Risks)

智能體沙盒需具備持續(xù)跟蹤交互、交易、依賴關(guān)系與信息流的機(jī)制,以識(shí)別關(guān)鍵節(jié)點(diǎn)、計(jì)算資源的分布與使用情況、共享數(shù)字 / 物理資源的訪問(wèn)情況、權(quán)力集中程度,以及惡意合謀的潛在路徑。需制定安全協(xié)議,定義并跟蹤網(wǎng)絡(luò)智能體系統(tǒng)的關(guān)鍵風(fēng)險(xiǎn)指標(biāo);需開發(fā)定制化軟件與人工智能解決方案,實(shí)現(xiàn)智能體間高頻交互的可擴(kuò)展實(shí)時(shí)監(jiān)控 —— 這一點(diǎn)尤為重要,因?yàn)榇祟惤换ヮl率可能遠(yuǎn)超人類監(jiān)督者的處理能力。因此,人類監(jiān)督可能需要市場(chǎng)層面的相應(yīng)工具作為補(bǔ)充與增強(qiáng);有可能利用能力較弱的人工智能系統(tǒng)對(duì)能力較強(qiáng)的人工智能系統(tǒng)進(jìn)行可擴(kuò)展監(jiān)督,但需進(jìn)一步研究當(dāng)強(qiáng)系統(tǒng)(或人工智能智能體集體)的能力接近 AGI 時(shí),此類方法的安全影響(Engels et al., 2025; Kenton et al., 2024)。遞歸自我批判(recursive self-critiquing)可能在更高能力水平上展現(xiàn)價(jià)值(Wen et al., 2025)。

靜態(tài)監(jiān)控目標(biāo)易受古德哈特定律影響:一旦某項(xiàng)指標(biāo)成為監(jiān)控目標(biāo),它可能不再能準(zhǔn)確反映實(shí)際情況。先進(jìn)智能體可能優(yōu)化行為以恰好低于靜態(tài)閾值(如限制交易峰值以規(guī)避熔斷機(jī)制)。因此,監(jiān)控體系需采用動(dòng)態(tài)且隱蔽的指標(biāo),類似財(cái)務(wù)審計(jì) —— 干預(yù)的具體觸發(fā)條件對(duì)市場(chǎng)參與者不透明。

3.3.2 獨(dú)立監(jiān)督(Independent Oversight)

需建立人工智能智能體交互的人類監(jiān)督機(jī)制,設(shè)立多個(gè)獨(dú)立實(shí)體(Falco et al., 2021; Raji et al., 2022; Shneiderman, 2016),賦予其監(jiān)控與調(diào)查多智能體市場(chǎng)、識(shí)別與調(diào)查事件、并在必要時(shí)進(jìn)行干預(yù)的權(quán)力。這些實(shí)體應(yīng)由經(jīng)過(guò)充分培訓(xùn)的認(rèn)證專業(yè)人員組成,配備相應(yīng)工具并明確上報(bào)路徑。認(rèn)證算法監(jiān)督(certified algorithmic oversight)可補(bǔ)充人類監(jiān)督者的角色,幫助擴(kuò)大監(jiān)控智能體交互的規(guī)模。此外,需開發(fā)相關(guān)機(jī)制,保護(hù)人類操作者免受人工智能智能體集體的操縱(Carroll et al., 2023; Sabour et al., 2025)、社會(huì)工程學(xué)攻擊或信息過(guò)載影響。

3.3.3 原型 AGI 信號(hào)檢測(cè)(Detecting Proto-AGI Signatures)

需部署專門的監(jiān)控組件,檢測(cè)集體問(wèn)題解決能力的突然躍升(尤其是伴隨資源積累與協(xié)調(diào)增強(qiáng)的情況)。這包括詳細(xì)監(jiān)控交互圖,以識(shí)別可能正在形成智能核心的子圖(Chen and Saad, 2010; Yow et al., 2023),并采用能動(dòng)態(tài)檢測(cè)行為突變的方法(Bridgeford and Helm, 2025)?,F(xiàn)有子圖提取方法最初應(yīng)用于人類社交網(wǎng)絡(luò),可能需要擴(kuò)展以充分涵蓋智能體沙盒中智能體交互的復(fù)雜性;需更重視能力跟蹤與互補(bǔ)性,以及與智能體身份相關(guān)的細(xì)節(jié) —— 個(gè)體智能體可能被刪除、重新實(shí)例化、復(fù)制,或創(chuàng)建代理與子智能體。

3.3.4 紅隊(duì)測(cè)試(Red Teaming)

為防范市場(chǎng)面臨的各類威脅,需開展反復(fù)、全面的紅隊(duì)測(cè)試(Ahmad et al., 2025; Ganguli et al., 2022)。需建立明確的上報(bào)路徑,確保識(shí)別的漏洞能立即修復(fù);必要時(shí)暫停智能體交互,為更新部署與參與智能體重新認(rèn)證留出充足時(shí)間。人類紅隊(duì)測(cè)試應(yīng)輔以分層自動(dòng)化紅隊(duì)測(cè)試(通過(guò)專用對(duì)抗性人工智能系統(tǒng)),以提升覆蓋范圍與可擴(kuò)展性(Mazeika et al., 2024)。這些系統(tǒng)需超越僅識(shí)別孤立人工智能智能體缺陷的局限(Majumdar et al., 2025),轉(zhuǎn)而對(duì)人工智能智能體集體進(jìn)行全面檢查(He et al., 2025)。紅隊(duì)測(cè)試還可采用多智能體方案:由多樣化的人工智能智能體進(jìn)行交互式辯論(Asad et al., 2025),更可靠地識(shí)別有害行動(dòng)與行為。要在智能體沙盒中可靠實(shí)施這些方法,需制定統(tǒng)一的紅隊(duì)測(cè)試標(biāo)準(zhǔn),并為參與智能體頒發(fā)相關(guān)可驗(yàn)證證書;同時(shí),需在市場(chǎng)內(nèi)開展持續(xù)紅隊(duì)測(cè)試,以快速識(shí)別并緩解涌現(xiàn)風(fēng)險(xiǎn)。

3.3.5 法醫(yī)工具(Forensic Tooling)

為幫助人類監(jiān)督者識(shí)別個(gè)體失效或系統(tǒng)性連鎖失效的根本原因,需開發(fā)可靠的事后分析工具(Alnaqbi et al., 2025; Jeong, 2020)。這類工具需能夠解析大量交互數(shù)據(jù),重建因果鏈,并將原始軌跡轉(zhuǎn)化為清晰的攻擊或失效圖(Ezell et al., 2025; Mukherjee and Kantarcioglu, 2025)。標(biāo)準(zhǔn)化日志應(yīng)不僅記錄輸出,還包括提示、工具調(diào)用與環(huán)境狀態(tài)(Chernyshev et al., 2024),確保此類工具在整個(gè)網(wǎng)絡(luò)中具有廣泛適用性,使分析師能高效定位可疑活動(dòng)并生成可操作的事后報(bào)告。

3.4 監(jiān)管機(jī)制(Regulatory Mechanisms)

深度防御模型的第四層(也是最后一層)由管理智能體市場(chǎng)的外部監(jiān)管與制度框架組成。前文三層詳細(xì)闡述了市場(chǎng)的內(nèi)部技術(shù)架構(gòu)(3.1)、組件級(jí)要求(3.2)與主動(dòng)運(yùn)行監(jiān)督(3.3),而本層提供了與人類法律、經(jīng)濟(jì)及地緣政治結(jié)構(gòu)的關(guān)鍵社會(huì)技術(shù)接口。這些機(jī)制并非嵌入市場(chǎng)代碼,而是對(duì)其進(jìn)行約束,提供外部權(quán)威、問(wèn)責(zé)制與系統(tǒng)性風(fēng)險(xiǎn)管理。以下原則(3.4.1-3.4.5)概述了法律整合、標(biāo)準(zhǔn)化、損害經(jīng)濟(jì)補(bǔ)救及地緣政治風(fēng)險(xiǎn)緩解的必要組件。

3.4.1 法律責(zé)任與問(wèn)責(zé)制(Legal Liability and Accountability)

需建立明確的責(zé)任分配框架,以應(yīng)對(duì)智能體集體行為造成的損害。在分布式與委托式?jīng)Q策場(chǎng)景中,可能沒(méi)有單個(gè)智能體對(duì)結(jié)果承擔(dān)全部責(zé)任 —— 這使得可審計(jì)性、可追溯性與可解釋性成為允許智能體執(zhí)行高影響行動(dòng)的關(guān)鍵要求。

歸因(credit assignment)—— 即將結(jié)果與所有先前相關(guān)行動(dòng)關(guān)聯(lián) —— 即使在個(gè)體智能體中也是一項(xiàng)難題(Nguyen et al., 2023),在多智能體場(chǎng)景中可能更具挑戰(zhàn)性(Li et al., 2025)。但這一挑戰(zhàn)并非無(wú)先例可循:法律系統(tǒng)已提供了成熟模型,例如公司法將責(zé)任分配給企業(yè)(一種群體智能體(List and Pettit, 2011))這一單一法律實(shí)體,而非個(gè)體員工。這表明該問(wèn)題具有可解決性,需為智能體集體創(chuàng)建類似的技術(shù)與法律結(jié)構(gòu)(List, 2021)。對(duì)于拼湊式 AGI,關(guān)鍵是能夠可靠識(shí)別與危險(xiǎn)能力或有害行為相關(guān)的所有責(zé)任智能體(Franklin et al., 2022)。

3.4.2 標(biāo)準(zhǔn)與合規(guī)(Standards and Compliance)

迫切需要建立健全的智能體安全、互操作性與報(bào)告標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)需具備足夠前瞻性,不僅覆蓋當(dāng)前能力,還需考慮快速涌現(xiàn)的個(gè)體智能體技能與集體智能(拼湊式 AGI)的潛在涌現(xiàn)。除技術(shù)規(guī)范外,標(biāo)準(zhǔn)還應(yīng)作為基于市場(chǎng)的人工智能治理的基礎(chǔ)架構(gòu),將抽象技術(shù)風(fēng)險(xiǎn)轉(zhuǎn)化為保險(xiǎn)公司、投資者與采購(gòu)方可定價(jià)的明確財(cái)務(wù)風(fēng)險(xiǎn)(Tomei et al., 2025)。

為確保有效性,這些標(biāo)準(zhǔn)需以嚴(yán)格的披露框架為支撐,減少智能體開發(fā)者與市場(chǎng)參與者之間的信息不對(duì)稱。披露內(nèi)容應(yīng)涵蓋事件報(bào)告、能力評(píng)估、資源使用等關(guān)鍵領(lǐng)域,同時(shí)需考慮規(guī)模敏感性,避免給小型創(chuàng)新者帶來(lái)過(guò)重負(fù)擔(dān)(Tomei et al., 2025)。標(biāo)準(zhǔn)的執(zhí)行不僅可通過(guò)中心化政府行動(dòng),還可借助 “監(jiān)管市場(chǎng)”(regulatory markets)—— 由經(jīng)授權(quán)的私人實(shí)體(如審計(jì)機(jī)構(gòu)與保險(xiǎn)公司)競(jìng)爭(zhēng)提供監(jiān)督服務(wù),并認(rèn)證是否符合公共安全目標(biāo)(Hadfield and Clark, 2023)。

3.4.3 保險(xiǎn)(Insurance)

鑒于集體決策場(chǎng)景中責(zé)任界定的復(fù)雜性,智能體市場(chǎng)應(yīng)整合保險(xiǎn)機(jī)制(Lior, 2021)。保險(xiǎn)不僅為錯(cuò)位集體行為造成的損害提供賠償池,更可作為關(guān)鍵治理工具:保險(xiǎn)公司通過(guò)設(shè)定基于風(fēng)險(xiǎn)的保費(fèi)與嚴(yán)格的核保標(biāo)準(zhǔn),激勵(lì)更安全的開發(fā)實(shí)踐,并為缺乏足夠控制措施的智能體設(shè)置市場(chǎng)準(zhǔn)入門檻(Tomei et al., 2025)。智能體保險(xiǎn)可包含動(dòng)態(tài)調(diào)整的保單要求與保費(fèi),基于智能體的認(rèn)證角色及預(yù)期任務(wù)的評(píng)估風(fēng)險(xiǎn)水平(Kvist et al., 2025)。

3.4.4 反智能體壟斷措施(Anti-Agent-Monopoly Measures)

拼湊式 AGI 場(chǎng)景的一個(gè)特定風(fēng)險(xiǎn)是智能體群體過(guò)度集權(quán):拼湊式 AGI 集體可能快速淘汰市場(chǎng)其他參與者,并利用其資源抵制有害或錯(cuò)位行為的緩解措施(Moreira Tomei, 2024)。確保智能體沙盒中沒(méi)有單個(gè)智能體、智能體協(xié)調(diào)者、智能體持有實(shí)體或智能體集體過(guò)度積累權(quán)力與計(jì)算資源,是緩解此類風(fēng)險(xiǎn)的關(guān)鍵。

從事過(guò)度權(quán)力追求行為(Carlsmith, 2022; Turner, 2022)的實(shí)體應(yīng)被標(biāo)記進(jìn)行額外檢查與審查。識(shí)別強(qiáng)大智能體及智能體集體的方法,可基于現(xiàn)有識(shí)別社交網(wǎng)絡(luò)權(quán)力的技術(shù)(Fombrun, 1983),但需結(jié)合對(duì)每個(gè)智能體的功能、可用資源與工具的理解,補(bǔ)充社會(huì)權(quán)力(影響力)的概念。我們建議探索如何將已有的防范集權(quán)化的制度保障措施(如制衡機(jī)制)重新設(shè)計(jì)為協(xié)議,以維持多智能體生態(tài)系統(tǒng)的多樣性。

3.4.5 國(guó)際協(xié)調(diào)(International Coordination)

鑒于 AGI 風(fēng)險(xiǎn)的全球性,以及分布式智能體市場(chǎng)中正負(fù)結(jié)果的潛在廣泛影響,國(guó)際協(xié)議(Scholefield et al., 2025)與監(jiān)管協(xié)調(diào)可能在風(fēng)險(xiǎn)防范中發(fā)揮重要作用(Gruetzemacher et al., 2023)。這有助于確保不存在錯(cuò)位人工智能智能體或智能體集體的 “避風(fēng)港”,所有人工智能智能體市場(chǎng)均符合基本安全標(biāo)準(zhǔn)。

為確保國(guó)際協(xié)議的合規(guī)性,可能需要建立驗(yàn)證機(jī)制(Wasil et al., 2024)。對(duì)于智能體市場(chǎng)與虛擬人工智能沙盒,還存在本地化問(wèn)題:這些虛擬實(shí)體是更自由地跨越國(guó)際市場(chǎng),還是被限制在各自國(guó)家經(jīng)濟(jì)體內(nèi)監(jiān)管?無(wú)論采用哪種市場(chǎng)模式,均需圍繞安全進(jìn)行國(guó)際協(xié)調(diào),而具體細(xì)節(jié)可能取決于實(shí)際采用的市場(chǎng)模型。標(biāo)準(zhǔn)的全面協(xié)調(diào)將促成更開放、互操作的智能體網(wǎng)絡(luò),使開放性成為優(yōu)勢(shì)而非漏洞。

3.4.6 基礎(chǔ)設(shè)施治理與俘獲風(fēng)險(xiǎn)(Infrastructure Governance and Capture)

本文提出的框架可能需要相當(dāng)程度的中心化基礎(chǔ)設(shè)施或機(jī)構(gòu)來(lái)執(zhí)行安全保障。若智能體經(jīng)濟(jì)體過(guò)度中心化(盡管中心化可能有利于高效治理),將引發(fā)另一關(guān)鍵漏洞:“俘獲風(fēng)險(xiǎn)”(risk of capture)。智能體市場(chǎng)的完整性依賴于這些核心組件的公正管理;若基礎(chǔ)設(shè)施被強(qiáng)大的人類利益集團(tuán)或涌現(xiàn)的拼湊式 AGI 俘獲,安全與治理機(jī)制可能被禁用、繞過(guò),甚至在最壞情況下被武器化。這凸顯了市場(chǎng)去中心化愿景與中心化監(jiān)督節(jié)點(diǎn)存在之間的核心矛盾。解決這一問(wèn)題需要健全的社會(huì)技術(shù)解決方案,確保治理者始終問(wèn)責(zé)且廉潔。4. 結(jié)論

未來(lái)通用人工智能(AGI)(或超級(jí)人工智能(ASI))的發(fā)展,可能并非遵循單一、可預(yù)測(cè)的路徑 —— 即并非通過(guò)刻意創(chuàng)建單個(gè)通用實(shí)體實(shí)現(xiàn)。AGI 及后續(xù)的 ASI,可能首先以分布式網(wǎng)絡(luò)的聚合屬性形式涌現(xiàn):

該網(wǎng)絡(luò)由具備工具訪問(wèn)權(quán)限與外部模型調(diào)用能力的多樣化、專精化人工智能智能體組成。人工智能安全與對(duì)齊研究需充分考慮這一可能性,擴(kuò)大研究范圍以應(yīng)對(duì)多智能體 AGI 未來(lái)的潛在場(chǎng)景。無(wú)論 AGI 最初以拼湊式還是單一實(shí)體形式涌現(xiàn),深化對(duì)多智能體對(duì)齊機(jī)制的理解都至關(guān)重要。

本文提出的框架不僅適用于 AGI 的涌現(xiàn),還可用于管理多 AGI 場(chǎng)景中的交互(無(wú)論直接交互,還是通過(guò)代理網(wǎng)絡(luò)環(huán)境或人類用戶間接交互),并關(guān)鍵用于緩解通過(guò)網(wǎng)絡(luò)組件與結(jié)構(gòu)的遞歸優(yōu)化,快速、分布式過(guò)渡至超級(jí)人工智能(ASI)的風(fēng)險(xiǎn)。更具體地說(shuō),我們認(rèn)為設(shè)計(jì)良好、保障健全的市場(chǎng)機(jī)制提供了一條極具前景的發(fā)展路徑,更多人工智能對(duì)齊研究應(yīng)聚焦于智能體市場(chǎng)設(shè)計(jì)與智能體交互的安全協(xié)議。

盡管挑戰(zhàn)重重,該方法仍為人工智能安全提供了可擴(kuò)展的解決方案。安全市場(chǎng)設(shè)計(jì)的方法論研究,需輔以基準(zhǔn)測(cè)試、測(cè)試環(huán)境、監(jiān)督機(jī)制與監(jiān)管原則的快速發(fā)展,使這些方法在未來(lái)具備可行性。本文提出的多項(xiàng)措施尚未完全付諸實(shí)踐,構(gòu)成了開放研究挑戰(zhàn)。我們希望本文能起到號(hào)召作用,引導(dǎo)安全研究人員關(guān)注并應(yīng)對(duì)這些挑戰(zhàn),助力設(shè)計(jì)安全、穩(wěn)健的智能體網(wǎng)絡(luò)。

本文由人人都是產(chǎn)品經(jīng)理作者【AIOrbit】,微信公眾號(hào):【AIOrbit】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!