豆包手機(jī)，玩脫了

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

剛哥

2025-12-12

0 評(píng)論 1866 瀏覽 2 收藏

12 分鐘

豆包手機(jī)因采用GUI Agent技術(shù)實(shí)現(xiàn)跨應(yīng)用自動(dòng)化操作，引發(fā)微信、淘寶等超級(jí)App集體封殺。表面是權(quán)限之爭(zhēng)，實(shí)則暴露了AI手機(jī)在隱私保護(hù)、系統(tǒng)透明度與行業(yè)規(guī)范上的深層缺失。真正的AI手機(jī)未來(lái)，需建立在開(kāi)放標(biāo)準(zhǔn)與可信機(jī)制之上，而非僅靠用戶授權(quán)單點(diǎn)突破。

最近，大家都被豆包手機(jī)的“AI智能助手”引發(fā)的討論刷屏了。淘寶、微信、銀行APP也紛紛開(kāi)始“封殺”豆包手機(jī)。

說(shuō)實(shí)話我一開(kāi)始也沒(méi)太當(dāng)回事情，心想只要用戶授權(quán)，安全的使用數(shù)據(jù)就行了，這些大廠就是怕?lián)臄?shù)據(jù)和用戶被人搶了唄。

直到豆包手機(jī)發(fā)出了“辟謠”公告，我覺(jué)得這件事情不簡(jiǎn)單。他是一直在強(qiáng)調(diào)用戶授權(quán)，數(shù)據(jù)安全是一點(diǎn)都沒(méi)談吶。

豆包辟謠（來(lái)源網(wǎng)絡(luò)）

當(dāng)然，我完全相信，借100個(gè)膽子給豆包手機(jī)也不敢拿用戶隱私數(shù)據(jù)和資金安全來(lái)開(kāi)玩笑。

那這次豆包為什么會(huì)惹了眾怒呢？我們就從科技的角度來(lái)給大家拆解下，豆包手機(jī)這次事件到底是怎么回事，以及探討下GUI Agent、AI手機(jī)未來(lái)應(yīng)該是什么樣的。

01 豆包到底干了啥

這次豆包手機(jī)使用了GUI Agent的技術(shù)，并且與中興通訊聯(lián)合推出的一款的OEM工程手機(jī)。所謂的GUI Agent，就是AI代理可以通過(guò)“感知、規(guī)劃、執(zhí)行”來(lái)代替用戶完成手機(jī)APP的操作處理。

1.GUI Agent原理

GUI Agent實(shí)現(xiàn)原理（來(lái)源網(wǎng)絡(luò)）

這里的感知、規(guī)劃和執(zhí)行，就像人的眼睛、大腦和手一樣讓AI來(lái)幫你操作手機(jī)。因此，需要手機(jī)操作系統(tǒng)和大模型來(lái)提供相應(yīng)的軟硬件功能。

感知（看）：相當(dāng)于AI的眼睛，它需要操作系統(tǒng)提供讀取屏幕的功能，用戶授權(quán)后就能使用了。
規(guī)劃（想）：相當(dāng)于AI的大腦，讀取的屏幕界面信息傳遞給大模型來(lái)進(jìn)行處理，如果是沒(méi)有本地模型就需要傳到云端大模型處理。
執(zhí)行（做）：相當(dāng)于AI的手，根據(jù)大模型發(fā)送的執(zhí)行指令來(lái)模擬人的操作。這里涉及到對(duì)用戶APP進(jìn)行操作。

為了避免黑客遠(yuǎn)程操控，因此屬于級(jí)別最高的“系統(tǒng)權(quán)限”，只有手機(jī)廠商定制才能進(jìn)行使用。

2.豆包GUI Agent

這次豆包的GUI Agent又是如何實(shí)現(xiàn)的呢，他是怎么實(shí)現(xiàn)“看、想、做”的呢？

豆包手機(jī)系統(tǒng)架構(gòu)圖

豆包和主流的GUI Agent采用的方式類似，只不過(guò)這次為了獲得系統(tǒng)權(quán)限他自己找中興通訊合作，使用nubia M153手機(jī)做了貼牌的工程樣機(jī)。

1）GUI Agent接管系統(tǒng)

豆包通過(guò)用戶授權(quán)開(kāi)通了APP的接管。通過(guò)接收用戶的指令就能對(duì)這些APP進(jìn)行自動(dòng)操作。

2）感知（無(wú)障礙輔助）

無(wú)障礙輔助，這個(gè)權(quán)限設(shè)計(jì)的初衷是幫助殘障人士使用設(shè)備而設(shè)計(jì)的。他需要開(kāi)發(fā)者在APP內(nèi)配置，然后通過(guò)用戶授權(quán)就能獲取。

在豆包手機(jī)的設(shè)計(jì)中，這個(gè)功能被用來(lái)讀取手機(jī)的屏幕。然后通過(guò)安卓的“窗口管理器”來(lái)解析界面元素。

這里存在的爭(zhēng)議，在傳給大模型之前，是否對(duì)安全鍵盤和敏感的支付、賬戶、相冊(cè)、視頻等界面在本地過(guò)濾處理，過(guò)濾到什么級(jí)別，復(fù)雜的界面如何處理等問(wèn)題？

3）規(guī)劃（豆包大模型）

整個(gè)思考過(guò)程自然是使用豆包的大模型來(lái)處理，他會(huì)根據(jù)用戶語(yǔ)音指令和獲取的界面要素進(jìn)行規(guī)劃和決策，然后給出下一步操作的指令。

這里就會(huì)涉及到隱私數(shù)據(jù)的處理了，最合規(guī)的做法就是使用本地大模型來(lái)處理，這樣的話用戶隱私數(shù)據(jù)就完全在手機(jī)內(nèi)部封閉了。

根據(jù)豆包公開(kāi)的產(chǎn)品，他有一款UI-TRAS的本地大模型，但是公開(kāi)資料沒(méi)有說(shuō)明這個(gè)模型是完全本地化，還是“本地+云端”協(xié)同。

如果與云端協(xié)同，就需要在上傳云端前，過(guò)濾掉用戶的隱私數(shù)據(jù)，通過(guò)安全的加密鏈路與云端大模型進(jìn)行交互。

這里存在的爭(zhēng)議，是否有云端協(xié)同，協(xié)同的的數(shù)據(jù)有哪些？是否在云端保存了用戶的隱私、行為數(shù)據(jù)？

4）執(zhí)行（事件注入權(quán)限）

接到大模型發(fā)送到的指令后，GUI Agent就要根據(jù)識(shí)別的界面，模擬用戶的各種物理輸入來(lái)操作手機(jī)。這里就涉及到“上帝之手”權(quán)限——注入事件（INJECT EVENTS）。

這是系統(tǒng)級(jí)別的權(quán)限，普通APP讓用戶授權(quán)了也無(wú)法獲取，因?yàn)檫@涉及到操作系統(tǒng)內(nèi)核的輸入。因此，需要手機(jī)廠商單獨(dú)給APP定制。并且為了確保唯一性，要使用與這個(gè)APP匹配的證書(shū)簽名才能訪問(wèn)。

這里存在的爭(zhēng)議，就是權(quán)限是否最小化、用戶是否可以隨時(shí)暫停操作、操作日志是否記錄并提供用戶和監(jiān)管機(jī)構(gòu)審計(jì)。

可能有人會(huì)說(shuō)，這是都是為了用戶更好的體驗(yàn)，用戶都同意授權(quán)，市面上GUI Agent都是這么干的，這種屬于正常的商業(yè)合作模式。

可能你會(huì)認(rèn)為，提出來(lái)反對(duì)的都是“既得利益者”、“阻礙創(chuàng)新”，“怕被AI手機(jī)替代”，“未來(lái)AI手機(jī)不做了嗎？”。那我們來(lái)看下真正的AI手機(jī)應(yīng)該是怎么什么樣子的

02 未來(lái)的AI手機(jī)

下面我們來(lái)看下未來(lái)的“AI 手機(jī)”如何來(lái)平衡上面的這些問(wèn)題和爭(zhēng)議。

未來(lái)的AI手機(jī)系統(tǒng)架構(gòu)圖

1.新老APP的兼容

未來(lái)會(huì)有適用于AI應(yīng)用場(chǎng)景的“AI原生APP”，也會(huì)保持對(duì)“傳統(tǒng)APP”的兼容，這兩個(gè)類APP都能被系統(tǒng)級(jí)的GUI Agent來(lái)管理和調(diào)用，但是權(quán)限可以更加細(xì)分和靈活。

2.系統(tǒng)級(jí)GUI Agent

未來(lái)的AI手機(jī)的GUI Agent不再只是豆包自己的應(yīng)用，而是一個(gè)系統(tǒng)級(jí)的Agent應(yīng)用，它有公開(kāi)的調(diào)用標(biāo)準(zhǔn)、數(shù)據(jù)隱私規(guī)范、統(tǒng)一的界面規(guī)范。

對(duì)于不希望接受Agent調(diào)用的傳統(tǒng)APP也是允許其人工操作。是否改造成“AI原生”，更多的是通過(guò)用戶和生態(tài)的壓力來(lái)倒逼這些APP升級(jí)，而不是強(qiáng)制調(diào)用，引來(lái)相互封殺。

當(dāng)然也可以通過(guò)國(guó)家標(biāo)準(zhǔn)和行業(yè)規(guī)范來(lái)讓這些傳統(tǒng)APP來(lái)執(zhí)行規(guī)范，接受AI手機(jī)的調(diào)用。

3.應(yīng)用框架的AI擴(kuò)展

未來(lái)的AI手機(jī)應(yīng)用框架是在現(xiàn)有安卓系統(tǒng)上進(jìn)行的AI擴(kuò)展，他兼容新老APP應(yīng)用。

1）AI原生應(yīng)用框架：

他在原有的安卓應(yīng)用框架上擴(kuò)展了適合AI原生APP的AI框架，它可以提供標(biāo)準(zhǔn)的AI原生應(yīng)用接口、并且可以安全獲取系統(tǒng)級(jí)別的AI權(quán)限。

并且他可以集成本地多模態(tài)大模型，或者與云端大模型協(xié)同。在與云端協(xié)同前會(huì)過(guò)濾掉用戶的隱私數(shù)據(jù)來(lái)保障安全。

2）全局權(quán)限管理：

他的權(quán)限管理也是全局的，不需要通過(guò)手機(jī)廠商“開(kāi)小灶”來(lái)給應(yīng)用開(kāi)通權(quán)限。并且他的開(kāi)通的權(quán)限將會(huì)更加靈活和最小化。

應(yīng)用的操作過(guò)程也是可以被記錄，并且能接受用戶、監(jiān)管的審計(jì)。

3）豐富的事件分發(fā)：

AI手機(jī)的“看、做”行為，不再是讓APP通過(guò)“截屏”和“模擬操作”來(lái)實(shí)現(xiàn)自動(dòng)化代理。

而是在系統(tǒng)級(jí)別層面實(shí)現(xiàn)了界面元素獲取、解析、以及用戶行為事件的處理，并且更加安全，可以有效避免權(quán)限被濫用。

可能有人會(huì)說(shuō)，要等到這么多規(guī)范和技術(shù)條件成熟，那現(xiàn)在GUI Agent就不發(fā)展了？AI手機(jī)未來(lái)不做了嘛？

03 爭(zhēng)議在于不透明

我前面也說(shuō)，我認(rèn)為豆包“沒(méi)必要、也不敢”在用戶隱私數(shù)據(jù)、資金安全方面“冒險(xiǎn)”。其實(shí)這一切的爭(zhēng)議都來(lái)自于不透明，由此造成了一系列的質(zhì)疑與封殺。

豆包和中興現(xiàn)在一直強(qiáng)調(diào)是擁有用戶授權(quán)，并且僅解釋了用戶對(duì)于授權(quán)是知情的。但是對(duì)于用戶隱私數(shù)據(jù)和資金安全方面的都是通過(guò)“辟謠”的方式來(lái)澄清。并且也沒(méi)有任何權(quán)威的第三方對(duì)他的行為進(jìn)行認(rèn)證和審計(jì)。

豆包有必要對(duì)于“用戶、APP提供商、監(jiān)管”一個(gè)交代。

回應(yīng)大家普遍質(zhì)疑的“隱私數(shù)據(jù)保護(hù)、技術(shù)安全標(biāo)準(zhǔn)、權(quán)限管理、日志審計(jì)、風(fēng)險(xiǎn)管理、合規(guī)性”等方面的問(wèn)題，并且公開(kāi)其標(biāo)準(zhǔn)或者接受權(quán)威機(jī)構(gòu)審計(jì)。

唯有公開(kāi)透明，打消了各方的疑慮，GUI Agent才能真正地發(fā)展起來(lái)。

否則都是“先干再合規(guī)，質(zhì)疑靠辟謠”，那只會(huì)引來(lái)全面的封殺。在這個(gè)數(shù)字化時(shí)代，手機(jī)已經(jīng)是個(gè)人隱私的最后一塊“遮羞布”了，如果不做好用戶隱私保護(hù)，“AI手機(jī)”、“AGI應(yīng)用”也就沒(méi)有未來(lái)。

本文由人人都是產(chǎn)品經(jīng)理作者【剛哥】，微信公眾號(hào)：【剛哥白話】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App