豆包手機(jī),玩脫了

0 評(píng)論 1866 瀏覽 2 收藏 12 分鐘

豆包手機(jī)因采用GUI Agent技術(shù)實(shí)現(xiàn)跨應(yīng)用自動(dòng)化操作,引發(fā)微信、淘寶等超級(jí)App集體封殺。表面是權(quán)限之爭(zhēng),實(shí)則暴露了AI手機(jī)在隱私保護(hù)、系統(tǒng)透明度與行業(yè)規(guī)范上的深層缺失。真正的AI手機(jī)未來(lái),需建立在開(kāi)放標(biāo)準(zhǔn)與可信機(jī)制之上,而非僅靠用戶授權(quán)單點(diǎn)突破。

最近,大家都被豆包手機(jī)的“AI智能助手”引發(fā)的討論刷屏了。淘寶、微信、銀行APP也紛紛開(kāi)始“封殺”豆包手機(jī)。

說(shuō)實(shí)話我一開(kāi)始也沒(méi)太當(dāng)回事情,心想只要用戶授權(quán),安全的使用數(shù)據(jù)就行了,這些大廠就是怕?lián)臄?shù)據(jù)和用戶被人搶了唄。

直到豆包手機(jī)發(fā)出了“辟謠”公告,我覺(jué)得這件事情不簡(jiǎn)單。他是一直在強(qiáng)調(diào)用戶授權(quán),數(shù)據(jù)安全是一點(diǎn)都沒(méi)談吶。

豆包辟謠(來(lái)源網(wǎng)絡(luò))

當(dāng)然,我完全相信,借100個(gè)膽子給豆包手機(jī)也不敢拿用戶隱私數(shù)據(jù)和資金安全來(lái)開(kāi)玩笑。

那這次豆包為什么會(huì)惹了眾怒呢?我們就從科技的角度來(lái)給大家拆解下,豆包手機(jī)這次事件到底是怎么回事,以及探討下GUI Agent、AI手機(jī)未來(lái)應(yīng)該是什么樣的。

01 豆包到底干了啥

這次豆包手機(jī)使用了GUI Agent的技術(shù),并且與中興通訊聯(lián)合推出的一款的OEM工程手機(jī)。所謂的GUI Agent,就是AI代理可以通過(guò)“感知、規(guī)劃、執(zhí)行”來(lái)代替用戶完成手機(jī)APP的操作處理。

1.GUI Agent原理

GUI Agent實(shí)現(xiàn)原理(來(lái)源網(wǎng)絡(luò))

這里的感知、規(guī)劃和執(zhí)行,就像人的眼睛、大腦和手一樣讓AI來(lái)幫你操作手機(jī)。因此,需要手機(jī)操作系統(tǒng)和大模型來(lái)提供相應(yīng)的軟硬件功能。

  • 感知(看):相當(dāng)于AI的眼睛,它需要操作系統(tǒng)提供讀取屏幕的功能,用戶授權(quán)后就能使用了。
  • 規(guī)劃(想):相當(dāng)于AI的大腦,讀取的屏幕界面信息傳遞給大模型來(lái)進(jìn)行處理,如果是沒(méi)有本地模型就需要傳到云端大模型處理。
  • 執(zhí)行(做):相當(dāng)于AI的手,根據(jù)大模型發(fā)送的執(zhí)行指令來(lái)模擬人的操作。這里涉及到對(duì)用戶APP進(jìn)行操作。

為了避免黑客遠(yuǎn)程操控,因此屬于級(jí)別最高的“系統(tǒng)權(quán)限”,只有手機(jī)廠商定制才能進(jìn)行使用。

2.豆包GUI Agent

這次豆包的GUI Agent又是如何實(shí)現(xiàn)的呢,他是怎么實(shí)現(xiàn)“看、想、做”的呢?

豆包手機(jī)系統(tǒng)架構(gòu)圖

豆包和主流的GUI Agent采用的方式類似,只不過(guò)這次為了獲得系統(tǒng)權(quán)限他自己找中興通訊合作,使用nubia M153手機(jī)做了貼牌的工程樣機(jī)。

1)GUI Agent接管系統(tǒng)

豆包通過(guò)用戶授權(quán)開(kāi)通了APP的接管。通過(guò)接收用戶的指令就能對(duì)這些APP進(jìn)行自動(dòng)操作。

2)感知(無(wú)障礙輔助)

無(wú)障礙輔助,這個(gè)權(quán)限設(shè)計(jì)的初衷是幫助殘障人士使用設(shè)備而設(shè)計(jì)的。他需要開(kāi)發(fā)者在APP內(nèi)配置,然后通過(guò)用戶授權(quán)就能獲取。

在豆包手機(jī)的設(shè)計(jì)中,這個(gè)功能被用來(lái)讀取手機(jī)的屏幕。然后通過(guò)安卓的“窗口管理器”來(lái)解析界面元素。

這里存在的爭(zhēng)議,在傳給大模型之前,是否對(duì)安全鍵盤和敏感的支付、賬戶、相冊(cè)、視頻等界面在本地過(guò)濾處理,過(guò)濾到什么級(jí)別,復(fù)雜的界面如何處理等問(wèn)題?

3)規(guī)劃(豆包大模型)

整個(gè)思考過(guò)程自然是使用豆包的大模型來(lái)處理,他會(huì)根據(jù)用戶語(yǔ)音指令和獲取的界面要素進(jìn)行規(guī)劃和決策,然后給出下一步操作的指令。

這里就會(huì)涉及到隱私數(shù)據(jù)的處理了,最合規(guī)的做法就是使用本地大模型來(lái)處理,這樣的話用戶隱私數(shù)據(jù)就完全在手機(jī)內(nèi)部封閉了。

根據(jù)豆包公開(kāi)的產(chǎn)品,他有一款UI-TRAS的本地大模型,但是公開(kāi)資料沒(méi)有說(shuō)明這個(gè)模型是完全本地化,還是“本地+云端”協(xié)同。

如果與云端協(xié)同,就需要在上傳云端前,過(guò)濾掉用戶的隱私數(shù)據(jù),通過(guò)安全的加密鏈路與云端大模型進(jìn)行交互。

這里存在的爭(zhēng)議,是否有云端協(xié)同,協(xié)同的的數(shù)據(jù)有哪些?是否在云端保存了用戶的隱私、行為數(shù)據(jù)?

4)執(zhí)行(事件注入權(quán)限)

接到大模型發(fā)送到的指令后,GUI Agent就要根據(jù)識(shí)別的界面,模擬用戶的各種物理輸入來(lái)操作手機(jī)。這里就涉及到“上帝之手”權(quán)限——注入事件(INJECT EVENTS)。

這是系統(tǒng)級(jí)別的權(quán)限,普通APP讓用戶授權(quán)了也無(wú)法獲取,因?yàn)檫@涉及到操作系統(tǒng)內(nèi)核的輸入。因此,需要手機(jī)廠商單獨(dú)給APP定制。并且為了確保唯一性,要使用與這個(gè)APP匹配的證書(shū)簽名才能訪問(wèn)。

這里存在的爭(zhēng)議,就是權(quán)限是否最小化、用戶是否可以隨時(shí)暫停操作、操作日志是否記錄并提供用戶和監(jiān)管機(jī)構(gòu)審計(jì)。

可能有人會(huì)說(shuō),這是都是為了用戶更好的體驗(yàn),用戶都同意授權(quán),市面上GUI Agent都是這么干的,這種屬于正常的商業(yè)合作模式。

可能你會(huì)認(rèn)為,提出來(lái)反對(duì)的都是“既得利益者”、“阻礙創(chuàng)新”,“怕被AI手機(jī)替代”,“未來(lái)AI手機(jī)不做了嗎?”。那我們來(lái)看下真正的AI手機(jī)應(yīng)該是怎么什么樣子的

02 未來(lái)的AI手機(jī)

下面我們來(lái)看下未來(lái)的“AI 手機(jī)”如何來(lái)平衡上面的這些問(wèn)題和爭(zhēng)議。

未來(lái)的AI手機(jī)系統(tǒng)架構(gòu)圖

1.新老APP的兼容

未來(lái)會(huì)有適用于AI應(yīng)用場(chǎng)景的“AI原生APP”,也會(huì)保持對(duì)“傳統(tǒng)APP”的兼容,這兩個(gè)類APP都能被系統(tǒng)級(jí)的GUI Agent來(lái)管理和調(diào)用,但是權(quán)限可以更加細(xì)分和靈活。

2.系統(tǒng)級(jí)GUI Agent

未來(lái)的AI手機(jī)的GUI Agent不再只是豆包自己的應(yīng)用,而是一個(gè)系統(tǒng)級(jí)的Agent應(yīng)用,它有公開(kāi)的調(diào)用標(biāo)準(zhǔn)、數(shù)據(jù)隱私規(guī)范、統(tǒng)一的界面規(guī)范。

對(duì)于不希望接受Agent調(diào)用的傳統(tǒng)APP也是允許其人工操作。是否改造成“AI原生”,更多的是通過(guò)用戶和生態(tài)的壓力來(lái)倒逼這些APP升級(jí),而不是強(qiáng)制調(diào)用,引來(lái)相互封殺。

當(dāng)然也可以通過(guò)國(guó)家標(biāo)準(zhǔn)和行業(yè)規(guī)范來(lái)讓這些傳統(tǒng)APP來(lái)執(zhí)行規(guī)范,接受AI手機(jī)的調(diào)用。

3.應(yīng)用框架的AI擴(kuò)展

未來(lái)的AI手機(jī)應(yīng)用框架是在現(xiàn)有安卓系統(tǒng)上進(jìn)行的AI擴(kuò)展,他兼容新老APP應(yīng)用。

1)AI原生應(yīng)用框架:

他在原有的安卓應(yīng)用框架上擴(kuò)展了適合AI原生APP的AI框架,它可以提供標(biāo)準(zhǔn)的AI原生應(yīng)用接口、并且可以安全獲取系統(tǒng)級(jí)別的AI權(quán)限。

并且他可以集成本地多模態(tài)大模型,或者與云端大模型協(xié)同。在與云端協(xié)同前會(huì)過(guò)濾掉用戶的隱私數(shù)據(jù)來(lái)保障安全。

2)全局權(quán)限管理:

他的權(quán)限管理也是全局的,不需要通過(guò)手機(jī)廠商“開(kāi)小灶”來(lái)給應(yīng)用開(kāi)通權(quán)限。并且他的開(kāi)通的權(quán)限將會(huì)更加靈活和最小化。

應(yīng)用的操作過(guò)程也是可以被記錄,并且能接受用戶、監(jiān)管的審計(jì)。

3)豐富的事件分發(fā):

AI手機(jī)的“看、做”行為,不再是讓APP通過(guò)“截屏”和“模擬操作”來(lái)實(shí)現(xiàn)自動(dòng)化代理。

而是在系統(tǒng)級(jí)別層面實(shí)現(xiàn)了界面元素獲取、解析、以及用戶行為事件的處理,并且更加安全,可以有效避免權(quán)限被濫用。

可能有人會(huì)說(shuō),要等到這么多規(guī)范和技術(shù)條件成熟,那現(xiàn)在GUI Agent就不發(fā)展了?AI手機(jī)未來(lái)不做了嘛?

03 爭(zhēng)議在于不透明

我前面也說(shuō),我認(rèn)為豆包“沒(méi)必要、也不敢”在用戶隱私數(shù)據(jù)、資金安全方面“冒險(xiǎn)”。其實(shí)這一切的爭(zhēng)議都來(lái)自于不透明,由此造成了一系列的質(zhì)疑與封殺。

豆包和中興現(xiàn)在一直強(qiáng)調(diào)是擁有用戶授權(quán),并且僅解釋了用戶對(duì)于授權(quán)是知情的。但是對(duì)于用戶隱私數(shù)據(jù)和資金安全方面的都是通過(guò)“辟謠”的方式來(lái)澄清。并且也沒(méi)有任何權(quán)威的第三方對(duì)他的行為進(jìn)行認(rèn)證和審計(jì)。

豆包有必要對(duì)于“用戶、APP提供商、監(jiān)管”一個(gè)交代。

回應(yīng)大家普遍質(zhì)疑的“隱私數(shù)據(jù)保護(hù)、技術(shù)安全標(biāo)準(zhǔn)、權(quán)限管理、日志審計(jì)、風(fēng)險(xiǎn)管理、合規(guī)性”等方面的問(wèn)題,并且公開(kāi)其標(biāo)準(zhǔn)或者接受權(quán)威機(jī)構(gòu)審計(jì)。

唯有公開(kāi)透明,打消了各方的疑慮,GUI Agent才能真正地發(fā)展起來(lái)。

否則都是“先干再合規(guī),質(zhì)疑靠辟謠”,那只會(huì)引來(lái)全面的封殺。在這個(gè)數(shù)字化時(shí)代,手機(jī)已經(jīng)是個(gè)人隱私的最后一塊“遮羞布”了,如果不做好用戶隱私保護(hù),“AI手機(jī)”、“AGI應(yīng)用”也就沒(méi)有未來(lái)。

本文由人人都是產(chǎn)品經(jīng)理作者【剛哥】,微信公眾號(hào):【剛哥白話】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!