豆包手機(jī)的“豪賭”:GUI Agent 到底是未來,還是大廠的“自殺式襲擊”?

0 評論 321 瀏覽 0 收藏 7 分鐘

豆包手機(jī)推出GUI Agent引發(fā)激辯,這款號稱能解放雙手的智能助手正處于風(fēng)口浪尖。一邊是用戶對語音操控未來的熱切期待,一邊是對隱私泄露和技術(shù)成熟度的深度擔(dān)憂。本文將深度剖析GUI Agent的技術(shù)困境、生態(tài)博弈與隱私爭議,揭示這場人機(jī)交互革命背后的真實(shí)挑戰(zhàn)與未來路徑。

最近關(guān)于“豆包手機(jī)”和 GUI Agent(圖形界面智能體)的討論炸了鍋。

看了一圈評論區(qū),目前的風(fēng)評簡直是冰火兩重天:一半人喊著“未來已來”,期待能像鋼鐵俠的 Jarvis 一樣解放雙手;另一半人捂緊了口袋,生怕隱私底褲都被扒光。

市場需求擺在那里,誰不想動動嘴就能搞定一切?但現(xiàn)實(shí)是,目前的 GUI Agent 做得還不夠,甚至可以說是“雖勇但菜”。

一、60分的“人工智障”與品牌雷區(qū)

說實(shí)話,現(xiàn)在的 GUI Agent 準(zhǔn)確率撐死也就 60 分

這玩意兒目前只能解決“手里拎著東西、完全沒法碰手機(jī)”的極端場景。一旦你手空著,自己點(diǎn)的速度絕對比它快。

為什么手機(jī)廠商之前不敢推? 原因很簡單:難選。

要在“準(zhǔn)確”和“智能”之間做取舍太痛苦了?,F(xiàn)在的準(zhǔn)確率之所以低,是因?yàn)?GUI Agent 在搞“暴力破解”——它試圖用強(qiáng)化學(xué)習(xí)去模擬人類的點(diǎn)擊操作,去識別屏幕上的像素。

這其實(shí)有點(diǎn)反直覺。明明系統(tǒng)底層有 Media Kit、Siri Kit 這種現(xiàn)成的 API 接口,為什么不用?因?yàn)?strong>調(diào)不動。系統(tǒng)權(quán)限不僅難拿,而且充滿了限制。

所以現(xiàn)在的局面是:這東西既侵犯隱私(需要讀屏),又不夠智能(經(jīng)常點(diǎn)錯),準(zhǔn)確率還低。

對于大廠來說,推這種產(chǎn)品簡直就是砸牌子。所以說,這次豆包手機(jī)確實(shí)是大膽,甚至帶著點(diǎn)“賭徒”心態(tài)。

二、API 是偽命題,GUI 才是“自動駕駛”

既然 GUI 這么難,為什么不老老實(shí)實(shí)接 API?

這就涉及到一個長期主義的判斷:Agent(智能體) 終究比 API 更簡單。

這聽起來反直覺,但你細(xì)品:

  1. API 的對接成本是天價。 一個超級 App(比如微信、抖音)可能有幾百個功能,你指望它用 MCP 協(xié)議把所有功能都開放給手機(jī)廠商?不可能的。
  2. GUI Agent 的門檻其實(shí)沒那么高。 它不需要像自動駕駛那樣追求 99.9999% 的安全性(畢竟點(diǎn)錯屏幕不會出人命)。操作手機(jī)界面這事兒,小學(xué)生都能學(xué)會,基于 Transformer 的視覺模型完全可以 cover 住。

現(xiàn)在的 GUI Agent 有點(diǎn)像 2022 年底的 ChatGPT,剛出來讓人眼前一亮,雖然全是 Bug,但只要數(shù)據(jù)跑起來,半年一年后絕對是另一個物種。

三、最大的敵人不是技術(shù),是“封路”

技術(shù)不是問題,巨頭才是問題。

GUI Agent 就像自動駕駛,最怕的不是車不行,而是有人把路給你挖斷了

現(xiàn)在的互聯(lián)網(wǎng)生態(tài)是割裂的。騰訊、阿里這種擁有“模型+生態(tài)”的巨頭,憑什么讓你一個手機(jī)廠商的 Agent 隨便在我的 App 里“自動駕駛”?

目前的難題就在這:斷點(diǎn)。

但歷史的車輪浩浩蕩蕩,誰也擋不住。未來的終局大概率是:

  • 大 APP(巨頭): 會自己搞 Agent,然后跟手機(jī)廠商的 OS 級 Agent 談流量分配,實(shí)現(xiàn) Agent2Agent 的溝通。
  • 小 APP: 直接把控制權(quán)交給 OS Agent 代理。
  • 工具類 APP: 基本會被消滅。

最終,人類會被解放出來,把省下的時間全都投入到娛樂 App 里去“殺時間”。

四、隱私的最后一道防線:端側(cè)為王

關(guān)于隱私,大家其實(shí)心里都有數(shù):在巨頭面前,用戶的隱私捍衛(wèi)能力約等于零。

但即便如此,大家還是想要塊遮羞布。

從目前的反饋看,純云端的 Agent 必死無疑,因?yàn)橛脩籼ε码[私泄露了。未來的 GUI Agent 一定是端側(cè)為主,云端為輔。

  • 蘋果的優(yōu)勢: 芯片算力強(qiáng),兩年左右,端側(cè) Agent 做到 90 分水平問題不大。這也是為什么蘋果現(xiàn)在按兵不動——早晚各家去求著要IOS權(quán)限。
  • 手機(jī)廠商的策略: 頭部廠商雖然大模型干不過頂尖 AI 廠,但在細(xì)分領(lǐng)域完全能做。他們會很謹(jǐn)慎,先給發(fā)燒友玩,等端側(cè)技術(shù)成熟了再大規(guī)模鋪開。

結(jié)語

未來的手機(jī)會變成什么樣?

Google 的“反重力”演示已經(jīng)給出了答案:Agent 界面將取代現(xiàn)有的 IDE 界面。

雖然現(xiàn)在手機(jī)廠商還在觀望,雖然巨頭還在互相封鎖,但只要有一家(比如蘋果)把端側(cè)體驗(yàn)做到了 90 分,瞬間就會倒逼全生態(tài)開放。

對于豆包這次的嘗試,咱們可以嘲笑它的完成度,也可以嘲笑它被各家封殺,但不能嘲笑它的方向。畢竟,封不了,也擋不住。

本文由 @Ethan_AIPM 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!