聲網(wǎng)姚光華:做AI產(chǎn)品的這一年,我學(xué)會了扔掉“年度規(guī)劃”

0 評論 1438 瀏覽 1 收藏 10 分鐘

2024年的夏天,一場關(guān)于WebRTC與生成式 AI 的PPT任務(wù),開啟了45天的瘋狂沖刺,最終誕生了第一款To B的Realtime API。這段經(jīng)歷不僅顛覆了對硅谷工作文化的認(rèn)知,更揭示了AI時代產(chǎn)品開發(fā)的殘酷法則:速度、穩(wěn)定性和實驗精神。本文將深入探討對話式AI的生死線、技術(shù)路線選擇背后的戰(zhàn)略思考,以及在技術(shù)狂飆中如何保持人性的深刻洞察。

前段時間的2025AI產(chǎn)品大會中,聲網(wǎng)AI產(chǎn)品線負(fù)責(zé)人姚光華老師認(rèn)為,下一代AI助手必須具備“人格化”特征。 通過情感識別、多輪對話記憶,現(xiàn)代AI正在獲得接近真人的“活人感”。但他同時強(qiáng)調(diào),必須建立統(tǒng)一的體驗基準(zhǔn),讓這種“人味兒”質(zhì)量可控、體驗可預(yù)期。本文為嘉賓現(xiàn)場分享精華內(nèi)容,分享給大家:

 

2024年的夏天,上海熱得反常,據(jù)說是90年來最熱的一個夏天。

八月的一天中午,老板的電話來了?!癈olin,停下你手頭所有的事,”他在電話那頭說,“幫我寫一個PPT?!?/p>

沒有解釋,只有緊迫。我推掉了下午和晚上所有的安排。那個通宵,我只寫了三頁P(yáng)PT:關(guān)于通信協(xié)議的三次迭代,關(guān)于開源WebRTC與商業(yè)RTC的系統(tǒng)性比較,以及一張產(chǎn)品架構(gòu)大圖——關(guān)于如何讓一個大模型開始“說話”。

凌晨五點(diǎn),會議結(jié)束,我回到家。這并非終點(diǎn),而是接下來45天瘋狂加班的起點(diǎn)。那45天的極限沖刺,換來的是國慶長假第一天,我們與OpenAI共同面向世界推出了第一款To B的Realtime API。從那天起,開發(fā)者終于可以在自己的應(yīng)用里,真正接上對話式智能體。

這次經(jīng)歷留給我最深的印記,不是技術(shù)參數(shù),而是一種認(rèn)知的崩塌與重建。站在2025年的路口,我意識到:地球是圓的,硅谷也可以是卷的

01 硅谷沒有“松弛感”

如果你在工作的強(qiáng)度上有K線圖,會發(fā)現(xiàn)一個驚人的事實:所有AI時代的產(chǎn)品和研發(fā),在2024年末到2025年初,K線都是拉滿的。我們天天都在加班。

2024年的圣誕節(jié),OpenAI連開了12天的發(fā)布會;今年的春節(jié),DeepSeek在陪全中國人民聊天。那個曾經(jīng)被我們視為“WLB”(工作生活平衡)典范的硅谷,變了。世界上最優(yōu)秀的那一波人,已經(jīng)徹底放棄了所謂的松散感。因為所有人都看到了一張通向未來的、確定性的船票。

當(dāng)未來是確定的時候,猶豫就是最大的成本。

02 iPhone時刻:不是發(fā)布,是觸碰

對于產(chǎn)品經(jīng)理而言,什么是“對話”?如果不談技術(shù),只談體驗,智能體的“iPhone時刻”到底是什么?

大眾認(rèn)為是初代iPhone的發(fā)布會。但我認(rèn)為,真正的iPhone時刻,是喬布斯用手指在屏幕上放大照片的那一瞬間。那是人類第一次用自己的器官,直接與數(shù)字世界交互。

回顧交互的歷史,我們其實一直在畫圓:從API時代開發(fā)者用代碼交互,到GUI時代用界面交互,再到Prompt時代用文本交互。今天,我們終于可以用聲音與智能體交互。未來加上視頻和數(shù)字人,連小朋友也可以和虛擬生命體對話。

交互的終點(diǎn),是回到我們最原始的能力——對話。

對話不僅僅是界面,它本來就是人類最古老的操作系統(tǒng)。

03 別聽錯,別失控,別讓人等

我們在南美洲的一個電商客戶那里,看到了一個真實的黑色幽默。一個用戶非常生氣地對著我們的智能體吼道:“為什么你是一個人,卻裝成AI跟我對話?我要見你的主管!”

對于普通用戶,人與AI的界限正在模糊。但在工程實踐中,現(xiàn)在的Voice Agent生死線只有三條:別聽錯,別失控,別讓人等。

人類對延遲的感知是殘酷的。面對面聊天,我說完你回復(fù)通常在200毫秒以內(nèi),這是“活人感”的基準(zhǔn);電信通話的金標(biāo)準(zhǔn)是400毫秒;而在線交流加上網(wǎng)絡(luò)傳輸,通常在600毫秒左右——在這個區(qū)間里,人類其實已經(jīng)做了“我在打電話”的心理補(bǔ)償。

但現(xiàn)在的Voice Agent動輒延遲一秒以上。我每天早上問小愛同學(xué)天氣,默認(rèn)要等3秒。這時候,我在等的不是一個“對話”,而是一個系統(tǒng)的“反應(yīng)”。我們已經(jīng)把延遲壓到了650毫秒,但這還不夠,還得繼續(xù)壓。

至于技術(shù)路線,技術(shù)圈雖然在吵“端到端”(End-to-End)很性感,但在真正大規(guī)模商用的戰(zhàn)場上,級聯(lián)(Cascade)才是王者

原因很簡單:當(dāng)用戶投訴體驗問題,端到端是黑盒,你根本不知道哪里出了問題;而級聯(lián)模型,我看一眼日志就知道是聽錯了還是說錯了。更現(xiàn)實的是,如果你的產(chǎn)品明天要出海中東,用級聯(lián)換個模塊就能支持阿拉伯語;用端到端?對不起,請從頭開始訓(xùn)練模型。

在人機(jī)對話里,穩(wěn)定性本身就是最高級的用戶體驗。

04 像做實驗一樣做產(chǎn)品

與OpenAI合作的過程,也是我重塑產(chǎn)品觀的過程。傳統(tǒng)的組織運(yùn)行方式在AI時代已經(jīng)失效了。

我們的產(chǎn)品從3月發(fā)布到10月底,迭代了9個版本;到今天,已經(jīng)迭代了11個版本。核心在于快速決策機(jī)制——只要一個決策不是“單向門”(做了就無法回頭),那就盡管去做實驗。

對于在座的產(chǎn)品經(jīng)理,如果你們正在寫明年的年度規(guī)劃,我的建議是:別寫了。

我們的團(tuán)隊從不要求長期的產(chǎn)品規(guī)劃。我們以6個月為錨點(diǎn)對齊大方向,只做2個月的規(guī)劃,列出每兩周的交付清單。每日發(fā)布,雙周承諾,兩個月路線圖。這就是AI組織的生存法則。三人成軍,就可以快速做一個實驗。成功了納入規(guī)劃,失敗了快速掉頭。

如果可以用實驗來驗證,就不必等待共識。

05 Stay Human

最后,我想聊點(diǎn)非技術(shù)的話題。

木頭姐(Cathie Wood)的報告說,AI情感陪伴產(chǎn)品的空間將有5000倍的增長。未來的AI陪伴,不會局限于手機(jī)屏幕,只要有麥克風(fēng)和揚(yáng)聲器,任何設(shè)備都可以是一個陪伴者。

但我有一個做人機(jī)交互的朋友,最近把自己的社交媒體昵稱改成了“Stay Human(做個人吧)”。

這讓我觸動很大。

過去兩年,我們談?wù)摿颂嗟腁I,太多的Agent,太多的模型參數(shù),以至于我們對人類自身的關(guān)注反而變少了。

AI會重塑世界,而內(nèi)觀會重塑我們。在理解Agent的同時,別忘了理解我們自己。

畢竟,技術(shù)是為了讓我們活得更像人,而不是更像機(jī)器。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!