AI 語音交互:巨頭和創(chuàng)業(yè)公司們都在做什么

0 評論 694 瀏覽 0 收藏 9 分鐘

從OpenAI的實(shí)時電話AI到蘋果的語音指揮棒,語音交互正迎來爆發(fā)式創(chuàng)新。大廠們紛紛將語音能力嵌入核心場景,而初創(chuàng)公司則在細(xì)分領(lǐng)域打造極致工具。本文將拆解語音交互的最新戰(zhàn)場,看AI如何讓對話從機(jī)械應(yīng)答進(jìn)化到自然交互。

前幾天寫了一篇關(guān)于語音交互的文章(交互革命:AI 硬件別再死磕“語音”了),大家有不少討論,于是我特意找了一些聚焦語音交互的 AI 公司和產(chǎn)品,想和大家一起看看,現(xiàn)在做語音交互的公司們都在做什么。

01 大廠:卷場景,爭入口

1. OpenAI:讓 AI 像真人一樣接電話

OpenAI 最近的動作非???,他們把實(shí)時語音對話提升到了核心戰(zhàn)略位置。

打斷式對話:現(xiàn)在的對話模型不再是你一句、我一句的死板對講,你可以在它說話時隨時打斷、糾正,它的反應(yīng)速度和真人幾乎沒區(qū)別。

接管電話網(wǎng)絡(luò):最關(guān)鍵的動作是他們發(fā)布了支持 SIP(會話發(fā)起協(xié)議)的 Realtime API。通俗點(diǎn)說,開發(fā)者可以直接把 OpenAI 的語音能力接進(jìn)公司的電話交換機(jī)里。

這意味著,你接到的客服電話、預(yù)約電話,背后可能就是一個反應(yīng)極快、邏輯清晰的 AI 智能體。

2. 蘋果:語音變成指揮棒

蘋果在 Apple Intelligence 蘋果智能里,把語音能力切得很碎,塞進(jìn)了最常用的溝通場景:

通話與錄音的一條龍服務(wù):現(xiàn)在的 iPhone 不僅能錄音,還能實(shí)時轉(zhuǎn)寫成文字,并自動生成摘要。你打完一個半小時的電話,它直接給你列出三個待辦事項(xiàng)。

AirPods 的實(shí)時翻譯:戴上耳機(jī),對方說外語,你聽到的是中文,幾乎沒有感官上的延遲。

快捷指令:以前復(fù)雜的“快捷指令”需要手動編排,現(xiàn)在你只要動動嘴,Siri 就能直接調(diào)用這些能力幫你完成跨 App 的操作。

3. 谷歌:一邊搜索,一邊聊天

谷歌把 Gemini Live 的能力深度嵌入到了搜索里,搞出了一個Search Live

追問式搜索:語音搜索不再是“問一個問題,給一個答案”。你可以邊聊邊找,比如:“幫我找下周去大理的機(jī)票?!?/strong>

搜出來后直接追問:“要下午出發(fā)的,價格不要超過一千?!彼鼤鶕?jù)之前的對話內(nèi)容持續(xù)更新搜索結(jié)果。

4. 亞馬遜:Alexa 終于要變聰明了

亞馬遜推出了下一代Alexa+。這次他們很明確,Alexa+ 不再只是控制燈泡的開關(guān),而是要走能聊天、能辦事的路線。

它能記住你的生活習(xí)慣,處理更復(fù)雜的家務(wù)指令,比如“幫我訂一份常吃的那個披薩,要在半小時內(nèi)送到”。

5. 微軟:Copilot 成了 Windows 的聲卡

微軟開始在 Windows 系統(tǒng)里大規(guī)模測試“Hey Copilot”喚醒詞。他們想讓語音成為辦公的常駐入口。

不管是寫 PPT 還是查表格,你不需要到處點(diǎn)菜單,直接說話,Copilot 就能在后臺幫你把活兒干了。

02 初創(chuàng)公司:拼效率、搶速度

Product Hunt 2025 年專門做了“AI 聽寫應(yīng)用”的 Orbit Awards,我梳理了上面風(fēng)頭最勁的幾家語音初創(chuàng)公司。

1. Wispr Flow:想讓你徹底扔掉鍵盤

它是做什么的:一個系統(tǒng)級的語音輸入工具。

規(guī)模:剛拿到 8100 萬美元融資,估值約 7 億美元。

怎么用:你在電腦上任何能打字的地方(微信、郵件、Word),按下快捷鍵直接說話。

特點(diǎn):它最厲害的地方在于“自動整理”。你說話的時候可能有口音、有廢話、有重復(fù),但它轉(zhuǎn)出來的文字是邏輯嚴(yán)密、排版工整的。它就像一個全能速記員+文案編輯,目前已經(jīng)有大量用戶用它替代了 70% 以上的鍵盤輸入。

2. Aqua Voice:專門為寫長文設(shè)計(jì)

它是做什么的:針對長篇文檔、劇本、報(bào)告的語音寫作工具。

怎么用:你坐在椅子上,像講故事一樣把內(nèi)容說出來。

特點(diǎn):普通的語音轉(zhuǎn)文字很難處理分段和語氣。Aqua Voice 擅長捕捉你的情緒和語氣,自動幫你判斷哪里該分段,哪里是重點(diǎn)。它不是簡單地記錄,而是像個影子作者一樣,幫你把零散的思想變成有可讀性的長文章。

3. Superwhisper:主打隱私和本地化

它是做什么的:一個運(yùn)行在本地設(shè)備上的極速語音轉(zhuǎn)寫工具。

怎么用:適合醫(yī)生、律師、財(cái)務(wù)等對數(shù)據(jù)安全極度敏感的職業(yè)。

特點(diǎn):它的模型是跑在你自己電腦里的(比如 Mac 的本地芯片),不需要聯(lián)網(wǎng)。這意味著你的談話內(nèi)容永遠(yuǎn)不會傳到云端,安全性極高,而且轉(zhuǎn)寫速度極快,幾乎是話音剛落,文字就出來了。

4. Known:聲音驅(qū)動的新社交

它是做什么的:一個基于語音匹配的社交平臺。

規(guī)模:最近剛獲得 9700 萬美元融資。

怎么用:拋棄了傳統(tǒng)的“看照片、左右劃”模式。

特點(diǎn):它讓 AI 識別用戶的聲音特征、語調(diào)和表達(dá)邏輯,幫你找“聊得來”的人。他們認(rèn)為聲音包含的信息比文字和照片多得多。

對比過去,語音交互也在進(jìn)化:

  1. 容錯率變高了:以前你要適應(yīng)機(jī)器,說話得字正腔圓;現(xiàn)在是 AI 適應(yīng)你,你隨便亂說,它能聽懂意思并幫你整理好。
  2. 延遲消失了:現(xiàn)在的實(shí)時 API 讓對話延遲降到了毫秒級,你感覺不到是在和機(jī)器說話。
  3. 有了記憶和上下文:它知道你剛才說了什么,也知道你現(xiàn)在在處理什么任務(wù)。

我們也看到目前的語音交互市場,已經(jīng)分成了兩條明顯的路徑:

  1. 大公司在做底座:把語音接進(jìn)系統(tǒng)、接進(jìn)搜索、接進(jìn)電話網(wǎng),讓它無處不在。
  2. 創(chuàng)業(yè)公司在做工具:針對寫文檔、防泄密、甚至社交等具體場景,把效率做到極致。

語音交互確實(shí)更符合用戶習(xí)慣和認(rèn)知,但我也同樣期待下一個交互的 iPhone 時刻。

以上,祝你今天開心。

作者:張艾拉 公眾號:Fun AI Everyday

本文由 @張艾拉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!