數(shù)字人的“靈魂”究竟在哪里?

0 評論 784 瀏覽 1 收藏 26 分鐘

數(shù)字人視覺已能以假亂真,交互卻滿是空洞感。盛大 AI 東京研究院推出的 Mio 框架,直擊人格漂移、僵尸臉、無自主進化三大痛點,以交互智能和時空智能為核心,實現(xiàn)數(shù)字人從 “形似” 到 “神似” 的跨越,帶來有靈魂的交互體驗。

你有沒有感覺到,當下的數(shù)字人交互總是差了點什么?明明視覺效果已經(jīng)做到以假亂真,但跟它們對話時,總有種說不出的空洞感。就像在和一個精美的人偶說話,而不是一個真正的”人”。這種感覺并不是錯覺。盡管科技公司已經(jīng)在數(shù)字人視覺特效上投入了數(shù)十億美元,創(chuàng)造出了令人驚嘆的虛擬形象,但用戶粘性依然很低,大多數(shù)人體驗幾次后就不再回來。問題到底出在哪里?我最近關注到盛大集團旗下的盛大AI東京研究院在 SIGGRAPH Asia 2025 上的首次公開亮相,他們推出的 Mio 框架讓我看到了破解這個難題的可能性。

這次亮相不僅僅是一次技術展示。盛大AI東京研究院通過展臺活動、學術討論和頂尖教授閉門交流等形式,系統(tǒng)性地闡述了他們對數(shù)字人未來的理解。更重要的是,他們明確提出了”交互智能”和”時空智能”這兩個核心研究方向。我認為這代表了整個行業(yè)的一次重要轉向,從追求視覺逼真度轉向追求真正有意義的交互體驗。而這個轉向背后,是盛大集團創(chuàng)始人陳天橋先生長期以來對腦科學與AI融合研究的戰(zhàn)略投入。他在 TCCI 首屆 AI 驅動科學研討會上提出的”發(fā)現(xiàn)式智能”理念,強調了智能體認知基底的重要性,這正是 Mio 框架的理論基礎。

數(shù)字人為什么缺乏”靈魂”

我一直在思考這個問題:為什么技術已經(jīng)如此先進,數(shù)字人看起來已經(jīng)那么真實,但我們在與它們交互時,還是能立刻感覺到不對勁?盛大AI東京研究院首席科學家鄭波博士在研討會上深入剖析了這個”靈魂缺失”的核心難題。他指出,這不是某個單一技術環(huán)節(jié)的問題,而是三個層面的系統(tǒng)性挑戰(zhàn)共同作用的結果。

第一個挑戰(zhàn)是長期記憶與人格一致性的缺失?,F(xiàn)在的數(shù)字人大多基于通用大語言模型構建,但這些模型在長時間對話中很難保持穩(wěn)定的人格設定。你可能會發(fā)現(xiàn),跟同一個數(shù)字人聊天,它前面說的話和后面說的話完全矛盾,好像換了個人一樣。這種現(xiàn)象被稱為”人格漂移”。更糟糕的是,這些數(shù)字人經(jīng)常會”失憶”,忘記之前對話中的重要信息,導致整個交流變得支離破碎。我覺得這就像是在跟一個患有嚴重健忘癥的人對話,你不可能與這樣的對象建立真正的關系。真正的”記憶”不僅僅是對過往事件的回溯,更是維持個性、習慣和世界觀連貫性的基石。缺乏這一能力,數(shù)字人就無法形成可信賴的、持續(xù)的身份認同。

盛大AI東京研究院首席科學家鄭波博士深入剖析數(shù)字人“靈魂缺失”的核心難題,并確立了以“交互智能”和“時空智能”為核心的研究目標。

第二個挑戰(zhàn)是多模態(tài)情感表達的嚴重不足。在現(xiàn)實生活中,人與人的交流遠不止語言本身。我們會通過面部表情、眼神、語調、肢體動作來傳遞豐富的情感信息。但現(xiàn)在的數(shù)字人普遍存在一個致命問題:當它們在傾聽或思考時,面部表情僵硬得像個面具,完全沒有自然的微表情和反應。這種現(xiàn)象被形象地稱為”僵尸臉”。想象一下,你在跟一個人傾訴心事,對方雖然在說話回應你,但臉上毫無表情變化,眼神空洞,你會是什么感受?這就是當前數(shù)字人給用戶帶來的體驗。真正的沉浸感來自于語音語調、面部表情、眼神乃至肢體動作的協(xié)同作用,它們共同構成了情感表達的完整層次。而目前的技術在這方面明顯是薄弱的。

第三個挑戰(zhàn)是缺乏自主進化的能力。大多數(shù)數(shù)字人本質上還是一個被動的”播放系統(tǒng)”,根據(jù)預設腳本或實時指令做出反應,而不能從交互中學習和成長。它們無法自主適應用戶的偏好,無法修正錯誤的認知,也無法發(fā)展出新的行為模式。這種缺乏自我進化能力的狀態(tài),讓數(shù)字人永遠停留在”模仿”的層面,無法真正成為智能體。我認為,這是數(shù)字人與真正AI智能體之間最大的鴻溝。一個不能學習、不能成長的系統(tǒng),怎么可能有”靈魂”?

這三大挑戰(zhàn)共同作用,導致了當前數(shù)字人交互體驗的淺層化和碎片化。用戶很難與數(shù)字人建立真正的情感連接,因為這些數(shù)字人既沒有連貫的”自我”,也沒有豐富的情感表達,更無法隨著交互而成長。如何系統(tǒng)性地攻克這些難題,不僅是技術上的挑戰(zhàn),更需要頂層的戰(zhàn)略遠見和長期的研究投入。

香港大學教授、SIGGRAPH Asia 大會主席 Taku Komura, 在盛大AI東京研究院閉門研討會上發(fā)表致辭。

行業(yè)共識正在形成

讓我感到振奮的是,解決這些挑戰(zhàn)的緊迫性已經(jīng)成為整個行業(yè)的共識。2025年12月17日,在香港 SIGGRAPH Asia 大會期間,盛大AI東京研究院主辦了一場高端閉門晚宴及專題研討會。這場活動的時機很特別,恰好是在他們的 Mio 技術報告公開發(fā)布的第二天。我認為這個時間安排很有意義,因為它讓與會專家能夠基于最新的技術突破進行深度討論。

這場研討會匯聚了來自學術界和產(chǎn)業(yè)界的頂尖專家,陣容非常強大。包括香港大學教授、SIGGRAPH Asia 大會主席 Taku Komura,早稻田大學教授、日本數(shù)字人協(xié)會主席 Shigeo Morishima,以及來自東京科學大學、香港中文大學、香港科技大學的多位知名教授。這些專家都是各自領域的領軍人物,他們的觀點代表了行業(yè)最前沿的思考。特別值得一提的是 Shigeo Morishima 教授,他是第一個將真人自動化復刻到電影的先驅者,在數(shù)字人領域有著深厚的積累。

來自港大、港中大、港科大及東京科學大學的頂尖學者在 Panel 環(huán)節(jié)深度探討“交互智能”的未來。

在這場高水平的對話中,專家們達成了一個清晰而重要的共識:當前數(shù)字人發(fā)展的瓶頸已經(jīng)從視覺表現(xiàn)力轉向了認知和交互邏輯。換句話說,讓數(shù)字人看起來像真人已經(jīng)不再是主要問題,真正的挑戰(zhàn)在于讓它們能夠像真人一樣思考和交流。他們一致認為,未來數(shù)字人的核心競爭力將體現(xiàn)在”交互智能”上,具體來說,就是必須具備長期記憶、多模態(tài)情感表達和自主演進這三大關鍵能力。

我覺得這個共識的形成意義重大。它意味著整個行業(yè)的焦點正在發(fā)生根本性轉變。過去幾年,大家都在拼命提升數(shù)字人的視覺效果,追求更高的分辨率、更逼真的皮膚紋理、更自然的光影效果。但現(xiàn)在,最敏銳的頭腦們意識到,這條路已經(jīng)走到了盡頭。再往前走,必須解決認知和交互的問題。這種轉變不是某個公司或研究團隊的一廂情愿,而是全球頂尖學者經(jīng)過深入討論后達成的一致看法。

更有意思的是,這個共識恰好與 Mio 框架的設計理念高度吻合。Mio 的三大核心模塊——認知核心、多模態(tài)動畫師和自主演進框架——正是針對這三大關鍵能力而設計的。這不是巧合,而是盛大AI東京研究院團隊長期深耕這個領域、準確把握行業(yè)脈搏的結果。他們不是在閉門造車,而是在與全球最頂尖的研究者保持密切交流的基礎上,系統(tǒng)性地推進技術創(chuàng)新。

Mio 框架:一個系統(tǒng)性的解決方案

基于對行業(yè)挑戰(zhàn)的深刻理解和與頂尖學者的交流共識,盛大AI東京研究院正式推出了 Mio 框架,全稱是 Multimodal Interactive Omni-Avatar。這個名字本身就透露出它的野心:打造一個多模態(tài)、交互式的全能數(shù)字人。我認為 Mio 的誕生標志著一個分水嶺時刻,它代表了數(shù)字人技術從”形似”向”神似”的決定性跨越。

Mio 的設計理念非常清晰:將數(shù)字人從一個被動執(zhí)行指令的”木偶”,轉變?yōu)橐粋€能夠自主思考、感知并與世界互動的智能伙伴。這不僅僅是技術上的改進,更是一種哲學思想的轉變。過去我們把數(shù)字人當作工具,現(xiàn)在我們要把它們當作伙伴。這種轉變對技術架構提出了完全不同的要求。

Mio 系統(tǒng)的端到端交互閉環(huán)演示——從感知用戶情緒(User Input)到 Thinker 進行認知推理,再通過多模態(tài)模塊(Face/Body/Speech)生成撫慰性的反饋動作。

Mio 框架由五個高度協(xié)同的核心模塊構成,每個模塊都針對數(shù)字人”靈魂缺失”的某個具體方面提供解決方案。我覺得這種模塊化設計非常聰明,因為它既保證了整體架構的靈活性,又確保了各個模塊之間的緊密協(xié)作。

第一個模塊是認知核心,被稱為 Thinker,它相當于數(shù)字人的”大腦”。為了克服標準大語言模型固有的”失憶癥”和人格漂移問題,Thinker 采用了一種革命性的”介于敘事時間的知識圖譜”技術。這個技術的巧妙之處在于,它為每條信息都標記了”故事時間”。什么意思呢?比如說,如果這個數(shù)字人扮演的是某個電影角色,它就絕對不會在對話中”劇透”還沒發(fā)生的劇情。這聽起來簡單,但實際上需要非常精細的時間線管理和上下文理解能力。在 CharacterBox 基準測試中,Thinker 的人格保真度超越了 GPT-4o,這是目前最強大的大語言模型之一。更令人印象深刻的是,在防止劇透的測試中,它取得了超過 90% 的準確率,這幾乎是完美的表現(xiàn)。

更重要的是,Thinker 還具備無需人工標注的自我進化機制。它采用了一種我覺得非常巧妙的”左右互搏”式自我訓練循環(huán)。一個場景生成策略會不斷設計出刁鉆的互動場景,專門用來挑戰(zhàn)和探測當前數(shù)字人的”人設”弱點。另一個互動扮演策略則扮演數(shù)字人本身,努力在這些場景中做出最符合人設的回應。最后,一個多模態(tài)獎勵模型會根據(jù)用戶的全局滿意度反饋,智能地反推出每一次具體互動的”功勞”或”過錯”,并給予精細化的獎勵或懲罰。通過這個自我博弈的過程,數(shù)字人不斷地在自我挑戰(zhàn)中優(yōu)化自己的行為,使其人格表現(xiàn)越來越穩(wěn)定和真實,就像 AlphaGo 通過自我對弈變得越來越強一樣。

第二個模塊是語音引擎 Talker。它負責將 Thinker 生成的文本轉化為生動的語音,研究團隊為此開發(fā)了 Kodama-Tokenizer 和 Kodama-TTS。Kodama 的核心思想在于將語音信號解耦為”語義”和”聲學”兩種信息。前者決定”說了什么”,后者決定”聽起來怎么樣”。這種設計使得模型可以對不同信息進行針對性壓縮和建模,最終以極低的比特率(僅 1kbps)實現(xiàn)高質量的語音重建。實驗數(shù)據(jù)顯示,Kodama 在語音重建和零樣本 TTS 任務中,無論是在自然度還是發(fā)音準確率上,都展現(xiàn)出與當前最優(yōu)模型相當甚至更好的性能。這意味著 Talker 生成的語音不僅清晰準確,而且富有表現(xiàn)力,能夠傳遞出數(shù)字人的情感和個性。

第三個模塊是面部動畫師 Face Animator,它通過提出的 UniLS(Unified Speak-Listen)模型,徹底解決了數(shù)字人在”聆聽”時的”僵尸臉”問題。UniLS 的巧妙之處在于它的兩階段訓練策略。第一階段是無音頻預訓練,模型在海量的、無音頻的視頻數(shù)據(jù)上學習各種內(nèi)在的面部動態(tài)先驗,比如自然的眨眼、微表情和頭部晃動。第二階段是音頻驅動微調,在預訓練好的模型基礎上,引入對話雙方的音頻信號進行微調。通過交叉注意力機制,模型學會將內(nèi)在的動態(tài)與外部的音頻信號結合起來,從而生成既包含說話時的口型同步,也包含聆聽時的生動反應。在用戶研究中,超過 90% 的參與者認為 UniLS 的聆聽反應優(yōu)于業(yè)界領先的競品,在客觀指標上,聆聽時的 F-FID 指標從競品的 10.779 驟降至 4.304,這表明 UniLS 生成的聆聽動作分布更接近真實人類的表現(xiàn)。

第四個模塊是身體動畫師 Body Animator。為了實現(xiàn)實時、可控、無限長的身體動作生成,它引入了 FloodDiffusion,一種專為流式生成設計的擴散模型。FloodDiffusion 的核心創(chuàng)新是下三角噪聲調度。傳統(tǒng)擴散模型在每個時間步對整個序列施加同樣水平的噪聲,導致計算量隨序列長度線性增長。而 FloodDiffusion 創(chuàng)造了一種”級聯(lián)”式的去噪模式,在任何時刻,只有一小段”活動窗口”內(nèi)的動作在被積極去噪,而之前的動作已經(jīng)”塵埃落定”,之后的動作則完全是噪聲。這種設計保證了模型在生成時,計算量是恒定的,延遲有嚴格的上界,從而實現(xiàn)了真正的流式輸出。更重要的是,它還支持時變文本條件,可以隨時接收來自 Thinker 的新指令,并絲滑地過渡到新動作。在標準數(shù)據(jù)集上的評測顯示,F(xiàn)loodDiffusion 的 FID 指標達到了 0.057,在保持實時性的同時,其運動質量與頂尖離線模型相媲美。

第五個模塊是渲染引擎 Renderer。它負責將前面各個模塊生成的參數(shù)化控制信號轉化為高保真、身份一致的視頻。研究團隊提出了 AvatarDiT,一個基于視頻擴散 Transformer 的渲染框架。AvatarDiT 采用了三階段訓練策略來解耦并學習身份、面部控制和多視角一致性這三大難題。實驗結果表明,AvatarDiT 在多視角一致性和整體感知質量上均優(yōu)于現(xiàn)有的最優(yōu)方法,在主觀評分中,它在所有維度上都獲得了最接近真實視頻的評分。

我特別欣賞 Mio 框架的一點是,它將這五個模塊無縫融合,實現(xiàn)了從認知推理到實時多模態(tài)體現(xiàn)的完整閉環(huán)。這不只是把幾個技術模塊拼在一起,而是讓它們真正協(xié)同工作,形成一個有機的整體。舉個例子,當用戶說了一句讓數(shù)字人感到悲傷的話,Thinker 會理解這個情緒并做出相應的認知反應,Talker 會生成帶有悲傷情緒的語音,F(xiàn)acial Animator 會讓面部表情呈現(xiàn)出悲傷,Body Animator 會讓肢體動作變得低落,最后 Renderer 會把這一切渲染成一個完整的、令人信服的悲傷反應。這整個過程是實時的、協(xié)調的、自然的。

交互智能的量化突破

談了這么多技術細節(jié),你可能會問:這些改進到底有多大效果?盛大AI東京研究院團隊給出了一個可量化的答案。他們建立了一個新的評估基準來衡量”交互智能”,這個基準涵蓋了語音、表情、動作、視覺風格和人格一致性等多個維度。在這個嚴格的測試中,Mio 的整體交互智能分數(shù)達到了 76.0,比之前的最優(yōu)技術水平提升了整整 8.4 分。

Mio (紅色) 在認知共鳴、面部同步、肢體流暢度等各項指標上全面超越現(xiàn)有最優(yōu)技術 (藍色),IIS 總分達到 76.0。

這個提升幅度意味著什么?在學術界和工業(yè)界,能夠在成熟的基準測試上提升幾個百分點就已經(jīng)很了不起了,提升 8.4 分可以說是一個巨大的飛躍。更重要的是,這不是在某個單一指標上的提升,而是在認知共鳴、面部同步、肢體流暢度等各項指標上的全面超越。這說明 Mio 不是在某個方面特別強、其他方面特別弱的偏科型選手,而是一個全面發(fā)展的優(yōu)等生。

我認為這個量化結果的意義不僅在于數(shù)字本身,更在于它證明了”交互智能”是可以被科學測量和持續(xù)改進的。過去,數(shù)字人的”靈魂感”往往被視為一個主觀的、難以捉摸的概念。但現(xiàn)在,通過建立合理的評估體系,我們可以清晰地看到技術進步帶來的實際效果。這為整個行業(yè)提供了一個明確的優(yōu)化方向和衡量標準。

從展示的對比圖表中可以看出,Mio 在各個維度上都明顯優(yōu)于現(xiàn)有的最優(yōu)技術。特別是在面部表情和肢體動作的流暢度方面,提升尤為顯著。這正是用戶最容易感知到的方面,也是決定交互體驗好壞的關鍵因素。當一個數(shù)字人的表情和動作足夠自然流暢時,用戶就更容易忽略它是虛擬的這個事實,從而產(chǎn)生真正的情感投入。

這對行業(yè)意味著什么

Mio 的誕生標志著數(shù)字人發(fā)展的一次范式轉移。整個行業(yè)的關注焦點正在從靜態(tài)的、孤立的外觀逼真度,轉向動態(tài)的、有意義的交互智能。我覺得這種轉變是必然的,也是正確的。過去十年,我們見證了計算機圖形學的飛速發(fā)展,數(shù)字人的視覺效果已經(jīng)達到了令人驚嘆的程度。但僅有好看的外表是不夠的,就像一個人不能只靠長相吸引他人一樣。

可以預見,”交互智能”將為多個領域帶來革命性的變革。在虛擬陪伴領域,未來的數(shù)字人將不再是簡單的聊天機器人,而是能夠建立長期關系、提供情感支持的智能伙伴。想象一下,一個能夠記住你所有喜好、理解你情緒變化、陪伴你成長的數(shù)字朋友,這將為那些孤獨的老年人或需要心理支持的人群提供巨大價值。

在互動敘事領域,交互智能將徹底改變我們體驗故事的方式。傳統(tǒng)的游戲或影視作品中,NPC(非玩家角色)的行為都是預設好的,你只能沿著既定的劇本走。但有了真正的交互智能,每個 NPC 都可以成為一個有獨立人格、能夠自主反應的角色。你與他們的每次對話都可能影響劇情走向,創(chuàng)造出真正個性化的故事體驗。這將把互動娛樂提升到一個全新的層次。

在沉浸式游戲領域,交互智能的應用潛力更是巨大?,F(xiàn)在的游戲 NPC 往往讓人出戲,因為它們的反應太機械、太可預測。但想象一下,如果游戲中的每個角色都像 Mio 這樣,擁有連貫的記憶、豐富的情感表達和自主學習能力,游戲世界將變得多么真實和引人入勝。玩家將不再是在”玩”游戲,而是在與一個真實的虛擬世界互動。

我也看到了一些潛在的挑戰(zhàn)和問題。當數(shù)字人變得如此真實和有”靈魂”時,人們可能會對它們產(chǎn)生真實的情感依賴。這是好事還是壞事?如何平衡虛擬關系和現(xiàn)實關系?如何確保這種技術不會被濫用?這些都是需要認真思考的倫理問題。但我相信,技術本身是中性的,關鍵在于我們?nèi)绾问褂盟?/p>

為了推動這一領域的共同進步,盛大 AI 東京研究院已將 Mio 項目的完整技術報告、預訓練模型和評估基準公開發(fā)布。

這是 Mio 的最新 Demo——并非終點,但我們已經(jīng)第一次清晰地看見,數(shù)字人“有靈魂”的曙光?。

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!