騰訊藏了三年的AI大招:生成三維空間,到底有多離譜?

0 評論 759 瀏覽 3 收藏 21 分鐘

騰訊IntelliScene系統(tǒng)正在顛覆游戲場景設計的傳統(tǒng)模式。這款AI助手通過視覺引導生成與結構化語言解析,賦予了AI前所未有的空間智能——不僅能識別物體,更能理解三維空間中的功能關系、物理規(guī)則和敘事邏輯。從好萊塢級的美術設計流程中獲得靈感,它讓設計師從繁重的非核心場景搭建中解放,專注于最具創(chuàng)造性的部分。本文將深度拆解這套系統(tǒng)從1.0到2.0的演進歷程,揭示多智能體協作如何攻克3D場景生成的世界級難題。

想象一下,你是一位電影的美術指導,正在籌備一部史詩級西部世界電影。你需要搭建一個完整的邊境小鎮(zhèn)。主角活動的酒館、旅館是“核心場景”,需要你傾注全部心血,精心設計每一個細節(jié)來塑造角色、推動劇情。但小鎮(zhèn)里還有幾十棟背景民居、馬棚、鐵匠鋪,這些是“非核心場景”。它們數量巨大,對于營造世界的“沉浸感”至關重要,但如果每一棟都讓你親手去擺放每一張桌子、每一只杯子,那將是一個耗時數年、令人崩潰的“體力活”。

騰訊IntelliScene系統(tǒng)要解決的,正是這個“體力活”問題。 它的核心定位不是一個取代美術家的“全能AI藝術家”,而是一個極其強大和智能的“高級助手”。它的工作模式是:

  • 需求理解與草稿生成:美術家給出一個模糊的指令(如“一個雜亂但溫馨的獵人小屋”),AI助手快速生成多個可供選擇的3D場景布局草稿。
  • 人類審核與精細調整:美術家像主編審稿一樣,在這些高質量的AI草稿基礎上,進行微調、修改和最終驗收。這極大地提升了初始方案的產出效率和質量底線。

關鍵邊界:電影的主角戲份(游戲的核心關卡)必須由導演(人類專家)嚴格把控;而大量的群眾演員站位、背景布置(游戲的邊緣區(qū)域)則可以交給這位聰明的助手來高效完成,從而讓導演能集中精力在最重要的創(chuàng)作上。

一、背景:為什么這件事如此之難?

1.1 核心痛點:場景設計是一座“冰山”

玩家在《荒野大鏢客》中看到的美輪美奐的景色,只是冰山的尖頂。水面之下,是龐大、復雜且耗時的協作體系,涉及策劃定調、美術制作、關卡擺放、程序實現等多個環(huán)節(jié)。

“一磚一瓦”的艱辛:每一個林中小屋里的家具、雜物、裝飾品,都需要美術師從海量資產庫中挑選,然后手動調整其位置、旋轉角度、大小,并確保它們符合“有支撐(桌子上的杯子不會懸空)、無穿插(椅子腿不會陷進地里)、留通行(角色可以正常走過)”等基本物理和邏輯規(guī)則。

AI的切入點:讓AI一下子接管整個冰山不現實,但可以先從冰山下水下部分那些可工程化、可驗證的環(huán)節(jié)入手。比如:

大規(guī)模重復擺放:為上萬平方米的森林自動分布樹木、巖石和草叢。

  • 基礎約束檢查:自動掃描整個場景,快速找出所有懸空的物體或互相穿模的家具。
  • 局部細節(jié)填充:給定一個空房間的框架,自動填充上風格統(tǒng)一、布局合理的家具。

1.2 破局關鍵:賦予AI“空間智能”

過去的自動化場景生成工具,如程序化生成(PCG),更像是“撒豆成兵”,依據預設的規(guī)則隨機放置,結果往往生硬、不合理。而早期的AI方法則像一個“黑盒”,你不知道它為何這樣擺放,難以控制和調整。

真正的突破點在于讓AI獲得 “空間智能”——這不僅僅是“識別”物體,更是“理解”三維空間中的關系、物理法則和功能邏輯。

在這里舉一個生動的例子:當AI布置一個臥室時,它不能僅僅是識別出“床”、“床頭柜”、“臺燈”這三個物體并把它們丟進房間。它必須理解:

  • 功能關系:臺燈是為閱讀服務的,所以它應該放在床頭柜上,并靠近床的一側。
  • 空間關系:床頭柜必須緊貼床邊,方便人伸手就能夠到。
  • 物理規(guī)則:臺燈必須穩(wěn)穩(wěn)地“坐”在床頭柜上(支撐關系),并且所有物體都不能浮空或相互嵌入。
  • 敘事邏輯:如果這是一個匆忙離開的偵探的房間,那床上或許是凌亂的,臺燈也許是開著的。這種布局背后是有“故事”的。

行業(yè)共識:李飛飛等AI領袖提出“空間智能是AI的下一個前沿”。騰訊的這項工作,正是要在游戲場景這個復雜的試驗場中,攻克這一前沿難題。核心在于讓AI學會回答“為什么這里應該放這個物件?”

二、演進:從“空想”到“實干”——IntelliScene 1.0到2.0

騰訊的探索并非一蹴而就,他們提出了一種反常的方法論:讓AI“慢思考”。

這不僅僅是技術上的升級,更是設計哲學上的根本轉變。我們可以通過一個生動的對比來理解:

傳統(tǒng)AI/PCG(快思考):像是一個背熟了公式的學生,看到題目就立刻套用公式給出答案。速度很快,但可能完全不理解題目的實際意義,答案常常突兀、不合理,就像在廚房正中間生成一個馬桶。

人類專家(慢思考):像是一位資深建筑師,接到“設計一個家”的任務后,會先與客戶溝通需求、生活方式(目標規(guī)劃),然后畫出概念草圖(視覺構思),再考慮功能分區(qū)、動線(邏輯推理),最后才選擇具體的材料和家具(細化執(zhí)行),過程中不斷權衡美觀、實用和預算。

騰訊IntelliScene的目標,就是讓AI模擬后者這種嚴謹、深思熟慮的“慢思考”過程。

IntelliScene 1.0:用文字交流的“策劃階段”

設想:用多個AI智能體(可以理解為多個各司其職的AI專家)通過對話協作,模擬人類設計流程。一個AI負責規(guī)劃格局,一個AI負責挑選家具,另一個AI負責檢查合理性。

驗證的成功點:證明了基于大模型的推理式擺放是可行的,并且人類專家的設計流程可以被抽象成標準操作程序(SOP)教給AI。

發(fā)現的瓶頸:純文本交流信息損失太大。就像你只通過電話用語言向同事描述一個房間的布局,很難精確傳達每個物體的精確位置、角度和彼此間的空間關系。導致結果經常出現位置錯誤、旋轉不準、比例失調等問題。

IntelliScene 2.0:引入視覺藍圖的“施工階段”

核心升級:從“文本驅動”變?yōu)椤?strong>視覺引導”。這是一個根本性的轉變。AI的工作流程不再是空對空的文本推理,而是先產生一張具體的、包含豐富細節(jié)的“效果圖”,然后所有后續(xù)工作都圍繞這張精確的藍圖展開。這就像是建筑行業(yè),從依賴口述要求,升級到先由建筑師畫出詳細的工程圖紙,施工隊再嚴格按照圖紙施工,精度和可靠性得到質的飛躍。

三、解決方案:IntelliScene 2.0 技術流程深度拆解

整個系統(tǒng)如同一個高度現代化的智能工廠,流水線如下:

準備工作:建設“原料倉庫”與“樣板間”(高質量數據集)

這是所有AI能力的基石。騰訊做了兩件至關重要的事:

3D資產庫(原料倉庫):自建了一個包含500個類別、2042個高質量3D模型的龐大倉庫。這些模型風格寫實,覆蓋室內外常見物品,每個模型都帶有詳細的尺寸、描述等標簽。

專家場景布局數據集(樣板間):這是真正的核心競爭力。他們邀請了經驗豐富的專業(yè)美術師,搭建了147個高質量的3D場景。每個場景平均有43.6個物體,遠超普通數據集。

關鍵價值:這些不僅僅是模型的簡單堆積,每個場景都附帶了“設計思維鏈”,即專家對于“為何這樣布局”的解釋。例如,為什么要把這個箱子放在這個角落?是為了營造一種怎樣的敘事氛圍?這相當于把美術專家的“審美”和“邏輯”數字化、結構化了,供AI學習。

第一步:生成“施工藍圖”——視覺引導生成

任務:用戶輸入“一個充滿陽光的現代圖書館”的文本描述,系統(tǒng)需要先生成一張符合要求的、高質量的彩色圖片。

巨大挑戰(zhàn):生成的圖片里的書架、桌椅等,必須和“原料倉庫”(3D資產庫)里的模型外觀盡量相似,否則下一步“按圖索驥”會非常困難。

解決方案——模型微調

他們以強大的FLUX圖像生成模型為基礎,使用自建的147個“樣板間”渲染圖對其進行微調。

微調的核心目標是讓模型學會兩件事:① 專家級的布局審美(空間與美學先驗);② 生成物體的外觀要與資產庫中的模型保持風格一致(資產一致性)。

結果:微調后的模型,能根據用戶指令,生成既美觀、布局合理,又與自己倉庫里的“現貨”長得像的效果圖,為后續(xù)步驟奠定了完美基礎。

第二步:“藍圖會審”——視覺解析與幾何解碼

現在,AI需要像工程師一樣,仔細“審閱”這張效果圖,提取所有可用的信息。

物體識別與分割(列出物料清單)

使用一系列視覺模型(如Grounding DINO, SAM),像用PS的魔術棒一樣,把圖片中的每一個物體(書桌、椅子、書本)都精確地識別出來,并用輪廓框(Mask)標出。

高級技巧——查漏補缺:AI會計算圖中還沒被標記的區(qū)域,懷疑可能有漏網的物體(比如背景里一個模糊的相框)。它會針對這些區(qū)域進行第二輪識別,確?!拔锪锨鍐巍蓖暾麩o缺。

幾何分析(理解空間結構)

深度估計:使用Depth Anything V2等模型,估算圖片中每個像素的深度距離,將2D圖片轉換成有遠近關系的“偽3D”點云圖。

物體包圍盒(OBB)擬合:對每個識別出的物體,根據其對應的點云,計算出一個3D的、帶方向的最小包圍盒子。這個盒子給出了物體在空間中的大致位置、尺寸和朝向。

結構平面提取:通過算法(如RANSAC)找出圖中的地板、墻面等主要平面,并計算它們的法線方向。這是判斷“靠墻”等關系的基礎。

邏輯關系分析

結合幾何規(guī)則和視覺語言模型(VLM),判斷物體間的關系,主要是:

支撐關系:A物體是否垂直支撐著B物體?(如地板支撐桌子,桌子支撐杯子)。

靠墻關系:物體是否與墻壁等邊界對齊?

第三步:“按圖索驥”——場景圖構建與資產檢索

構建場景圖(生成裝配說明書)

將前兩步的所有信息整合成一張結構化的“場景圖”。這不再是一張圖片,而是一個包含所有物體節(jié)點、以及節(jié)點之間關系(支撐、靠墻等)的網狀數據結構。它完整描述了場景的構成邏輯。

3D模型檢索(去倉庫里找對應的貨)

拿著“效果圖”和“裝配說明書”,去“原料倉庫”(3D資產庫)里尋找最匹配的實物3D模型。

匹配標準是綜合性的

語義對齊:類別必須正確(圖上是書桌,就不能拿個餐桌出來)。

視覺一致性:計算圖片中物體與倉庫模型渲染圖的視覺特征相似度(使用DINOv2模型),確保外觀像。

幾何約束:模型的大小要與藍圖中估算的物體大小相近,不能差太多。

第四步:“精密裝配與調整”——姿態(tài)估計與全局優(yōu)化

這是技術含金量最高的步驟,目標是讓3D模型在3D空間中精確還原藍圖中的布局。

旋轉估計(確定物體的精確朝向)

粗篩選:為候選的3D模型從162個均勻分布的角度拍攝“標準照”,與效果圖中的目標進行特征匹配,選出最像的Top-K個候選角度。

精細擇優(yōu):使用一種基于“單應性矩陣”的方法,分析哪個候選角度最接近純粹的旋轉(而非扭曲變形),從而鎖定最精確的朝向。此法能有效處理對稱物體帶來的歧義。

幾何增強:同時,利用第二步中從點云擬合出的OBB的幾何方向作為參考。如果視覺估計結果和幾何參考方向差異太大,系統(tǒng)會智能地選擇更可靠的那個,或者進行加權平均,大大提升了朝向估計的穩(wěn)定性。

全局布局優(yōu)化(解決沖突,確保合理)

問題:由于估算誤差、遮擋等原因,直接放置的物體可能會穿模(椅子腿插進地里)或懸空。

解決方案:引入一個“全局優(yōu)化求解器”。它將場景圖中定義的“支撐”、“靠墻”等關系作為必須遵守的硬性約束,同時要求最終布局與藍圖效果的總體偏差最小

過程:這個求解器(如采用模擬退火算法)會智能地、微調每個物體的位置和旋轉,直到找到一個既能完全滿足所有物理約束(無穿插、有支撐、靠墻),又最大限度地忠實于原效果圖的全局最優(yōu)布局。有時還會加入簡單的重力模擬,讓堆疊的物體更自然。

四、效果評估:專業(yè)人士的“盲測”

為了客觀驗證效果,騰訊設計了嚴格的評估:

美術專業(yè)學生評估(無紋理布局)

方法:邀請100名美術專業(yè)學生,對IntelliScene 2.0和其他幾種前沿方法生成的無紋理場景布局進行兩兩比較。

維度:“合理性與現實性”和“美學吸引力”。

結果:在餐廳、客廳、臥室等多種場景下,IntelliScene 2.0的用戶偏好率顯著高于所有對比方法(如DiffuScene, Holodeck等),普遍達到75%-85%的偏好率。

資深行業(yè)專家評估(完整可交互場景)

方法:邀請公司外部的資深游戲美術,在3D軟件中交互式瀏覽帶紋理的完整AI生成場景。

標準:1-5分制(3分代表人類專業(yè)平均水平)。

結果:在整體構圖、語義邏輯、美學吸引力上獲得高分。最有力的證明是:在某些案例中,評估者無法區(qū)分這個場景是出自外包美術之手還是由AI生成的。 這標志著其產出質量已達到了實用水平。

五、總結與核心啟示

IntelliScene 2.0的成功,超越了技術本身,帶來了三點深刻的啟示:

  1. 多智能體協作是解決復雜AI任務的必由之路:將一個宏大問題拆解,由專門化的智能體(視覺生成、解析、優(yōu)化等)分工協作,是可行且高效的。
  2. 視覺與結構化語言是3D理解的“一體兩面”:在3D領域,圖像提供的豐富空間信息,與文本和關系圖提供的抽象邏輯信息,二者相輔相成,缺一不可。
  3. 高質量、富含“思維鏈”的數據是AI能力的基石與壁壘:最終決定AI高度的,并非模型本身,而是用于訓練它的數據質量。那些蘊含了人類專家設計意圖和推理過程的“思維鏈”數據,是無價的寶藏。這不僅是技術壁壘,更體現了對人類智慧的尊重和利用。

展望未來,騰訊希望將游戲場景作為培養(yǎng)AI“空間智能”的絕佳平臺,最終訓練出具備更強空間認知能力的“擺放大模型”。而當前的IntelliScene系統(tǒng),既能高效產出內容,又能在此過程中生成海量的、高質量的結構化場景數據,反哺下一代AI的成長,形成一個強大的飛輪效應。

本文由 @鄭嘉智(AIPM) 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!