A16z 4100萬美元領(lǐng)投Mirelo,重磅押注歐洲音頻大模型

0 評(píng)論 134 瀏覽 0 收藏 22 分鐘

當(dāng)AI視頻生成工具讓畫面創(chuàng)作變得輕而易舉,音頻卻成為創(chuàng)作者最難跨越的最后一公里。柏林初創(chuàng)公司Mirelo以僅10人團(tuán)隊(duì)撬動(dòng)4100萬美元融資,其核心武器是能夠精準(zhǔn)解析視頻內(nèi)容并實(shí)時(shí)生成同步音效的SFX v1.5模型。這家由AI科學(xué)家與音樂人聯(lián)合創(chuàng)辦的公司,正試圖在巨頭環(huán)伺的音頻賽道建立技術(shù)護(hù)城河——不是通過資本規(guī)模,而是憑借對(duì)聲音表征的深度理解與更高效的模型架構(gòu)。

過去一年,AI 視頻生成在模型能力與產(chǎn)品形態(tài)上快速迭代,視頻產(chǎn)出的邊際成本持續(xù)下降,生成速度與可控性顯著提升。今天不少 AI 創(chuàng)作者都經(jīng)歷過:畫面幾分鐘出片,真正讓人頭大的,是后面的音效、配樂、節(jié)奏、氛圍一整套費(fèi)時(shí)的對(duì)齊工作。

在這種背景下,歐洲音頻公司 Mirelo AI 剛剛拿下 4100 萬美元種子輪,由 a16z 與 Index Ventures 領(lǐng)投。他們不是再做一個(gè)剪輯工具,而是訓(xùn)練自己的音頻模型,主打用戶給視頻,Mirelo 補(bǔ)上所有聲音。自動(dòng)生成音效與配樂,并把它們精確同步到畫面上。

本文基于 Scaling Europe 對(duì) Mirelo AI 的聯(lián)合創(chuàng)始人的深度專訪整理而成。這家公司只有十來人,卻在的視頻到音效模型評(píng)測(cè)上做到同類最強(qiáng)。在音頻這條賽道,競(jìng)爭(zhēng)可能不再是“誰能砸最多算力”,而是誰更懂聲音、數(shù)據(jù)與表征。?

Speaker 個(gè)人介紹
1.?Seb Johnson:運(yùn)營(yíng)歐洲科技媒體平臺(tái)?Scaling Europe,通過播客/直播訪談與newsletter持續(xù)報(bào)道歐洲創(chuàng)業(yè)與投融資動(dòng)態(tài),定位是“每周和歐洲最好的創(chuàng)業(yè)者與投資人對(duì)話”。
2.?CJ Simon-Gabriel:Mirelo AI 聯(lián)合創(chuàng)始人 & CEO,帶隊(duì)在歐洲訓(xùn)練“面向視頻與游戲的音頻基礎(chǔ)模型”,核心要解決?AI 視頻無聲、缺聲”的產(chǎn)業(yè)痛點(diǎn),將能力落到兩類模型與產(chǎn)品形態(tài),面向創(chuàng)作者的 Mirelo Studio(偏 B2C)與面向平臺(tái)、企業(yè)的 API(偏 B2B)。其公司?Mirelo?近期宣布?4100 萬美元種子輪,由?Index Ventures 與 Andreessen Horowitz(a16z)?共同領(lǐng)投。

Mirelo 的起點(diǎn):從 AI 研究者與音樂人的交匯到“視頻全音頻”

Seb Johnson:大家好,歡迎回到《Scaling Europe》節(jié)目。我是 Seb Johnson。我和 CJ Simon-Gabriel 一起在這里。CJ 是 Mirelo AI 的聯(lián)合創(chuàng)始人之一。Mirelo AI 剛剛宣布了一個(gè)非??鋸埖?4100 萬美元種子輪,由 A16z 和 Index Ventures領(lǐng)投。這是一筆很大的融資,而且由一些真正的頂級(jí) VC 領(lǐng)投。我覺得特別有意思的是,你們是在歐洲做一個(gè)“基礎(chǔ)模型”。所以對(duì)那些不了解的人,你能不能先快速介紹一下 Mirelo AI?

CJ:謝謝你邀請(qǐng)我。我們主要聚焦在為視頻內(nèi)容和游戲做“音頻”。所以我們現(xiàn)在做的主要是音樂和音效。我們的想法其實(shí)很簡(jiǎn)單,你把你的視頻給我,我們告訴你“哪里該用什么聲音”,并且把音頻生成出來。你可以生成音效,也可以加上音樂。

Seb Johnson:你為什么決定做這個(gè)業(yè)務(wù)?

CJ:我和我的聯(lián)合創(chuàng)始人 Florian 在 AI 研究上大概做了 10 年。所以我們一直想做 AI相關(guān)的事情。但我們倆也都是音樂人。我自己可能在斯特拉斯堡音樂學(xué)院和音樂學(xué)院體系待的時(shí)間,比我在學(xué)校待的時(shí)間還多。我彈鋼琴、管風(fēng)琴,也做一點(diǎn)作曲。Florian 則是在柏林的電子音樂圈里非常深。所以把這兩件事結(jié)合起來,是一個(gè)順理成章的選擇。

我們之前在 AWS lablet 工作,做 AI,一開始是大型視覺模型,后來做大型語言模型。我們看到在 ChatGPT 之后,所有人都開始搞大語言模型,我們就想,那我們?yōu)槭裁床粨Q個(gè)方向,做點(diǎn)別的?比如音樂和聲音。所以我們決定去做 Mirelo,而且很快我們又從“只做音樂”變成要做“視頻的全部音頻”。因?yàn)檫@里需求很大,對(duì)很多人來說這是一個(gè)很大的痛點(diǎn)。

從隱身訓(xùn)練到產(chǎn)品落地:兩大模型與 Mirelo Studio

Seb Johnson:你們公司大概兩年前成立,對(duì)吧?現(xiàn)在看到用戶主要怎么用?

CJ:首先,我們?cè)诒C軤顟B(tài)其實(shí)挺久的。因?yàn)槲覀冇?xùn)練的是自己的模型,這需要時(shí)間。一開始團(tuán)隊(duì)真的非常小,兩位創(chuàng)始人 + 一個(gè)創(chuàng)始工程師,總共三個(gè)人。所以我們先要把團(tuán)隊(duì)搭起來,再去訓(xùn)練模型。

現(xiàn)在我們有兩個(gè)模型:

1. 音樂模型(music model)

2. “視頻到音效”(video-to-sound-effect)模型

我們非常開心的是,它們?cè)谠u(píng)測(cè)上表現(xiàn)得非常好。事實(shí)上,盡管我們可用的資本要少得多,即使我們面對(duì)的是一些非常大的實(shí)驗(yàn)室在這個(gè)方向競(jìng)爭(zhēng),但它們依然是同類最強(qiáng),尤其是這個(gè)“視頻到音效模型”。

我們剛剛才開始把它產(chǎn)品化,開始做 Mirelo Studio。目前最主要的用例是,給 AI 視頻加音效、加配樂,有時(shí)也加音樂軌?,F(xiàn)在主要是 AI 視頻創(chuàng)作者在用我們的軟件。但長(zhǎng)期目標(biāo)是,為任何視覺、視頻內(nèi)容提供音頻,之后也會(huì)做游戲。未來我們也希望它能被專業(yè)人士使用,不只是 AI 創(chuàng)作者。

為什么要自建模型,而不是用多模態(tài)堆棧

Seb Johnson:你們自己訓(xùn)模型,而且團(tuán)隊(duì)很精干。為什么要自己訓(xùn)而不是用現(xiàn)成的多模態(tài)技術(shù)棧?

CJ:兩年前幾乎沒有音頻模型,所以幾乎沒得選。但對(duì)我們來說,這反而是非常好的事。因?yàn)槟銓W⒃谝纛l上,就有機(jī)會(huì)真的做出一個(gè)“真正的模型”。原因是這個(gè)領(lǐng)域研究更少,其他實(shí)驗(yàn)室關(guān)注也更少,尤其是音效和音樂?,F(xiàn)在稍微熱起來一點(diǎn),但音效依然是非常小的方向,兩年前更小。所以如果你想要一個(gè)好的音效、音樂模型,我們必須自己做。這是我們的模式而且它是一個(gè)很大的機(jī)會(huì)。

Seb Johnson:我讀到你們的模型很輕量,算力需求比典型大語言模型少?50 倍。你們?cè)趺醋龅降模?/p>

CJ:音頻的另一個(gè)大優(yōu)勢(shì)是,這些模型通常就更小。當(dāng)然我們也在投入,讓它更高效。關(guān)鍵在于你用的編碼器,可以理解成音頻的分詞器。也就是你如何表示音頻,讓機(jī)器能讀。如果你能更高效地編碼音樂,你的模型就能更高效。但最主要的原因是,音頻模型本來就比大語言模型小很多。

比如多數(shù) text-to-speech 模型的參數(shù)量通常在 10 億到 100 億(1–10 billion),而不是那種萬億級(jí)。所以這也是為什么做這個(gè)方向很合理,你不會(huì)遇到大語言模型那種瘋狂的算力開銷。

音樂背景的作用:動(dòng)機(jī)、招聘、表征視角

Seb Johnson:你和你聯(lián)合創(chuàng)始人的音樂背景在訓(xùn)練模型和開發(fā)音頻上起到什么作用?

CJ:它是巨大的動(dòng)力。創(chuàng)業(yè)需要激情,確實(shí)像大家說的是“過山車”。沒有內(nèi)在動(dòng)力的話,會(huì)非常困難。而且它對(duì)招聘也幫助很大。很多 AI 科學(xué)家其實(shí)都很喜歡音樂。自己是音樂人,或者工作時(shí)聽很多音樂。所以當(dāng)你告訴他們,你可以來歐洲,在一家訓(xùn)練自己“基礎(chǔ)模型”的公司工作,把 AI 和音樂結(jié)合起來,很多人會(huì)非常喜歡。而且在歐洲這種機(jī)會(huì)不多,所以也幫我們招到非常優(yōu)秀的人。

如果你做過很多音樂,你會(huì)有某種視角。你會(huì)用和聲、表征方式去思考,你知道音樂在樂譜里怎么被表示。這也會(huì)影響你怎么構(gòu)建架構(gòu)、怎么表示音樂。而“音樂表征”其實(shí)是你訓(xùn)練模型時(shí)核心 IP 的一部分。

4100 萬美元種子輪:投資人為什么投

Seb Johnson:談到招聘和在歐洲構(gòu)建,你們有沒有想過把團(tuán)隊(duì)搬去別的地方,比如被認(rèn)為技術(shù)人才更密集的地區(qū)?

CJ:沒有那種“更好的地方”。很多人說這話的時(shí)候指的是舊金山、西海岸。但為什么要把技術(shù)團(tuán)隊(duì)放在西海岸?你完全可以放在歐洲。歐洲的科學(xué)家同樣優(yōu)秀??赡苊芏鹊鸵稽c(diǎn),但他們的去處也更少,所以當(dāng)你是少數(shù)在做這件事的公司,你在歐洲反而選擇更多。而且在歐洲被挖人的情況也少很多。我和舊金山的創(chuàng)始人聊天,他們經(jīng)常講“挖人故事”,太夸張了。歐洲也有,但規(guī)模小很多。

所以在技術(shù)團(tuán)隊(duì)這塊,我看不到把它放在舊金山的巨大優(yōu)勢(shì)。我不排除未來在那邊建團(tuán)隊(duì),但從根本上看,優(yōu)勢(shì)不明顯。不過如果你談 go to market 就不一樣,那里創(chuàng)業(yè)公司更集中,從市場(chǎng)角度確實(shí)很有意思。但對(duì)技術(shù)團(tuán)隊(duì)來說,歐洲足夠了。歐洲經(jīng)常缺的只是資本。

Seb Johnson:你們拿了 4100 萬美元種子輪,Index?Ventures和 A16z 共同領(lǐng)投。是什么讓他們有信心?

CJ:本質(zhì)上就是技術(shù)和團(tuán)隊(duì)。因?yàn)槲覀冇脴O其小的投入,相對(duì)于訓(xùn)練基礎(chǔ)模型來說是“荒謬般地小”,訓(xùn)練出了一個(gè)在 benchmark 上領(lǐng)先的東西,而且領(lǐng)先很多。甚至對(duì)比一些大公司,比如 Tencent、Sony 的模型等等。“小團(tuán)隊(duì)也能做前沿模型”會(huì)成為未來嗎(音頻 vs LLM 的競(jìng)爭(zhēng)邏輯)

Seb Johnson:這會(huì)是未來嗎?我們看到很多新聞,比如 OpenAI 拉響紅色警報(bào),以及其他大模型追趕他們。你們卻用更小更精干的團(tuán)隊(duì)和更少資本做出了領(lǐng)先模型。你覺得這會(huì)是所有前沿模型的未來嗎?

CJ:我不確定是不是所有前沿模型都這樣,但至少在音頻上,很可能會(huì)保持這種狀態(tài)。因?yàn)橐纛l模型的規(guī)模并沒有在爆炸式增長(zhǎng)。也就是說,把模型做得更大并不會(huì)帶來明顯收益。這和大語言模型很不同,LLM 很大程度上就是數(shù)據(jù)集有多大、數(shù)據(jù)中心有多大、模型就能有多大,模型越大就越強(qiáng)。所以 LLM 的競(jìng)爭(zhēng)主要就是,誰能融更多錢建更大的數(shù)據(jù)中心、訓(xùn)更大的模型。

音頻不是這樣。音頻的好處是你競(jìng)爭(zhēng)的不是資本規(guī)模,而是你研發(fā)模型的能力。這更不資本密集,讓創(chuàng)業(yè)公司也更有機(jī)會(huì)和大實(shí)驗(yàn)室對(duì)抗。大廠失去了它的主要優(yōu)勢(shì),也就是它們有幾百億的現(xiàn)金流可以砸數(shù)據(jù)中心。因?yàn)樵谝纛l里,這個(gè)優(yōu)勢(shì)不怎么管用。

商業(yè)化路徑:B2C Studio + B2B API;“音頻是視頻的一半”

Seb Johnson:往前看,你說你們要開始把產(chǎn)品推向市場(chǎng)。會(huì)怎么合作?直面消費(fèi)者、還是和大公司合作?你們的路徑是什么?

CJ:兩條路都做。一方面我們有 Mirelo Studio,直面消費(fèi)者?,F(xiàn)在它的目標(biāo)用戶是 AI 創(chuàng)作者、普通消費(fèi)者、不是聲音專業(yè)人士但需要為視頻做高質(zhì)量聲音的人。長(zhǎng)期我們也希望它能服務(wù)專業(yè)人士。給他們新的工作方式,減少手動(dòng)對(duì)齊同步帶來的痛苦,同時(shí)保留“反復(fù)迭代聲音”的樂趣。

但目前還需要一些研發(fā):

我們需要更多編輯能力(editing capabilities)

可能還要提升音質(zhì),因?yàn)槲覀儸F(xiàn)在還沒到 Dolby Digital 那種級(jí)別,這些都會(huì)逐步實(shí)現(xiàn)。

這也有點(diǎn)像 AI 視頻生成的發(fā)展,一開始只是 text-to-video 或者 image-to-video,控制很少;現(xiàn)在新一代模型開始有更多編輯能力,比如改某個(gè)對(duì)象、替換物體等等。這些“編輯能力”未來也會(huì)出現(xiàn)在音頻里。我們從現(xiàn)在的基礎(chǔ)能力,你給視頻我們生成所有聲音再進(jìn)化到加入編輯能力,它會(huì)覆蓋從 AI 創(chuàng)作者、愛好者到專業(yè)工作室的更廣人群。

然后我們還有 API,我們也非常愿意把模型賣給其它平臺(tái),尤其是各種 AI 視頻生成平臺(tái)。我認(rèn)為他們應(yīng)該把音頻當(dāng)成一個(gè)獨(dú)立層,而不是視頻的“附屬品”。因?yàn)橐纛l是視頻的 50%。說這句話的人是 George Lucas,聲音至少占電影體驗(yàn)的 50%。

這完全正確,因?yàn)槁曇魶Q定氛圍和情緒。你搞錯(cuò)聲音,觀眾會(huì)感受到完全錯(cuò)誤的情緒。同一個(gè)視頻,你只要換聲音,氛圍就能完全改變。

所以你必須把音頻當(dāng)成獨(dú)立的東西來做。當(dāng)然,未來的視頻模型可能會(huì)開始帶一點(diǎn)聲音,但這對(duì)我們不改變什么。因?yàn)槁曇艨偸切枰鳛榈诙觼硭伎?、迭代、編輯、修改。人的耳朵?duì)聲音極其敏感,因?yàn)槲覀円灿寐曇艚涣?。歷史上電影行業(yè)一直如此,先拍畫面,盡量減少現(xiàn)場(chǎng)聲,然后用一整套不同的軟件、擬音師等,再把音頻層加上去,因?yàn)橐纛l層決定你想要的氛圍。我認(rèn)為這不會(huì)改變。我們希望擁有這段技術(shù)棧的那一部分。但如果視頻生成公司想把這第二部分也集成到他們的平臺(tái)里,我們也很樂意讓他們接入我們的模型。

音效 vs 音樂:團(tuán)隊(duì)規(guī)模、先后順序、牽引力

Seb Johnson:你們會(huì)同等重視音效和音樂嗎?還是先主攻音效,再兼顧音樂?

CJ:我們大概只有 10 人,所以必須聚焦。一開始我們更從音樂做起,因?yàn)閯?chuàng)始人最有激情,團(tuán)隊(duì)里最早的成員很多也是音樂人。但很快我們發(fā)現(xiàn)音效的需求也很大,因?yàn)閹缀鯖]有人做這個(gè)。而且結(jié)果是,我們?cè)谝粜汐@得了最多用戶牽引和增長(zhǎng)勢(shì)能,也可能因?yàn)檫@最能讓我們差異化。

我們現(xiàn)在有一個(gè)模型,你給我視頻,我們?cè)趲酌雰?nèi)(比實(shí)時(shí)還快)生成這段視頻的所有音效。比如狗叫、天上的海鷗、開過去的車等等。我們也會(huì)自動(dòng)把這些聲音和畫面同步。這就是我們現(xiàn)在增長(zhǎng)最大的點(diǎn),所以我們先聚焦這個(gè)。但有了這筆新資金后,我們終于可以招人,同時(shí)推進(jìn)不同方向的技術(shù)工作。我們想擁有“所有音頻”,音樂是一部分,音效是一部分,所以兩邊都會(huì)做。招人計(jì)劃:研究、產(chǎn)品、商業(yè)化三條線Seb Johnson:當(dāng)團(tuán)隊(duì)從 10 人擴(kuò)到 20、30、40、50……你們最先會(huì)招哪些人?

CJ:所有方向都要招。公司核心一直是技術(shù),我們?cè)谝纛l上的技術(shù)和 know-how。所以我們肯定要擴(kuò)模型團(tuán)隊(duì),研究科學(xué)家至少要把人數(shù)翻倍,甚至三倍。但現(xiàn)在有了技術(shù),我們也要把 M Studio 做得更酷、更好,甚至做更多產(chǎn)品。

產(chǎn)品團(tuán)隊(duì)現(xiàn)在只有 2 個(gè)人,我們希望很快做到至少 6 個(gè)人,然后再看是否需要更多。第三塊是 go to market,營(yíng)銷、增長(zhǎng)、可能還有銷售。因?yàn)槲覀冑u兩樣?xùn)|西,M Studio(偏 B2C)和 API(偏 B2B)。還有隨著規(guī)模擴(kuò)大,你還需要一切公司運(yùn)轉(zhuǎn)所需的職能。

未來 18–24 個(gè)月成功標(biāo)準(zhǔn):讓市場(chǎng)理解“音頻的重要性”

Seb Johnson:往前看,未來 18–24 個(gè)月要成功,需要什么事情發(fā)生?

CJ:我們希望看到越來越多的人在用 Mirelo Studio 但我覺得我們真正會(huì)贏,是當(dāng)人們理解,音頻對(duì)視頻有多重要。

今天大多數(shù)人并沒有意識(shí)到這一點(diǎn)。音頻總是被當(dāng)成“最后才想起的東西”,無論是 AI 視頻創(chuàng)作者還是 YouTuber,你先想內(nèi)容、故事、拍攝……到流程很后面你才突然想起,我還需要音頻,我還需要配樂。而且這通常是那個(gè)“很煩、你又不會(huì)做、但你必須在兩天內(nèi)解決”的部分。因?yàn)槟銉商旌缶鸵l(fā)布視頻。

但這很荒謬,因?yàn)槿绻娴氖恰俺晒Φ囊话肴Q于音頻質(zhì)量”,那就說明大項(xiàng)目應(yīng)該更早重視它。所以像好萊塢大片、3A 游戲,其實(shí)會(huì)在很早就開始考慮音頻,游戲開發(fā)一開始就做。電影仍然是后期做,但也會(huì)花很多時(shí)間去做正確的配樂與音樂軌。

如果一年或兩年后,我們看到越來越多人開始重視音頻、理解它的重要性,那我覺得我們就贏了。因?yàn)檫@也意味著,大家能更清楚地認(rèn)識(shí)到音頻的經(jīng)濟(jì)價(jià)值。如果視頻成功的 50% 取決于聲音,那你把聲音做好,就會(huì)有更多點(diǎn)擊、更多收入。所以音頻有非常大的經(jīng)濟(jì)層面的價(jià)值。

如果我們能讓創(chuàng)作者,以及視頻生成平臺(tái)都理解,音頻超級(jí)重要,他們需要認(rèn)真思考怎么集成它,而不是當(dāng)成“事后補(bǔ)丁”,而是把它當(dāng)作視頻創(chuàng)作的第二個(gè)核心層面,那我們就贏了。因?yàn)檫@樣會(huì)有更多人需要高質(zhì)量音頻,而我們會(huì)用最強(qiáng)的模型去服務(wù)他們。

Seb Johnson:太棒了。這很有意思。你們的工作不只是做產(chǎn)品和賣產(chǎn)品,還要教育市場(chǎng)音頻到底多重要。CJ,謝謝你來。這個(gè)故事很能代表歐洲過去幾年能做出的東西,我們能在歐洲訓(xùn)練出很棒的模型,也能拿到擴(kuò)張所需的資本。祝你們好運(yùn)。

CJ:謝謝這次采訪。大家去試試我們的產(chǎn)品吧。

本文由人人都是產(chǎn)品經(jīng)理作者【深思SenseAI】,微信公眾號(hào):【深思SenseAI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!