騰訊開源Nano Banana,我總結(jié)了15種邪修玩法(附提示詞)

0 評論 1301 瀏覽 1 收藏 14 分鐘

騰訊把 8B 輕量大模型 Nano Banana 開源不到 72 小時,GitHub 熱榜就被中國開發(fā)者的“邪修”玩法刷爆。有人讓它 5 分鐘寫出一部 10 萬字修仙小說,有人拿它做“賽博算命”日入 3 000,還有人把提示詞改成“克蘇魯版 HR”,專幫公司“優(yōu)化”掉老板。

作為Nano Banana邪修,

哪里有好用的圖像模型,哪里就有我的身影,

這次發(fā)動了面子果實,提前拿到了騰訊混元圖像3.0的內(nèi)測!

長話短說,

混元圖像3.0是首個工業(yè)級原生多模態(tài)生圖模型,參數(shù)規(guī)模80B(又是值得我更新硬件的一天),是開源界又一個閃耀的星星啊星星。

現(xiàn)在混元官網(wǎng)已經(jīng)可以用,后續(xù)也會在元寶中逐步上線!

懂得都懂啊,這年頭,光生圖已經(jīng)不夠用了,

混元圖像3.0自帶世界知識,能推理后生成圖片,可以理解千字級別的復(fù)雜提示語,長文本文字和小文字都可以生成。

這聽起來不就是像是把Nano Banana開源了嗎?

我必須馬上來個對比,

真的沒有比這個更合適的了,能同時看到Nano Banana、GPT-4o和混元圖像3.0的效果對比,好不好一眼就知道,有沒有水分一秒就能看出來。

老規(guī)矩啊,這次的高清圖和提示語都整理好放文檔了,公眾號回復(fù)“混元3”就可以啦

熱知識,混元圖像3.0剛上線就可以限制尺寸,1:1、3:4、4:3、9:16、16:9,都是很實用的尺寸。

第一類我先考考混元圖像3.0的世界知識,首先我們需要知道什么是世界知識,

簡單來說,生圖模型的世界知識就是模型在大規(guī)模圖文訓(xùn)練中學(xué)到的關(guān)于“這個世界怎樣運作”的常識與事實,用來在看不見或沒被嚴(yán)格描述的細(xì)節(jié)上做出合理補全與推理。

也就是說,當(dāng)我沒把所有細(xì)節(jié)都說清楚時,模型仍然能給我“像真的一樣”的合理細(xì)節(jié)與布局,這部分能力就是它的世界知識。

而這一方面,我可以說混元圖像3.0目前做的是數(shù)一數(shù)二的好。

首先來個最簡單的,生成一個古代劍客的三視圖,這里混元需要了解兩個知識“什么是古代劍客”和“什么是三視圖”。很明顯,混元非常輕松的做到了,不僅正確的輸出了人物形象、做出了三個角度的展示、也保持了形象一致。而且我還能直接用混元3D做一個模型出來。

你可能以為這很簡單啊,現(xiàn)在生圖模型一般都能做得到吧,但當(dāng)我把同樣的提示語丟給nano banana時,我得到的效果是這樣的,嗯,也算是三視圖吧,但有幾個正常人畫人物三視圖會畫一個俯視圖呢,這是反一般常識的,而且人物佩劍的方向也不一致。

難度再再上升一級!我直接開始來到學(xué)術(shù)領(lǐng)域,以往我在寫論文的時候,經(jīng)常會因為想要圖解某些概念或者流程而苦惱到頭禿,這東西自己做真的太太太耗時了,不做呢文章又太單調(diào)不清晰,但現(xiàn)在混元圖像3.0可以幫我做了。

生成一張期刊風(fēng)學(xué)術(shù)插圖:白底、黑灰主色,彩色僅用于層級(嵌入/多頭注意力/FFN/殘差/LayerNorm)。要求在圖中準(zhǔn)確渲染以下中文標(biāo)簽與箭頭:

「輸入序列」→「詞嵌入/位置編碼」→「編碼器層(多頭自注意力→加殘差→層歸一化→前饋網(wǎng)絡(luò)→加殘差→層歸一化)」→「解碼器層(掩碼自注意力→交叉注意力→前饋)」→「線性層/Softmax」。角注:超參數(shù)示例 d_model=768, heads=12;圖例清晰,字體無襯線

而且如此多的文字,混元依然能保持95%以上的文字穩(wěn)定,同時讓所有的元素都在該在的位置上。這我甚至不需要和nano banana對比,畢竟它做不了中文。

為了驗證這張圖片的正確性,我特意讓Gemini評價了一下,可見混元圖像3.0的能力真的可以。

在這個基礎(chǔ)上,我甚至能完成一系列比如溫室效應(yīng)解釋、植物光合作用演示、海洋水循環(huán)、火山內(nèi)部構(gòu)造和噴發(fā)原理以及條形磁鐵的磁場展示的科普圖片制作。

這個畫面的精細(xì)程度和文字的準(zhǔn)確對應(yīng),將大大提高圖片的實用性,以后不管是給小朋友的科普或者是我們想要學(xué)習(xí)鞏固某些原理都可以用混元制作相關(guān)的圖片輔助我們學(xué)習(xí)和記憶。

那在如此強大的世界知識的支持下,混元圖像3.0對于提示語的理解和遵循能力自然也是強上又強,我直接來幾組和nano banana的對比。

(以下均為左圖混元圖像3.0,右圖nano banana)

同一盆花從早晨到夜晚的三連景:含苞→盛開→萎蔫;只有正午時有蝴蝶停駐。

這個主要測試的模型對于時態(tài)和狀態(tài)對應(yīng)的理解和執(zhí)行能力哦。一目了然,banana的花在早上沒有含苞而是直接開放了。

兩位登山者,前者在焦點上、后者虛化;前者穿黃夾克,后者紅帽子但不戴墨鏡

對于焦點和人物特征的展示,依然是混元圖像3.0展示得比較準(zhǔn)確,banana對于否定詞的識別還需要增強。

水墨與現(xiàn)代極簡融合,留白大,遠(yuǎn)山淡墨,中景亭臺小人點景,題跋落款。

提示語提到了“水墨和現(xiàn)代的融合”,很明顯混元的畫面中更具備“現(xiàn)代亭子”的極簡線條風(fēng)格,甚至還能配出書法字體的題字,而banana就只是水墨而已。

畫五只鳥:有三只停在左側(cè)同一樹枝上,另外兩只在右側(cè)天空飛行,左側(cè)三只中恰有一只是紅色,其余灰色;天空透明漸變。

這張圖兩個模型都執(zhí)行到位了,但在這個基礎(chǔ)上,我覺得混元圖像3.0的畫面精細(xì)度更高,不管是鳥還是樹枝都更漂亮。

那提到這,其實也能感受到目前混元圖像3.0的美學(xué)表現(xiàn)也還不錯,支持多種美學(xué)風(fēng)格的呈現(xiàn),能準(zhǔn)確的傳達(dá)出不同風(fēng)格的特點。

所以最后,我準(zhǔn)備玩一個終終終極挑戰(zhàn),將我們前面講到的世界知識和混元圖像3.0的長長長文本能力結(jié)合一起來,玩一組高難度的海報。

城市公共安全提示(多級標(biāo)題 + 列表 + 地鐵圖例) 畫幅:1080×1920;明黃底 + 黑字高可讀;圖標(biāo)統(tǒng)一。 主標(biāo)題: 「臺風(fēng)藍(lán)色預(yù)警|今夜至明晨」 重點提示(大字粗體): 「請減少外出,遠(yuǎn)離海邊與低洼地帶」 分項清單(帶序號與圖標(biāo)): 「1. 取消一切沿海戶外活動 2. 檢查門窗與陽臺固定物 3. 電動車停止戶外充電 4. 地鐵 2/5 號線末班車提前至 22:30」 應(yīng)急電話橫條: 「市應(yīng)急:12345|供電:95598|排水:12319」 小字提示: 「*如遇道路積水,請勿涉水行車;切勿在樹下、電線旁避雨?!?元素:警示三角徽章、地鐵圖例小卡、二維碼鏈接“實時路況”。

可以看到圖標(biāo)和標(biāo)識語精準(zhǔn)對應(yīng),大小標(biāo)題和文字內(nèi)容都完美呈現(xiàn)出來了。

黑客松(賽題 + 時間軸 + 評審標(biāo)準(zhǔn)) 畫幅:1080×1920;霓虹賽博;矩陣網(wǎng)格。 標(biāo)題: 「HACK?48 小時」 賽題方向: 「Agent 工具鏈|多模態(tài)搜索|隱私計算|小型端側(cè)模型」 時間軸: 「Day0 講解&組隊|Day1 開發(fā)|Day2 路演與頒獎」 評審標(biāo)準(zhǔn)(比例): 「技術(shù)難度 30%|產(chǎn)品價值 30%|體驗 20%|演示 20%」 獎勵: 「冠軍 ¥50,000 + 云資源|優(yōu)秀獎 若干」 元素:像素徽章、倒計時角標(biāo)、二維碼報名。

賽博風(fēng)格展現(xiàn)的很完美,同時連48小時倒計時的角標(biāo)都呈現(xiàn)出來了,這個理解能力真的不一般。

【世界遺產(chǎn)名錄·經(jīng)典案例拼貼】 世界知識:UNESCO 世界遺產(chǎn)示例(長城、馬丘比丘、吉薩金字塔、雅典衛(wèi)城等等9個世界遺產(chǎn)),注明國家與列入年份。 版式:A1橫式,等大小影像格網(wǎng) 3×3。文案: 標(biāo)題:人類的共同記憶 注:本頁為示例拼貼,版權(quán)歸原作者/機構(gòu)所有 字體:思源黑體(標(biāo)題),思源宋體(說明)。 配色:象牙白底,金色分隔線。 主視覺:高質(zhì)量剪影/貼圖(風(fēng)格統(tǒng)一)。 印刷與導(dǎo)出:CMYK;出血 3mm;圖像分辨率≥300 dpi。 細(xì)節(jié)約束:國家名中英并列;年份緊靠項目名右側(cè)小號標(biāo)注。

這是終終極case!我在提示語中只給舉出四個例子,需要混元圖像3.0自行補充全部9個世界遺產(chǎn)的名稱、所屬國家、列入年份等等關(guān)鍵信息,混元圖像3.0都一一做到了,這我能說啥,我只剩震驚了。

所以,我現(xiàn)在就在蹲蹲騰訊會不會連夜加班,

把圖生圖的功能做出來,

我假期想用啊啊啊啊啊,

挺急的。

作者 / 卡爾 & 阿湯

本文由人人都是產(chǎn)品經(jīng)理作者【null】,微信公眾號:【卡爾的AI沃茨】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!