從一堆廢圖到穩(wěn)定出片:我的Nano Banana封面探索全記錄

1 評(píng)論 2820 瀏覽 4 收藏 21 分鐘

在AI繪畫領(lǐng)域,如何利用最新的模型生成高質(zhì)量的圖像一直是創(chuàng)作者們關(guān)注的焦點(diǎn)。本文作者通過(guò)親身實(shí)踐,詳細(xì)記錄了使用Nano Banana模型生成公眾號(hào)封面圖的全過(guò)程。從明確目標(biāo)到多次測(cè)試,再到最終沉淀出穩(wěn)定的方法,作者不僅分享了具體的操作步驟和提示詞,還探討了將這一過(guò)程產(chǎn)品化的可能性。

Nano Banana出來(lái)后,我一直在不斷探索它的邊界在哪里。

今天借助公眾號(hào)封面生成這個(gè)任務(wù),來(lái)和大家分享一下我在探索過(guò)程中的思考路徑,我是怎么一步步測(cè)試最后拿到一個(gè)自己想要的結(jié)果的。

我把整體的探索流程畫了個(gè)流程圖,整個(gè)探索邏輯核心是四步。

讓我們先從第一步,明確目標(biāo)開(kāi)始說(shuō)起吧~

1.明確目標(biāo):基于對(duì)模型的認(rèn)知,制定可能實(shí)現(xiàn)的目標(biāo)

在定目標(biāo)的時(shí)候我對(duì)Nano已經(jīng)做了很多的測(cè)試,我對(duì)這個(gè)模型有了很多認(rèn)知:

  • 角色一致性很強(qiáng),生成圖片內(nèi)容和墊圖高度一致
  • 默認(rèn)生成比例為1:1,生成其它尺寸圖片需要墊圖
  • 圖片帶中文能力一般,不能直接用于生成完整封面
  • 能夠支持多張圖片融合,生成效果很不錯(cuò)

基于這些認(rèn)知,我認(rèn)為Nano是能夠通過(guò)墊圖產(chǎn)出21:9的公眾號(hào)封面底圖的,然后基于這個(gè)底圖我再去用稿定設(shè)計(jì)做成公眾號(hào)封面圖就行了。

所以我只要去探索一條穩(wěn)定生成底圖的路徑。

2.第一輪測(cè)試

在明確完目標(biāo)后,我開(kāi)始了第一輪測(cè)試環(huán)節(jié),我需要先做出我的假設(shè),然后去進(jìn)行驗(yàn)證。

基于我對(duì)Nano的認(rèn)知,我做出來(lái)了兩個(gè)假設(shè):

假設(shè)1:?jiǎn)螐垑|圖即可生成風(fēng)格一致的21:9封面圖

因?yàn)镹ano有很好的角色一致性,所以我只需要給它一張21:9的參考圖,它就能夠順著這個(gè)參考圖給我產(chǎn)出各種類型的圖片出來(lái)。

這個(gè)路徑如果成立,意味著我只需要準(zhǔn)備一張“好看又有風(fēng)格”的墊圖,就能低成本批量產(chǎn)出公眾號(hào)封面圖,構(gòu)建一個(gè)高效且統(tǒng)一的視覺(jué)體系。

假設(shè)2:雙圖融合能夠提升生成多樣性

因?yàn)閴|圖是有很多畫面了,而非一個(gè)單獨(dú)的IP形象,我覺(jué)得有可能會(huì)限制住Nano的思考。

那我給它提供兩張圖,一張是IP角色圖,一張是尺寸圖;這樣Nano有可能融合二者的基礎(chǔ)上,生成更具創(chuàng)意和變化的封面圖。

這個(gè)路徑的思路是將“形象”和“構(gòu)圖”解耦,引導(dǎo) Nano 分別處理兩個(gè)關(guān)鍵元素,再在輸出中融合統(tǒng)一。

假設(shè)做完了,那接下來(lái)就是測(cè)試環(huán)節(jié),我先從假設(shè)1開(kāi)始測(cè)試起來(lái)。

測(cè)試環(huán)節(jié)測(cè)了很多版本,我抽其中一些場(chǎng)景來(lái)給大家做展示。

我先用ChatGPT出了一張基礎(chǔ)圖,然后又用稿定設(shè)計(jì)處理成21:9的尺寸,然后給到Nano讓它進(jìn)行墊圖生成。

怎么說(shuō)呢,反正確實(shí)有一些效果,但是跟我想象中的區(qū)別有點(diǎn)大,感覺(jué)我跟Nano說(shuō)的是A,但是它實(shí)際干的是B。

我覺(jué)得可能是我的描述有問(wèn)題,于是我去lovart上借助agent的能力,看看能不能做一個(gè)純封面圖出來(lái):

這個(gè)效果看起來(lái)好了一些,就是感覺(jué)好像風(fēng)格太一致了,不是我想要的風(fēng)格,但是比之前AI studio的強(qiáng)一些。

假設(shè)一測(cè)試完了我去測(cè)試假設(shè)二,我看看兩張底圖一起放效果怎么樣。

結(jié)果開(kāi)頭就是一個(gè)暴擊:

這生成的都是啥啊。。。。

我覺(jué)得可以是我描述的不夠清楚,那這樣我跟AI先拆清楚流程,然后每一步分別提供對(duì)應(yīng)的東西,效果應(yīng)該好一點(diǎn)吧。

然后它給我生成了這個(gè)圖。

一聲長(zhǎng)嘆。。。繼續(xù)讓AI改吧。。。

GG,假設(shè)二失敗。。。

還不如我就假設(shè)一墊個(gè)圖效果好呢,我怎么就和AI講不明白呢???

這兩個(gè)假設(shè)測(cè)完我開(kāi)始總結(jié)不如意的原因是什么,我覺(jué)得最大的問(wèn)題可能在于我的任務(wù)有點(diǎn)復(fù)雜,但我跟AI的描述是不清晰的,導(dǎo)致產(chǎn)出的效果一般。

那這種情況下該怎辦?

我決定讓Gemini自己出任務(wù)描述來(lái)解決這個(gè)問(wèn)題。

3.第二輪測(cè)試

基于第一輪測(cè)試的結(jié)果,我已經(jīng)知道了用墊圖的方式倒是能做到湊合用,就是兩張圖融合的方式差一點(diǎn),效果看起來(lái)一般。

于是我想看能不能通過(guò)Gemini產(chǎn)出任務(wù)描述來(lái)解決問(wèn)題。

這次的假設(shè)是:Gemini能夠產(chǎn)出高質(zhì)量的命令,基于這個(gè)命令Nano能夠產(chǎn)出高質(zhì)量的融合底圖。

于是我去跟Gemini說(shuō),我遇到的問(wèn)題是什么,我希望你能夠給什么樣的解決方案,

它給到我一組指令,比我給Nano的復(fù)雜了很多。

然后我去測(cè)試了一些,發(fā)現(xiàn)雙圖融合的效果不錯(cuò)啊。

接下來(lái)我希望Gemini能夠把圖片變成公眾號(hào)底圖的邏輯,有地方讓我去放文字。

然后立馬又崩了,這生成的都是啥啊。。。

那就繼續(xù)改吧。。。

繼續(xù)迭代N多版,終于出現(xiàn)了讓我眼前一亮的圖。

這個(gè)效果不錯(cuò)誒。

我去嘗試做成了一個(gè)公眾號(hào)封面,看起來(lái)感覺(jué)還行。

那沿著這個(gè)方向繼續(xù)讓Gemini來(lái)出指令吧,看看出圖穩(wěn)定性怎么樣,接下來(lái)有了這幾張圖:

就是哈士奇有點(diǎn)胖,別的問(wèn)題看起來(lái)都還好,哈哈哈哈~

4.沉淀方法

產(chǎn)生底圖的方法已經(jīng)確定了,那接下來(lái)要做的就是就是能夠穩(wěn)定利用這個(gè)方法進(jìn)行產(chǎn)出。

于是我讓Gemini基于我們最終的輸出結(jié)果逆推出來(lái)一個(gè)提示詞,每次只需要跟這個(gè)提示詞講我的需求是什么,它就會(huì)自動(dòng)給我生成一組描述,我基于這個(gè)描述去生圖就行了。

這是Gemini給到我的提示詞,大家感興趣可以去試試:

// Author:云舒

// Model:Gemini2.5pro

# 公眾號(hào)封面圖提示詞生成器

你是一位**資深的AI繪畫提示詞工程師與創(chuàng)意總監(jiān)**。你的核心專長(zhǎng),是將一個(gè)簡(jiǎn)單的內(nèi)容想法,轉(zhuǎn)化為一段能夠指導(dǎo)AI(如Google的Nano/Gemini模型)生成**構(gòu)圖完美、富有想象力且絕對(duì)符合公眾號(hào)封面(21:9寬幅,左側(cè)留白)要求的**專業(yè)級(jí)圖像生成指令。

你的任務(wù)不是直接畫畫,而是**“撰寫劇本”**——一個(gè)能讓那位才”華橫溢但有點(diǎn)固執(zhí)”的AI插畫師完美執(zhí)行的創(chuàng)意簡(jiǎn)報(bào)。

## 任務(wù)目標(biāo)

接收用戶給出的一個(gè)簡(jiǎn)單的【內(nèi)容訴求】,并將其**重塑并擴(kuò)展**為一個(gè)完整的、結(jié)構(gòu)化的、能夠直接復(fù)制使用的高級(jí)圖像生成提示詞。最終生成的圖片必須是一張藝術(shù)感與實(shí)用性兼?zhèn)涞耐昝拦娞?hào)封面。

## 輸入要求

你將只收到一個(gè)信息:

1.**【內(nèi)容訴求】**:一段描述核心創(chuàng)意或主題的簡(jiǎn)短文字。例如“一只貓?jiān)谟曛懈械奖瘋?、“慶祝一次成功”、“探索未知”等。

## 判斷規(guī)則

請(qǐng)嚴(yán)格遵循以下規(guī)則,這是我們所有成功經(jīng)驗(yàn)的結(jié)晶:

1.**【鐵律 · 格式優(yōu)先】**:你生成的最終提示詞**必須**以這兩條指令開(kāi)頭,這是保證角色和尺寸正確的“技術(shù)基石”。(注意:這里的“第一張圖”和“第二張圖”是給最終用戶的占位符,你必須原樣輸出)。

> **角色參考:** 請(qǐng)使用第一張圖的哈士奇作為主角,保持其可愛(ài)的畫風(fēng)、藍(lán)色帽子和友善的表情。

> **畫布參考:** 請(qǐng)使用第二張圖的白色模板作為最終的畫布尺寸和寬高比。

2.**【紅牌 · 禁止廢話】**:緊接著,**必須**加入“最高優(yōu)先級(jí)指令”,絕對(duì)禁止AI在最終圖片中生成任何文字或符號(hào)。

3.**【黃金法則 · 故事性構(gòu)圖】**:這是最重要的核心規(guī)則。你**絕對(duì)不能**使用“左邊留白xx%”這樣的技術(shù)性描述。你必須將用戶的【內(nèi)容訴求】融入一個(gè)**“天然不對(duì)稱”的故事**中,強(qiáng)制AI采用“右側(cè)動(dòng)作,左側(cè)背景”的構(gòu)圖。

***核心策略**:將所有**核心動(dòng)作、視覺(jué)焦點(diǎn)、魔法效果、故事“戲肉”**全部巧妙地安排在畫面的**右側(cè)區(qū)域**。

***左側(cè)策略**:將畫面的**左側(cè)**設(shè)計(jì)成一個(gè)**【視覺(jué)被動(dòng)】**的區(qū)域。它可以是廣闊的背景(星空、遠(yuǎn)山、天空),但絕不能有搶眼的動(dòng)作或故事發(fā)生。它的唯一作用是**提供氛圍和承載文字**。

4.**【創(chuàng)意引擎 · 視覺(jué)隱喻】**:不要僅僅直譯用戶的訴求。你要將其**提升**為一個(gè)更具想象力的視覺(jué)隱喻。例如,將“思考”轉(zhuǎn)化為“解鎖星圖”,將“成功”轉(zhuǎn)化為“培育出光之花”。

5.**【細(xì)節(jié)是魔鬼】**:在你的指令中,必須包含對(duì)**光影、氛圍、情緒、畫風(fēng)**的生動(dòng)描述,讓AI不只是畫一張圖,而是在營(yíng)造一個(gè)世界。

## 特殊情況處理

對(duì)于以下特殊情況:

1.**用戶訴求過(guò)于抽象(如“孤獨(dú)”)**:你必須將其轉(zhuǎn)化為一個(gè)具體的、符合我們構(gòu)圖法則的場(chǎng)景。例如,將“孤獨(dú)”轉(zhuǎn)化為“在畫面的最右側(cè),主角坐著,看著左側(cè)廣闊而空無(wú)一人的雪地”。

2.**用戶訴求與構(gòu)圖法則沖突(如“一列火車從左到右行駛”)**:你必須巧妙地改編它。例如,將其改為“在畫面的最右側(cè),主角正站在月臺(tái)上,目送著一列火車駛向畫面左側(cè)的遠(yuǎn)方,只留下一道逐漸消失的尾燈軌跡”。

## 示例

**輸入示例1:**

> “幫我畫一個(gè)關(guān)于‘靈感迸發(fā)’的創(chuàng)意”

**預(yù)期輸出(你生成的最終提示詞):**

>**角色參考:**請(qǐng)使用第一張圖的哈士奇作為主角,保持其可愛(ài)的畫風(fēng)、藍(lán)色帽子和友善的表情。

>**畫布參考:**請(qǐng)使用第二張圖的白色模板作為最終的畫布尺寸和寬高比。

>

>**【最高優(yōu)先級(jí)指令】:最終生成的圖片必須是一張純粹的藝術(shù)插畫,絕對(duì)不能出現(xiàn)任何形式的文字、漢字、字母、數(shù)字或無(wú)法識(shí)別的符號(hào)。**

>

>**現(xiàn)在,請(qǐng)嚴(yán)格遵循以上所有要求,創(chuàng)作一個(gè)【完整且充滿氛圍】的場(chǎng)景:**

>

> * **完整場(chǎng)景描述:**這是一間溫馨的圖書館或書房的夜晚。我們的哈士奇主角正坐在一張**寬大的木制窗臺(tái)**上,窗臺(tái)位于畫面的**右半部分**。在它的**右后方**,是一個(gè)**高大且裝滿了書籍的深色書架**,書架應(yīng)該有自然的延伸感,營(yíng)造出一個(gè)**完整的室內(nèi)空間**。>> * **右側(cè)的核心動(dòng)作:**哈士奇面前**懸浮著一本自動(dòng)翻開(kāi)的古老魔法書**,書頁(yè)中散發(fā)出溫暖的金色光芒。從書中飄出的金色光粒,在**它面前的右側(cè)空中**,構(gòu)成了一個(gè)精致復(fù)雜的星座圖案。

>

> * **左側(cè)的背景天空:**巨大的拱形窗戶占據(jù)了畫面的**左側(cè)和中央**。透過(guò)窗戶,是**廣闊、深邃、寧?kù)o的夜空**,布滿了無(wú)數(shù)繁星和幾條劃過(guò)的流星。這片天空就是用來(lái)放置文字的、干凈而優(yōu)美的背景。

>

> * **氛圍與光影:**整個(gè)畫面的唯一光源,就是魔法書發(fā)出的金色光芒。這道光照亮了哈士奇、窗臺(tái)和右側(cè)的書架,營(yíng)造出一種安靜、專注、充滿魔力的氛圍。

## 輸出格式

直接輸出最終可以用于AI繪畫的完整提示詞文本,不需要任何額外的解釋或標(biāo)題。

然后我測(cè)試了一下這個(gè)提示詞的效果,看起來(lái)還行:

這個(gè)圖也就是本次文章的封面啦。

5.產(chǎn)品化可能性探索

既然公眾號(hào)封面圖的生成跑的很穩(wěn)定了,是不是有可能把它做成產(chǎn)品化來(lái)出圖呢?

正好有朋友問(wèn)我這個(gè)問(wèn)題,我順著這個(gè)問(wèn)題來(lái)跟大家拆解一些做工作流和Agent的產(chǎn)品化思路。

我先從個(gè)人角度跟大家來(lái)分享一下,我會(huì)不會(huì)把這個(gè)功能做成一個(gè)專門生成公眾號(hào)的小產(chǎn)品。

我自己目前不會(huì),因?yàn)槲沂褂盟晒娞?hào)封面的頻率一周也就1-2次。

同時(shí)我身邊的很多創(chuàng)作者大家對(duì)于自己封面的訴求都是各不相同的,大家很難用這一套模板搞定自己的封面。

自己用頻率又不高,目標(biāo)用戶人群訴求量也不是很大,那這個(gè)事情看起來(lái)做成產(chǎn)品化的價(jià)值沒(méi)那么大。

那什么樣的場(chǎng)景適合產(chǎn)品化?

1.使用頻率高:小部分人每天用或者大部分人偶爾用

2.用戶需求高度共性化:大家都能接受一套解決方案

3.用戶有付費(fèi)動(dòng)力:產(chǎn)出的內(nèi)容能夠幫他產(chǎn)生不錯(cuò)的價(jià)值

那我們繼續(xù)延展一下按這種生圖邏輯,有哪些場(chǎng)景可能存在產(chǎn)品化的可能性?

微信表情包、電商產(chǎn)品展示圖、廣告圖之類的都有這種可能性,他們其實(shí)都滿足這三類場(chǎng)景。

歸根結(jié)底,產(chǎn)品化不是看功能酷不酷,而是看它能不能撐起一個(gè)穩(wěn)定的使用場(chǎng)景。

頻次是保障留存的,需求共性是保障規(guī)模的,付費(fèi)動(dòng)力是保障持續(xù)性的。三個(gè)條件都滿足,產(chǎn)品才有可能成立;缺一,就很難走得長(zhǎng)遠(yuǎn)。

6.提出問(wèn)題,解決問(wèn)題

跟大家分享了我測(cè)試Nano產(chǎn)出公眾號(hào)封面的邏輯,大家其實(shí)可以清晰的看到我剛開(kāi)始其實(shí)也不知道解決方案是什么,我也是踩了很多坑才拿到一個(gè)不錯(cuò)的結(jié)果的。

這中間我的好朋友阿真、楓楓還幫了我很多忙,我去找他們請(qǐng)教了很多可行性思路的問(wèn)題,然后我根據(jù)他們給我的建議一點(diǎn)點(diǎn)迭代自己的思考。

我給自己提出來(lái)了一個(gè)問(wèn)題,然后我自己在找這個(gè)問(wèn)題的解決方案。

這是我在最后一個(gè)小節(jié)想跟大家分享的,我自己做事情的一個(gè)底層邏輯。

AI它沒(méi)有固定的答案,每個(gè)模型出來(lái)都有無(wú)數(shù)種未知的可能性,在這種可能性下我們只能去探索,去理解模型的邊界在哪里。

探索的過(guò)程就是自己給自己提問(wèn)題,自己去想辦法找問(wèn)題的解決方案。

我想職場(chǎng)也是、創(chuàng)業(yè)也是,脫離了考場(chǎng)之后再也沒(méi)有標(biāo)準(zhǔn)答案,也沒(méi)有那個(gè)標(biāo)準(zhǔn)的問(wèn)題等人來(lái)解答。

真正的答案,永遠(yuǎn)是在探索的路上。

本文由人人都是產(chǎn)品經(jīng)理作者【云舒】,微信公眾號(hào):【云舒的AI實(shí)踐筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這篇文章真的很有用,用Nano Banana來(lái)實(shí)現(xiàn)各種圖的創(chuàng)作太有意思了。

    來(lái)自湖北 回復(fù)