12大場景一手橫測GPT Image 1.5和香蕉2,我找到OpenAI不開發(fā)布會的原因了

0 評論 814 瀏覽 0 收藏 14 分鐘

OpenAI 倉促上線 GPT Image 1.5,生圖速度提升四倍且界面煥新,卻與 Banana2 展開 12 場景世紀 PK。從中文書法、世界知識到多圖融合、分鏡生成,中文錯字多、數(shù)據(jù)準確性不足成為其短板,而 Banana2 在中文適配與邏輯性上更勝一籌,這場 AI 生圖較量看點十足。

還是懷念OpenAI發(fā)布會的日子,至少不會就提前兩小時發(fā)個預告,所有人熬夜等更新,這次更新的GPT Image 1.5有更強的指令遵循,更精準的圖像編輯,生成速度比之前快了四倍,而且已經(jīng)全量全用戶上線了,還上了一個新的粉粉的使用界面,這次他們放出來的cases基本就是照著Banana2來的,多文本生成,文字信息海報,世界知識等等,那我肯定要滿足他們的愿望,來一個GPT Image 1.5和Banana2世紀大PK,十二個場景一次性看爽!

先來個6*6網(wǎng)格多元素生成的地獄case熱熱身,繪制一個6×6的網(wǎng)格

創(chuàng)建一個6列×6行的網(wǎng)格,內(nèi)容如下:

第一行:希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙

第二行:螳螂、昂貴手表、浴缸、太陽鏡、彩色蝴蝶、信封

第三行:郵票、相框、熱氣騰騰的餃子、”奇跡”一詞、滑雪板、字母Z

第四行:馬桶、地鐵代幣、靜音圖標、香水瓶、蜻蜓、滑板頭盔

第五行:藍牙圖標、數(shù)字13、綠色愛心、魔方、加拿大鵝、軍用頭盔

第六行:白色小狗、救生衣、繩結(jié)、鍵盤、紙巾盒、數(shù)字14

這是Banana2的,雖然單個元素的畫風會比GPT Image 1.5順眼,但確實列數(shù)超過了,有些元素重復生成,

GPT Image 1.5,

第一局用的是GPT Image 1.5的case,第二局輪到Banana2的主場了,

生成一張3:4的圖片,畫面上方用書法寫著一首完整的《茅屋秋風所破歌》,內(nèi)容是【完整全文】,每個字上方都要標注上漢語拼音,同時畫面內(nèi)容主要用水墨畫的形式展示這首詩所表達的情景。

看來GPT Image 1.5的中文還沒訓練夠完整,中文錯字好高,反而是拼音注音的準確率還高點,

Banana2做出來的長這樣,

OK。馬上進入第三局世界知識PK,還是Banana2的主場case,這次就直接開始圖生圖了,

這是中國最高橋梁花江峽谷大橋的照片,描述這個橋梁的基本信息,圖像標題為花江峽谷大橋的中英文并有矩形框,包括尺寸,寬度,高度,主纜長度,建成日期等,保證原圖不變,信息以手寫標注的形式添加在圖中,并標在對應位置。在空白處畫出橋梁主纜的剖面原理示意和懸索橋基本原理示意。

第一眼我真的有被唬到,但我發(fā)現(xiàn)數(shù)值跟Banana2有點不太一樣,這張圖里橋面離水面的高度數(shù)據(jù)最大跨度是對的,其他的都是錯誤的。

Banana2做出來的數(shù)據(jù)的正確率高很多,

看來要降低一點難度,做點信息圖或者海報了。

還有就是我真沒有欺負GPT Image 1.5,生成過程也是會用到GPT 5.2補充知識的,所以通過經(jīng)緯度還是可以做對應地點的歷史海報的。

用一組圖,描繪公元前260年5月至10月之間,東經(jīng)112°41到113°09′,,北緯35°39′到35°59′ 發(fā)生的事情,并給出詳細的信息圖,圖上要用中文說明發(fā)生了什么事情,以及結(jié)果的重要信息

GPT Image 1.5,

Banana2,

測到現(xiàn)在感覺沒啥懸念,1.5有點壓不住2啊,OpenAI還給GPT Image 1.5列出了幾個小的質(zhì)量更新,比方說生成非常非常非常非常多的小面孔也不會崩。

成千上萬的人群聚集在上海東方明珠前。人群中每個人的臉都必須清晰可見。

Banana2做出來的長這樣,

一拉大的話從第四列的人開始臉就開始崩了

但GPT Image 1.5做出來的這個真的會偽人到我做噩夢的程度,優(yōu)化在哪了?

還有什么能測的呢?

多圖融合和精確修改還可測測看,因為ChatGPT一次只能上傳10個圖片,所以我傳了10個毛茸茸做多圖融合

一張中景照片,10 個毛茸茸的角色擠在一起,并排坐在磨損的米色布沙發(fā)上和地板上。他們都面向前方,看著放在沙發(fā)前低矮木桌上的一個復古木盒電視機。房間光線昏暗,左側(cè)窗戶透進溫暖的光線,電視發(fā)出的光芒照亮了生物的面孔和毛茸茸的質(zhì)感。背景是一個舒適、略顯雜亂的客廳,有編織地毯、擺滿舊書的書架,以及背景中的一些鄉(xiāng)村風格廚房元素。整體氛圍溫暖、舒適且充滿樂趣。

這個case就有點區(qū)分不出來哪個比較好了,兩個都有漏角色,重復生成的,GPT Image 1.5是少生成了一個,Banana2是多生成了一個,GPT Image 1.5,

Banana2,

圖像修改的話,GPT Image 1.5剛好碰上Banana2更新了,上傳圖片的時候可以畫圈,箭頭,文字來指定修改,

左側(cè)case沒找到出處,右側(cè)是@歸藏佬做的

讓GPT Image 1.5也挑戰(zhàn)一下吧,

畫面我是真沒太看出來明暗有什么變化,但是劃線花圈文字啥的確實都抹除了,換個case來看會更加明顯,三個不同顏色的圈圈成功了一個。

OpenAI也主動承認了GPT Image 1.5在風格化上會比上一代要差,想要表現(xiàn)好的話可以用提供的濾鏡,不過只有13種夠誰用啊。

再拉我也測試看看,

把圖一(柯南)轉(zhuǎn)真人,模仿圖二的風格生成一個帶2D插圖元素的真人街拍

可能是我做的時候?qū)PT Image 1.5沒抱太大期望,這把他居然是還行的,

左邊是GPT Image 1.5右邊是Banana2

把一張九宮格圖做成完整視頻目前應該是只有Sora2能做到,之前我都用Banana2做圖的,今天剛好也試試看GPT Image 1.5做的效果。

根據(jù)這張圖片推測該場景的事件時間線,以電影分鏡方式按發(fā)生順序制作成9格分鏡網(wǎng)格。

GPT Image 1.5生成的九宮格里面畫風偏了我就不挑了,問題是這個九宮格它前后有邏輯順序嗎?

Banana2做出來的邏輯性會強很多,

當然我這個沒有用原版的九宮格生成提示語,那個是會分析圖片里所有關(guān)鍵元素,強制對應真實世界里的某一個片子的。

GPT Image 1.5做出來的長這樣,也沒好多少。。。

最后我用Grok匯總了一下兩個模型的對比,就更沒想到GPT Image 1.5有啥競爭力了,可能就是生圖速度快點了,但光快也沒用啊。。。

Greg給GPT Image 1.5站臺做的case也被Banana2比下去了。

對了對了,差點忘了當時Banana2驚艷我的線稿上色的case了,

給這張漫畫頁上色并翻譯成中文放到圖中原來的位置,保持構(gòu)圖和圖片細節(jié)的一致

從左到右是原圖,Banana2,GPT Image 1.5

還有還有還有,測到停不下來了,

從專業(yè)的角度詳細解釋AI視頻生成模型的訓練原理并制作一頁蠟筆小新手繪風格的英文PPT,加入比較多的文字和案例進行輔助說明,讓蠟筆小新帶領(lǐng)大家一起學習的感覺,PPT頁面比例16:9

這一把又測到凌晨六點了,該洗洗睡了,這句話我送給我自己,也送給GPT Image 1.5,測試過程中發(fā)現(xiàn)Banana2懂中文已經(jīng)把我養(yǎng)刁了,別的缺點都可以忍,不會中文是真忍不了一點

要不要考慮學學隔壁Sora2,找點IP聯(lián)名后再來挑戰(zhàn)吧。

撰文:卡爾
本文由人人都是產(chǎn)品經(jīng)理作者【卡爾的AI沃茨】,微信公眾號:【卡爾的AI沃茨】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!