12大場景一手橫測GPT Image 1.5和香蕉2，我找到OpenAI不開發(fā)布會的原因了

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

12大場景一手橫測GPT Image 1.5和香蕉2，我找到OpenAI不開發(fā)布會的原因了

卡爾的AI沃茨

2025-12-17

0 評論 814 瀏覽 0 收藏

14 分鐘

OpenAI 倉促上線 GPT Image 1.5，生圖速度提升四倍且界面煥新，卻與 Banana2 展開 12 場景世紀 PK。從中文書法、世界知識到多圖融合、分鏡生成，中文錯字多、數(shù)據(jù)準確性不足成為其短板，而 Banana2 在中文適配與邏輯性上更勝一籌，這場 AI 生圖較量看點十足。

還是懷念OpenAI發(fā)布會的日子，至少不會就提前兩小時發(fā)個預告，所有人熬夜等更新，這次更新的GPT Image 1.5有更強的指令遵循，更精準的圖像編輯，生成速度比之前快了四倍，而且已經(jīng)全量全用戶上線了，還上了一個新的粉粉的使用界面，這次他們放出來的cases基本就是照著Banana2來的，多文本生成，文字信息海報，世界知識等等，那我肯定要滿足他們的愿望，來一個GPT Image 1.5和Banana2世紀大PK，十二個場景一次性看爽！

先來個6*6網(wǎng)格多元素生成的地獄case熱熱身，繪制一個6×6的網(wǎng)格

創(chuàng)建一個6列×6行的網(wǎng)格，內(nèi)容如下：

第一行：希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙

第二行：螳螂、昂貴手表、浴缸、太陽鏡、彩色蝴蝶、信封

第三行：郵票、相框、熱氣騰騰的餃子、”奇跡”一詞、滑雪板、字母Z

第四行：馬桶、地鐵代幣、靜音圖標、香水瓶、蜻蜓、滑板頭盔

第五行：藍牙圖標、數(shù)字13、綠色愛心、魔方、加拿大鵝、軍用頭盔

第六行：白色小狗、救生衣、繩結(jié)、鍵盤、紙巾盒、數(shù)字14

這是Banana2的，雖然單個元素的畫風會比GPT Image 1.5順眼，但確實列數(shù)超過了，有些元素重復生成，

GPT Image 1.5，

第一局用的是GPT Image 1.5的case，第二局輪到Banana2的主場了，

生成一張3:4的圖片，畫面上方用書法寫著一首完整的《茅屋秋風所破歌》，內(nèi)容是【完整全文】，每個字上方都要標注上漢語拼音，同時畫面內(nèi)容主要用水墨畫的形式展示這首詩所表達的情景。

看來GPT Image 1.5的中文還沒訓練夠完整，中文錯字好高，反而是拼音注音的準確率還高點，

Banana2做出來的長這樣，

OK。馬上進入第三局世界知識PK，還是Banana2的主場case，這次就直接開始圖生圖了，

這是中國最高橋梁花江峽谷大橋的照片，描述這個橋梁的基本信息，圖像標題為花江峽谷大橋的中英文并有矩形框，包括尺寸，寬度，高度，主纜長度，建成日期等，保證原圖不變，信息以手寫標注的形式添加在圖中，并標在對應位置。在空白處畫出橋梁主纜的剖面原理示意和懸索橋基本原理示意。

第一眼我真的有被唬到，但我發(fā)現(xiàn)數(shù)值跟Banana2有點不太一樣，這張圖里橋面離水面的高度數(shù)據(jù)最大跨度是對的，其他的都是錯誤的。

Banana2做出來的數(shù)據(jù)的正確率高很多，

看來要降低一點難度，做點信息圖或者海報了。

還有就是我真沒有欺負GPT Image 1.5，生成過程也是會用到GPT 5.2補充知識的，所以通過經(jīng)緯度還是可以做對應地點的歷史海報的。

用一組圖，描繪公元前260年5月至10月之間，東經(jīng)112°41到113°09′，，北緯35°39′到35°59′ 發(fā)生的事情，并給出詳細的信息圖，圖上要用中文說明發(fā)生了什么事情，以及結(jié)果的重要信息

GPT Image 1.5，

Banana2，

測到現(xiàn)在感覺沒啥懸念，1.5有點壓不住2啊，OpenAI還給GPT Image 1.5列出了幾個小的質(zhì)量更新，比方說生成非常非常非常非常多的小面孔也不會崩。

成千上萬的人群聚集在上海東方明珠前。人群中每個人的臉都必須清晰可見。

Banana2做出來的長這樣，

一拉大的話從第四列的人開始臉就開始崩了

但GPT Image 1.5做出來的這個真的會偽人到我做噩夢的程度，優(yōu)化在哪了？

還有什么能測的呢？

多圖融合和精確修改還可測測看，因為ChatGPT一次只能上傳10個圖片，所以我傳了10個毛茸茸做多圖融合

一張中景照片，10 個毛茸茸的角色擠在一起，并排坐在磨損的米色布沙發(fā)上和地板上。他們都面向前方，看著放在沙發(fā)前低矮木桌上的一個復古木盒電視機。房間光線昏暗，左側(cè)窗戶透進溫暖的光線，電視發(fā)出的光芒照亮了生物的面孔和毛茸茸的質(zhì)感。背景是一個舒適、略顯雜亂的客廳，有編織地毯、擺滿舊書的書架，以及背景中的一些鄉(xiāng)村風格廚房元素。整體氛圍溫暖、舒適且充滿樂趣。

這個case就有點區(qū)分不出來哪個比較好了，兩個都有漏角色，重復生成的，GPT Image 1.5是少生成了一個，Banana2是多生成了一個，GPT Image 1.5，