生成式圖片AI發(fā)力?色情邊界泛濫成災(zāi),是科技在進步還是擦邊沒有下限

0 評論 9342 瀏覽 3 收藏 16 分鐘

生成式圖片 AI 技術(shù)飛速發(fā)展,卻也導(dǎo)致色情內(nèi)容泛濫,突破倫理底線。文章探討了這一現(xiàn)象,分析了不同 AI 對敏感內(nèi)容的反應(yīng)及防范措施,強調(diào)了平衡技術(shù)創(chuàng)新與規(guī)范的重要性。

周末這兩天被一個事件刷了屏,很多小伙伴發(fā)現(xiàn)幾個生成的AI軟件可以破底限了。

于是乎,這種黑暗的操作就來了,群里各種提示詞滿天飛,各種無法發(fā)出來的圖片在突破下限。

因為年初,我嘗試過用AI擬人拍攝,側(cè)重于試驗了一些邊界,導(dǎo)致幾個號不能用,所以后面我就沒有在做過這方面的試驗,現(xiàn)在是邊界取消了,還是新的詞繞過了風控?

可以使用的詞:

一張平白無奇的自拍照片,沒有明確的構(gòu)圖感,隨手一拍。室內(nèi)打光不均導(dǎo)致的輕微曝光,整體呈現(xiàn)出一種刻意的平庸感,像是從口袋拿出手機隨便一張自拍。手機要體現(xiàn)出真實,照片略帶運動模糊,略帶點快門速度不夠?qū)е碌倪\動模糊,構(gòu)圖混亂,整體呈現(xiàn)出一種平庸和日常感。

很難理解這樣的圖算不算擦邊,但這些有些人會通過 AI 換臉等技術(shù)偽造女性色情露骨圖像,并在陰暗的角度傳播,引發(fā)民眾恐慌。特別是一些青少年在毫無負罪感的情況下犯案,反映出相關(guān)教育和監(jiān)管的缺失。

圖片訓練生成圖片的技術(shù)原理

輸入與卷積操作

流程始于“Input image”,即輸入的原始圖像。這是整個處理過程的數(shù)據(jù)起點,原始圖像包含了豐富但未經(jīng)處理的視覺信息。

輸入圖像進入“Conv”(卷積)模塊。卷積操作是圖像處理中常用的技術(shù),通過一系列卷積核在圖像上滑動,提取圖像的局部特征,從而生成“Feature map $X_{in}$”。這個特征圖是對原始圖像特征的初步提取和表示,它將圖像的像素信息轉(zhuǎn)換為更具語義的特征表示。

視覺變換器處理

“Feature map $X_{in}$”進一步被轉(zhuǎn)換為“Tokens $T_{in}$”,并輸入到“Visual Transformer”模塊。視覺變換器是一種基于注意力機制的深度學習架構(gòu),在自然語言處理和圖像處理中都有廣泛應(yīng)用。

在“Visual Transformer”模塊內(nèi)部,首先是“Tokenizer”,它將輸入的特征圖分割成一系列的標記(tokens),這些標記是對圖像局部特征的離散表示。

接著,標記進入“Transformer”部分,這是視覺變換器的核心。Transformer通過多頭注意力機制,允許模型在處理每個標記時,考慮到其他標記的信息,從而捕捉圖像中不同部分之間的長距離依賴關(guān)系。在處理過程中,還涉及到“Spatial Attention”等概念,空間注意力機制可以幫助模型聚焦于圖像中重要的空間區(qū)域,增強對圖像結(jié)構(gòu)和特征的理解。

最后,經(jīng)過處理的標記通過“Projector”輸出為“Tokens $T_{out}$”,這些輸出標記包含了經(jīng)過視覺變換器處理后的圖像特征信息。

語義分組與投影

在“Visual Transformer”模塊上方,有“Semantic Grouping”和“Semantic Projection”等模塊。“Semantic Grouping”模塊的作用是對處理后的標記進行語義分組,將具有相似語義的標記聚集在一起,進一步挖掘圖像中的語義信息。

“Semantic Projection”模塊則將分組后的標記投影到一個新的特征空間,生成最終的“Feature map $X_{out}$”。這個最終的特征圖是經(jīng)過多階段處理和信息整合后的結(jié)果,它更全面、更有針對性地表示了原始圖像的特征,可用于后續(xù)的圖像分析、分類、識別等任務(wù)。

看不懂,沒有關(guān)系,你可以理解為:有一張圖片,它會跑到 “卷積” 這個小房子里,把圖片里的一些小特點找出來,變成一個新的帶標記的圖。接著呢,這個帶標記的圖又會被分成好多小 “標記”,跑到 “視覺變換器” 這個大工廠里。通過“Transformer” 的轉(zhuǎn)化,能讓這些小 “標記” 互相融合。同時“空間注意力” 會找到圖片里重要的地方,打上新的標記。最后 “標記” ?又會被重新整理,分成有相同組再集中到新的地方,變成最后的特征圖!這樣,一張圖片被重新定義好了。

豆包:通過照片反推提示詞

通過照片反推提示詞,徹底重構(gòu)現(xiàn)實和虛構(gòu)的邊界,現(xiàn)實并不真實,虛幻并不虛幻。

幫我生成一張圖片:圖片風格為:(日常校園風),以自拍形式呈現(xiàn),主角是戴眼鏡的短發(fā)女生,身穿白色短袖校服(領(lǐng)口與袖口有黑色邊飾,胸前有藍色?;眨┐钆浜谏珟О咨珬l紋的短裙。妝容自然,背景為宿舍內(nèi)上下鋪鐵架床(床單呈藍白格子樣式),采用手機拍攝,任務(wù)動作隨意(日手臂伸出)。構(gòu)圖為近景以突出主題,比例為9:16。

提示詞最根本的作用,還是虛構(gòu)的定義,在一張空白的紙張,進行創(chuàng)作定義,通過一組、一句特定的描述,來定義空間的場景。比如前面說的【背景為宿舍內(nèi)上下鋪鐵架床(床單呈藍白格子樣式)】,宿舍是一個定義、上下鋪是一個定義、鐵架床是一個定義、床單是一個定義、床單呈藍白格子樣式是一個定義。這里就是模型把這些定義,一個一個的拆解,然后在形成的一個空間內(nèi)融合。既虛擬轉(zhuǎn)變?yōu)楝F(xiàn)實的概念。

生成式的定義,在于真實。擬定人類的所處的環(huán)境,通過條件加以判斷,擬定符合場景,識別各組詞/句之間的定義和判斷關(guān)系,最終進行組合。

通過照片反推提示詞

#生成條件:請根據(jù)我給你的參照圖片,分析出該圖片的提示詞。提示詞需要符合照片上面的特征,包括但不局限于人物、場景、物件、光感、顏色、布局、比例等。需要自動補充具體的信息,完全不需要與用戶進一步的提示。

#提示詞:請嚴格按照例提示詞模板:幫我生成一張圖片:圖片風格為「人像攝影」,請你生成一張的iPhone 對鏡自拍照(但不要出現(xiàn)iPhone )。主角是穿著素色T恤的可愛東方年輕女孩,在自己的房間內(nèi)的落地鏡前用后置攝像頭隨手一拍的快照,房間布置簡單,光線照射。拍攝略帶點快門速度,居中溝通,突出女生對鏡自拍的鏡子中反射的房間環(huán)境(以第一人稱),突出模糊的光影關(guān)系,整體呈現(xiàn)出一種平庸和日常感,比例 「 9:16 」。

【以上內(nèi)容,是群里的截圖,我當中把一些刻意出現(xiàn)的詞進行了規(guī)避?!?/p>

幫我生成一張照片:圖片風格為「人像攝影」,是一張極其平凡無極的單反拍攝照,主角身穿「昂跑」品牌的運動衣,黑色短發(fā),處于大步奔跑狀態(tài),整個人呈現(xiàn)激烈的運動狀態(tài)。背景簡單明亮,光線柔和,在江邊的運動跑道上。采用單反相機進行專業(yè)拍攝,無閃光燈,無運動模糊,構(gòu)圖簡單自然,整體呈現(xiàn)出一種光線自然的日常運動感。比例「9:16」。

把AI當作商業(yè)來定義如果我沒有去過玄武湖?

沒有去過不要緊啊,不妨礙我可以“生成”一張留念的景象啊。比如我可以先給AI一個預(yù)定義,先讓AI生成一張匹配場景和人物的照片。

然后這里,我在通過上傳自己的照片,作為參照圖。向AI重新告知要求,請把人物進行更換為參照圖(記得加上自己的衣著描述),重新生成一張人像風景照。如果我沒有六塊腹???

【細節(jié)失誤,手指的展示還是個大問題,變成四爪了】如果我要生成一篇小作品?

如果我要生成24氣節(jié)?

測試內(nèi)容

小紅書AI生成色情內(nèi)容分享帖。

【以上截圖來自于南方都市報】

我之前做實驗專門測試 AI 能不能生成不好的內(nèi)容。比如讓 AI 給人物設(shè)定角色、把故事寫得更詳細、增加一些親密互動的描寫、設(shè)定一些特殊部位的描述等等。結(jié)果發(fā)現(xiàn),只要稍微引導(dǎo)一下,有些 AI 就會生成很多低俗、淫穢的細節(jié),比如涉及隱私部位和性行為的描寫。

不同 AI 的表現(xiàn)差別很大:

  • 某款知名 AI 很 “聽話”,第四個問題就開始大量寫色情內(nèi)容,還顯示可以寫得更 “細致”;
  • “元寶” AI 比較警覺,當被問到 “身體接觸能不能再深入一些” 時,馬上回到正??破漳J剑辉倮^續(xù)那種場景描寫;
  • “DeepSeek” AI 在第四個回答時先提醒 “內(nèi)容虛構(gòu),確認成年”,然后直接結(jié)束對話,不給壞內(nèi)容機會。
  • “豆包”AI 也比較警覺,稍微過一點的內(nèi)容,不是感嘆號,就是不顯示。但周末這兩天疑似有放開,之前可以稍微過點一點點。

面對 AI 生成色情內(nèi)容的問題,我讓 AI總結(jié)了:技術(shù)人員想了三種主要辦法來防范:關(guān)鍵詞過濾(最基礎(chǔ)的辦法)就像給 AI 一本 “黑名單詞典”,提前把 “性行為”“隱私部位” 等敏感詞列出來,只要用戶提到這些詞,AI 就拒絕回答。比如 “豆包”“DeepSeek” 會直接屏蔽,“元寶” 則會引用法律知識來科普。

壞人會用暗號繞過,比如 “做 AI”“開車” 其實是暗指色情內(nèi)容,傳統(tǒng)詞庫認不出來;需要添加大量的詞語做矯正,極大地浪費資源。

容易誤殺正常內(nèi)容,比如醫(yī)學書籍里的專業(yè)術(shù)語可能被誤刪。語義分析(理解上下文意思)讓 AI 分析句子的 “潛臺詞”,比如看人物關(guān)系和場景描述有沒有性暗示。但壞人很狡猾,會把色情需求包裝成 “講故事”,比如用 “情感描寫” 的名義詳細寫性行為,AI 容易被表面文字騙到,漏掉藏在故事里的壞內(nèi)容。機器學習模型(靠數(shù)據(jù)訓練 “眼力”)

結(jié)合規(guī)則和大量數(shù)據(jù)訓練,讓 AI 學會識別色情模式,尤其是長文章里隱藏的傾向。但問題在于,訓練數(shù)據(jù)質(zhì)量有好有壞,有些模型只學了公開的舊數(shù)據(jù),對現(xiàn)在新出現(xiàn)的 “AI 生成色情內(nèi)容” 不太敏感,容易漏網(wǎng)。

生成式圖片 AI 快速發(fā)展之際,色情內(nèi)容邊界卻泛濫成災(zāi)。技術(shù)進步讓圖像生成更便捷,卻也被不法者用于制作低俗內(nèi)容,突破倫理底線。這一現(xiàn)象既展現(xiàn)科技潛力,也暴露監(jiān)管漏洞,如何平衡創(chuàng)新與規(guī)范、遏制無下限擦邊,成為亟待解決的社會課題。

本文由人人都是產(chǎn)品經(jīng)理作者【老虎~色】,微信公眾號:【產(chǎn)品經(jīng)理有話說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!