你看到的OOTD圖,可能是AI做的。
文|朗寧
編|陳梅希
八月中旬,一個低調的匿名模型悄然登陸海外AI測評平臺LMArena,沒有開發(fā)者標簽,也沒有品牌背書,只有一個奇怪的代號“Nano Banana”。
雖然看起來老實巴交的,但Nano Banana卻在平臺的Battle模式中,展現(xiàn)出驚人的圖像一致性和自然語言編輯能力,輕松擊敗了眾多知名對手。網(wǎng)友們被其一騎絕塵的硬實力折服,自發(fā)為它打上“一致性之王”和“Photoshop殺手”等標簽。
很快,Nano Banana的熱度從AI測評平臺蔓延至Reddit和Discord的技術論壇中,人們激烈討論模型本身的同時,都試圖揭開背后開發(fā)者的神秘面紗。
正當網(wǎng)友眾說紛紜、如火如荼地解謎時,谷歌AI Studio負責人Logon在X平臺發(fā)布了一個香蕉表情符號,DeepMind產品經理Naina也分享了一張香蕉藝術貼墻作品,加上谷歌以往就有將小型模型命名為Nano的歷史,答案變得呼之欲出。
當Nano Banana的熱度攀升到峰值時,谷歌終于在8月27日親自下場揭曉答案:Nano Banana正是其全新推出的圖像生成與編輯模型Gemini 2.5 Flash Image。
這場匿名模型引發(fā)的全球競猜游戲,以谷歌官宣認領而告終,但顛覆性的AI圖像狂潮,才剛剛開始。
Nano Banana風暴席卷互聯(lián)網(wǎng)
Nano Banana正式上線一周后,谷歌實驗室總裁Josh Woodward在X平臺透露,該模型全面推出后已累計完成超2億次圖像編輯,為Gemini吸引了超過1000萬新用戶,其火爆程度甚至導致谷歌內部“TPU嚴重過載,SRE警報不?!?。
洶涌而來的熱情用戶,讓Nano Banana幾乎刷屏了全球各大社交媒體,人們爭先恐后參與體驗、開發(fā)新玩法、分享傳播的盛景,不禁令業(yè)內人士發(fā)出“好像2023年ChatGPT時刻”的感嘆。
率先出圈的是Nano Banana多元素拼接的玩法,用戶可以上傳一張多元素排布圖,并給圖中每個物品打好標簽,然后在指令中下達你想要生成的圖片概述即可。
比如一位叫Travis David的用戶在X發(fā)文稱,他將13個元素排布在一張圖里上傳到Nano Banana,輕松獲得了一張堪比VOGUE雜志的時尚大片。
Travis發(fā)文中表示,目前13個元素幾乎逼近Nano Banana的上限
多元素拼接功能在海量用戶的開發(fā)下,很快出現(xiàn)各類邪修玩法。
最基礎的當屬“實現(xiàn)OOTD自由”,以往需要費勁心思扒明星同款穿搭的時尚博主們,如今只要把圖片上傳給Nano Banana,模型就能秒出穿搭清單,甚至二次元動漫角色的穿搭也能被轉化為OOTD圖。
只需要上傳圖片,提示詞是“向我展示這個人物的ootd“即可
實測過程中,刺猬公社發(fā)現(xiàn),用戶甚至可以讓Nano Banana按照指令生成某種風格的模特穿搭圖,再將生成的穿搭圖拆解為OOTD,全程僅耗時三分鐘。拆解OOTD過程中,它犯了一個小小的錯誤,導致“靴子”單品出現(xiàn)兩次,提出修改指令時,它也能“聽懂人話”,只刪掉多余元素,沒有改動圖片的其他部分。
AI生成的模特圖和OOTD,生成工具:Gemini2.5FlashImage(Nano Banana)
這個使用場景反過來同樣驚艷,對于日常真人出鏡拍攝OOTD的網(wǎng)紅模特來說,大可以省去畫全妝、找場地、擺pose等一系列為了出片所做的繁瑣工作,選一張狀態(tài)好的全身照、一張面部寫真,再把穿搭單品圖片上傳,寫真級別且無需修圖的素材轉瞬即得。
反向適用于OOTD試穿/圖源:互聯(lián)網(wǎng)
除了應用于人與物之間的圖像生成,網(wǎng)友們還發(fā)現(xiàn)Nano Banana同樣適用于人與人關系的拼貼,這讓一眾追星黨們直呼萬歲。
無論是遙不可及的好萊塢巨星,還是叱咤風云的商界巨擎,就算是叫囂著自己是火星人的馬斯克,只要一聲令(prompt)下,都得千里奔赴來跟你拍一張合照。
讓天下沒有追不到的星/圖源:互聯(lián)網(wǎng)
而更進階、也是近期最出圈的玩法,就是利用Nano Banana自制手辦。
簡單的操作是上傳自家毛孩子、明星、二次元偶像的圖片,直接下令生成適用手辦制作的圖像,Nano Banana就會給出建模圖,甚至連手辦成品的細節(jié)圖乃至視頻也能獲取。
Nano Banana制作的手辦效果圖/圖源:互聯(lián)網(wǎng)
雖然還沒有用戶實測做出手辦的分享,但刺猬公社發(fā)現(xiàn)在萬能的電商平臺上,已有商家開始承接基于Nano Banana生成圖像的手辦制作。經我們詢問,該商家表示AI生成的手辦建模圖只能作為參考,實物做出來仍有差距。
左側是用戶上傳圖片,右側是商家根據(jù)Nano Banana生成圖片制作的手辦
很多人看到這里也許已瞠目結舌,但Nano Banana的全部實力遠不止于此,比如它在地圖和建筑領域的空間推理圖像再生效果,就讓很多專業(yè)人士嘖嘖稱奇。
Nano Banana的地圖視覺推理能力之強,可以在只上傳一張平面地圖的情況下,按照用戶打的標簽和指令,平地起高樓般生成地圖對應的實景。
一位用戶在地圖上標注鳥巢,Nano Banana生成的實景/圖源:互聯(lián)網(wǎng)
相對應地,如果用戶上傳一張城市建筑實景圖,Nano Banana又能清晰地給出圖中建筑的模型圖,或者按照用戶的要求標注圖片建筑的相關信息。
在用戶指令要求下,Nano Banana可標注建筑信息/圖源:互聯(lián)網(wǎng)
不僅如此,有網(wǎng)友實測這個功能同樣適用于數(shù)碼電子產品甚至智能汽車。
右邊是模型生成的內部結構圖/圖源:互聯(lián)網(wǎng)
隨著Nano Banana的走紅,層出不窮的創(chuàng)意玩法以日為單位被開發(fā)出來,利用模型做漫畫分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫面…….
上述一切的發(fā)生只用了短短兩周時間,其爆發(fā)速度甚至超越了當年橫空出世的ChatGPT。
剝開Nano Banana的香蕉皮
剝開這款AI產品的香蕉皮,就會發(fā)現(xiàn)Nano Banana能夠風靡社交媒體,絕非僅是互聯(lián)網(wǎng)營銷的勝利,更是一場技術范式的突破。
通俗來說,Nano Banana的技術突破可以理解為一整套針對“理解-生成-保持一致-快速迭代”閉環(huán)的工程化解決方案。
在理解上,早期的AI模型往往“偏科”嚴重,ChatGPT有很強的文字讀寫能力,但不太懂圖像;而Midjourney和DALL-E 3為代表的模型,繪圖能力雖強但對文字的解讀卻很淺顯,經常把指令的需求搞錯。
原因在于這些傳統(tǒng)模型更像一個“翻譯官”,它將用戶的指令(prompt)轉化成一個中間的、抽象的數(shù)學表示,然后圖像生成模型再根據(jù)這個數(shù)學表示來繪圖。
這種單向管道式的工作原理,一方面不可避免地會在“中間表示”環(huán)節(jié)丟失大量原始指令的細微語義;另一方面,它很難原生地處理圖像輸入,當用戶上傳一張圖片進行編輯時,模型需要先將圖片“反向翻譯”成中間表示,然后再進一步繪圖。
而Nano Banana則像一個生于多語言環(huán)境的人,從訓練之初就以文本、圖像、代碼等數(shù)據(jù)給模型學習,因此它不再需要將一個模態(tài)“翻譯”成另一個模態(tài),而是天然就具有多模態(tài)語義對齊能力。正是這種在文字和圖像之間無縫絲滑的切換能力,使得用戶可以用日常對話的形式(模糊指令),無痛用嘴修圖。
Nano Banana團隊/圖源:DeepMind
Nano Banana的技術突破遠不止于此,它在交錯式生成與一致性保持上,也對傳統(tǒng)模型進行了降維打擊。
顧名思義,交錯式生成指模型能夠在一個連續(xù)的、多步驟的會話中,綜合理解所有上下文的能力,包括用戶之前下達的文字指令、上傳的圖片,以及模型自己生成的歷史結果;而一致性保持則指模型在多次生成和編輯中,保持特定主題(人物、物體、風格)的核心能力,也是AI圖像模型長期競逐的“圣杯”。
用一個例子來呈現(xiàn)Nano Banana與傳統(tǒng)模型的差距,假設任務是為哈利波特創(chuàng)作一組不同場景下的插圖。
傳統(tǒng)模型就像是與多位獨立的插畫師合作,每次下達任務前,你都需要用文字重新描述哈利的全部特征“黑頭發(fā)、綠眼睛、圓眼鏡,額頭有閃電傷疤”,但令人抓狂的是,每個插畫師對文字的理解不盡相同,最終得到的每張圖片的哈利雖然都有上述特征,但看起來并不像同一個人。
不僅如此,獨立插畫師之間對彼此的風格并不了解,如果你想讓插畫師B繪制“哈利在圖書館復習的場景,且與插畫師A負責的魁地奇球場分鏡風格一致“,這幾乎是不可能完成的任務,因為插畫師B既不知道魁地奇球場什么樣,也不知道插畫師A的風格是什么。
而Nano Banana則像一位與你長期合作的資深插畫師,你只需要在最開始工作時告訴他哈利的特征,然后就能與老友對話般輕松和流暢的方式,讓這位記憶力絕佳的藝術家,聽從你的調遣。
此外,Nano Banana還有著遠超傳統(tǒng)模型的快速迭代能力。
任何好模型若無法快速響應用戶,都會極大降低破圈與普及的潛力。在對用戶指令的響應與快速迭代上,傳統(tǒng)模型就像用打字機寫作,任何一個修改都可能需要重打整頁紙,而Nano Banana則進化到了word寫作,可以隨時刪除/修改局部,并立刻看到整篇文章(圖像)的新面貌。
Nano Banana能實現(xiàn)這一突破,不僅在于團隊將模型壓縮優(yōu)化到實際產品中以秒級響應(實測約13秒/張)返還高清圖像,上述多模態(tài)語義對齊、交錯式生成和一致性保持等優(yōu)勢的加持,也是Nano Banana對用戶指令快速響應迭代的重要原因。
顛覆、重塑與共生
從問世到席卷全球的兩周時間,Nano Banana的沖擊波同樣撼動了資本市場與產業(yè)端的神經。
谷歌發(fā)布Nano Banana當日,創(chuàng)意軟件巨頭Adobe的股價就應聲下跌約2%;比即時波動更關鍵的是長線走勢,據(jù)Business Insider報道,Adobe的股價在過去一年累計下跌了35%,主要原因之一就是極速發(fā)展的人工智能帶來的顛覆性變革。
顛覆帶來的危機感隨著網(wǎng)友不斷解鎖Nano Banana的新玩法,傳導至更多職業(yè)領域。
一位剛入行的電商服裝模特告訴刺猬公社,原本中小商家聘請模特拍攝每天成本約1500元/人,上架時間至少以周為單位,而Nano Banana能將這一整套流程壓縮至分鐘級,“如果AI生成圖像的細節(jié)繼續(xù)完善下去,未來肯定不需要這么多真人模特了”。
只要給到人物肖像圖、產品圖和簡單指令,Nano Banana就能生成商品效果圖/圖源:互聯(lián)網(wǎng)
還有很多電商攝影師、后期修圖師,乃至視覺設計師,也紛紛在社媒平臺發(fā)帖調侃稱眼看著被AI搶了飯碗,準備轉行去賣咖啡、送外賣、開滴滴。
AI在產業(yè)端造成的轟動不僅發(fā)生在圖像賽道,就在谷歌上線Nano Banana的前一天,翻譯界的最高學府蒙特雷國際研究學院宣布關閉,這家曾培養(yǎng)了大量外交官、翻譯專家和國際NGO組織負責人的頂級名校,自ChatGPT問世以來生源大幅銳減,最終陷入財務困境。
但歷史上的技術革命告訴我們,創(chuàng)新從未單純地使某個行業(yè)消亡,舊生產關系被顛覆的同時,必然伴隨產業(yè)重構和新職業(yè)的誕生。
模特行業(yè)不會消亡,但將走向分化,“批量平替”需求勢必會被AI取代,但只有人類才能表現(xiàn)出的“故事性”與“情感細節(jié)”,始終是市場的稀缺資源。
與此同時,商業(yè)攝影師、修圖師和設計師的角色也在被重塑,他們的核心價值不再局限于操控相機或軟件,而是延展到審美判斷、敘事構思和情緒引導,以及最關鍵的新能力:駕馭AI實現(xiàn)創(chuàng)作意圖。
而對于Adobe在內的工具型平臺而言,摩根士丹利分析師認為,這些應用軟件在AI時代的價值,在于提供“最后一公里”服務。
事實上,互聯(lián)網(wǎng)用戶對于圖像和文字生成的需求,無論是千人千面的多樣化程度,還是用戶基數(shù)決定的龐大且碎片化的指令數(shù)量,都決定了通用AI模型很難提供端到端的完美解決方案。
因此就像物流運輸公司負責中途貨運,最后一公里交由快遞站點配送一樣,Adobe等平臺目前也開始接入第三方基礎大模型,并基于自身的數(shù)據(jù)與資源進行后期訓練,最終打造出更貼合用戶需求、更專業(yè)的AI落地產品。
換一種視角看,這場技術浪潮并不是一場零和游戲。Nano Banana的出現(xiàn)加速了產業(yè)洗牌,但同時也在打開新的機會窗口。無論是創(chuàng)作者、設計師還是企業(yè),真正的挑戰(zhàn)并非如何抵擋AI,而是如何找到與之協(xié)作的路徑。
工業(yè)革命時期的機器擴展了人類的肌肉力量,如今的生成式AI則在延展人類的想象力和表達力?;蛟S我們正在進入一個全新的內容創(chuàng)作階段,在這里,人與AI并非對立的兩極,而是互為補充的伙伴關系。
與AI共生的時代,正緩緩拉開帷幕。
媒介合作聯(lián)系微信號|ciweimeijiejun
商務合作聯(lián)系微信號|yunlugong
如需和我們交流可后臺回復“進群”加社群