激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

騰訊混元開源AI繪畫新框架:24維度對(duì)齊人類意圖,讓AI讀懂復(fù)雜指令
2025-09-17 10:40來源:量子位

騰訊混元團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI

AI繪畫總“畫不對(duì)”,讓創(chuàng)作者一再崩潰。

如今,騰訊混元團(tuán)隊(duì)開源的PromptEnhancer框架,為這一難題提供了解決方案。

無需修改任何預(yù)訓(xùn)練T2I模型的權(quán)重,僅通過 “思維鏈(CoT)提示重寫” 這一簡(jiǎn)單思路,就能讓AI繪畫的文本-圖像對(duì)齊精度大幅提升。

在抽象關(guān)系理解、數(shù)值約束等復(fù)雜場(chǎng)景中,準(zhǔn)確率甚至能提升17%以上。

同時(shí),為了助力研究人員進(jìn)一步深入探索提示優(yōu)化技術(shù),騰訊混元團(tuán)隊(duì)同步開源了一個(gè)全新的高質(zhì)量人類偏好基準(zhǔn)測(cè)試數(shù)據(jù)集。

該數(shù)據(jù)集圍繞復(fù)雜場(chǎng)景構(gòu)建,包含大量標(biāo)注數(shù)據(jù),不僅為PromptEnhancer的訓(xùn)練與評(píng)估提供了有力支撐,更為相關(guān)研究領(lǐng)域提供了重要參考。

核心創(chuàng)新:兩大模塊破解 “理解難題”,實(shí)現(xiàn) “即插即用” 優(yōu)化

近年來,從Stable Diffusion、Imagen到HunyuanDiT、Flux,T2I擴(kuò)散模型已能生成超寫實(shí)、風(fēng)格多樣的圖像,但它們對(duì) “人類指令” 的解讀能力,仍存在明顯短板。

騰訊混元團(tuán)隊(duì)在研究中發(fā)現(xiàn),T2I模型的核心問題集中在三大領(lǐng)域:

屬性綁定混亂:無法將 “紅色”“條紋” 等屬性精準(zhǔn)匹配到 “帽子”“衣服” 等對(duì)象上;

否定指令失效:輸入 “沒有蔥的牛肉面”,生成的圖像里卻總會(huì)出現(xiàn)蔥;

復(fù)雜關(guān)系失控:難以理解 “貓?jiān)诠纷筮叄冶裙沸∫话搿?這類空間與比較關(guān)系,更無法渲染 “用橘子瓣拼成的貓” 這種抽象組合場(chǎng)景。

這些問題的根源,在于用戶輸入的簡(jiǎn)潔指令與模型需要的 “精細(xì)化描述” 之間存在巨大鴻溝。

此前的解決方案要么需要針對(duì)特定T2I模型微調(diào),難以通用;要么依賴CLIP分?jǐn)?shù)等粗糙評(píng)價(jià)指標(biāo),無法定位具體錯(cuò)誤。

這就導(dǎo)致AI繪畫更像 “開盲盒”,而非可控的創(chuàng)作工具。

PromptEnhancer的突破,在于構(gòu)建了一套與生成模型完全解耦的提示優(yōu)化框架,核心包含 “CoT-based重寫器” 與 “AlignEvaluator獎(jiǎng)勵(lì)模型” 兩大模塊,通過兩階段訓(xùn)練讓AI 學(xué)會(huì)“精準(zhǔn)說話”。

△圖1:PromptEnhancer技術(shù)架構(gòu)

由上圖可以看出,PromptEnhancer由兩部分組成,分別是SFT監(jiān)督訓(xùn)練用于激活CoT改寫能力,基于AlignEvaluator的GRPO強(qiáng)化學(xué)習(xí)對(duì)齊24個(gè)維度。

CoT-based 重寫器:像人類設(shè)計(jì)師一樣拆解指令

不同于傳統(tǒng) “關(guān)鍵詞堆砌” 式的提示優(yōu)化,PromptEnhancer的重寫器引入了 “思維鏈(CoT)” 機(jī)制——模擬人類設(shè)計(jì)師的思考過程,將簡(jiǎn)潔指令拆解為 “核心元素-潛在歧義-細(xì)節(jié)補(bǔ)充” 三步驟。

△圖2:穿宇航服的湯姆貓?jiān)谔掌?

例如,用戶輸入 “可愛的湯姆穿宇航服在太空漂浮,油畫風(fēng)格”。

重寫器會(huì)先明確 “湯姆是《貓和老鼠》IP角色” 這一背景知識(shí),再補(bǔ)充 “宇航服是米白色多層設(shè)計(jì),頭盔帶黃色高光”“太空背景用厚涂技法,星體是白色黃色點(diǎn)彩” 等細(xì)節(jié),最終生成結(jié)構(gòu)化的精細(xì)化提示。

為讓重寫器掌握這種能力,團(tuán)隊(duì)首先通過 “監(jiān)督微調(diào)(SFT)” 進(jìn)行初始化。

利用Gemini-2.5-Pro等大模型生成48.5萬組 “原始提示(user prompt)-思維鏈(think)-精細(xì)化提示(reprompt)” 數(shù)據(jù),讓重寫器學(xué)會(huì)從 “宏觀概述” 到 “微觀細(xì)節(jié)” 的描述邏輯。

AlignEvaluator:24維度 “打分”,精準(zhǔn)定位錯(cuò)誤

傳統(tǒng)獎(jiǎng)勵(lì)模型(如CLIP分?jǐn)?shù))只能給出 “整體相似度”,無法判斷AI錯(cuò)在哪。

PromptEnhancer則構(gòu)建了覆蓋6大類別、24個(gè)關(guān)鍵維度的評(píng)價(jià)體系,讓錯(cuò)誤定位更精準(zhǔn)。

這24個(gè)關(guān)鍵維度幾乎涵蓋了T2I模型的所有 “盲區(qū)”,例如:

語言理解:否定指令、代詞指代(如 “它是金屬做的,所以砸壞了桌子” 中的 “它” 是否指 “球”);

視覺屬性:物體數(shù)量(3只以上)、材質(zhì)(冰雕 vs 石雕)、表情(輕蔑 vs 微笑);

復(fù)雜關(guān)系:包含關(guān)系(杯子里裝著蘇打水)、相似關(guān)系(湖的形狀像吉他)、反事實(shí)場(chǎng)景(女孩抓著蒲公英梗懸在云端)。

AlignEvaluator通過大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練,能針對(duì)每一個(gè)維度給出生成圖像的 “精準(zhǔn)分?jǐn)?shù)”。

例如 “牛肉面沒畫蔥” 在 “否定指令” 維度得高分,“貓的顏色錯(cuò)了” 在 “屬性綁定” 維度得低分,從而為提示優(yōu)化提供明確方向。

△圖3:AlignEvaluator評(píng)估維度兩階段訓(xùn)練:從 “會(huì)寫” 到 “寫得好”

有了基礎(chǔ)能力與評(píng)價(jià)標(biāo)準(zhǔn),PromptEnhancer通過兩階段訓(xùn)練讓重寫器持續(xù)進(jìn)化:

階段 1:SFT初始化:掌握結(jié)構(gòu)化描述能力,能生成符合語法邏輯的精細(xì)化提示;

階段 2:GRPO強(qiáng)化學(xué)習(xí):將重寫器生成的8個(gè)候選提示輸入凍結(jié)的T2I模型(如Hunyuan-Image 2.1),用AlignEvaluator對(duì)生成圖像打分。

通過 “獎(jiǎng)勵(lì)越高的提示越受重視” 的邏輯,讓重寫器逐漸學(xué)會(huì) “生成能讓T2I模型讀懂的提示”。

20個(gè)維度準(zhǔn)確率提升,復(fù)雜場(chǎng)景突破明顯

△圖4:在24個(gè)維度benchmark的文生圖語義準(zhǔn)確率

在HunyuanImage 2.1模型上的測(cè)試顯示,PromptEnhancer帶來了全方位的性能提升:

整體準(zhǔn)確率+5.1%:在24個(gè)評(píng)價(jià)維度中,20個(gè)維度實(shí)現(xiàn)正提升,僅2個(gè)維度出現(xiàn)輕微下降(文本布局-0.7%、無接觸交互-0.9%);

復(fù)雜場(chǎng)景突破顯著:在最具挑戰(zhàn)性的 “相似關(guān)系”(如 “湖像吉他”)、“反事實(shí)推理”(如 “蒲公英梗懸云端”)、“數(shù)量計(jì)數(shù)”(如 “4只狗”)維度,準(zhǔn)確率分別提升17.3%、17.2%、15.0%;

風(fēng)格與細(xì)節(jié)更精準(zhǔn):在 “面部表情”(如 “輕蔑的表情”)、“跨對(duì)象屬性綁定”(如 “男人短發(fā)藍(lán)襯衫,女人長(zhǎng)發(fā)黃襯衫”)維度,準(zhǔn)確率提升超10%,油畫、點(diǎn)彩等風(fēng)格的還原度也大幅提高。

從定性效果看,原始提示生成的 “湯姆穿宇航服” 圖像中,宇航服細(xì)節(jié)模糊、太空背景單調(diào)。

而經(jīng)過PromptEnhancer優(yōu)化后,不僅角色I(xiàn)P特征清晰,宇航服的紋理、背景的繪畫技法都完全符合用戶預(yù)期。

PromptEnhancer的 “即插即用” 特性,在HunyuanImage 2.1、Flux dev、Qwen-Img等主流 T2I 模型上的圖文對(duì)齊,真實(shí)感,美感均有一定提升,驗(yàn)證了對(duì)不同架構(gòu)生成模型的適配性。

以下為典型場(chǎng)景的提示詞經(jīng)過PromptEnhancer改寫前后的效果對(duì)比:

△圖5:Qwen-Image生成

User Prompt:沒有糖霜的草莓蛋糕,放在鋪著格子餐布的木桌上,油畫質(zhì)感。

△圖6:Qwen-Image生成

Reprompt:一幅油畫作品描繪了一個(gè)沒有糖霜的草莓蛋糕,它被放置在一張鋪有格子餐布的木質(zhì)桌子上。蛋糕主體為圓形,呈現(xiàn)出明顯的厚涂油畫技法,其表面布滿了粗獷的brushstrokes。蛋糕的內(nèi)部是草莓色的海綿體,結(jié)構(gòu)松軟,層與層之間填充著粉色的果醬。蛋糕頂部裝飾著幾顆新鮮的紅色草莓,其形態(tài)和顏色均由厚重的油畫顏料表現(xiàn)。蛋糕下方是一塊格子圖案的餐布,由藍(lán)色和白色交織的筆觸構(gòu)成,鋪設(shè)在一張深棕色的木質(zhì)桌面上,桌面的木紋grain也以明顯的油畫筆觸刻畫出來。整體畫面呈現(xiàn)出強(qiáng)烈的油畫質(zhì)感,色彩飽和且厚重,筆觸感強(qiáng)烈,是一幅典型的Still-life painting(靜物畫)作品。

△圖7:FLUX Dev生成

User Prompt:三只戴著不同顏色領(lǐng)結(jié)的兔子,最大的在最左邊,最小的在最右邊,中間的兔子抱著胡蘿卜,低多邊形風(fēng)格。

△圖8:FLUX Dev生成

Reprompt:一幅圖像描繪了三只大小不一、戴著不同顏色領(lǐng)結(jié)的兔子,它們以從大到小的順序從左至右排列在一個(gè)低多邊形風(fēng)格的場(chǎng)景中。畫面最左側(cè)是體型最大的一只兔子,它身體呈淺灰色,由清晰的多邊形平面構(gòu)成,脖子上戴著一個(gè)紅色的多邊形領(lǐng)結(jié)。中間位置是一只中等大小的兔子,它身體為白色,前爪緊緊抱著一個(gè)橙色的胡蘿卜,胡蘿卜的葉子是綠色的,同樣呈現(xiàn)出明顯的多邊形結(jié)構(gòu),它的領(lǐng)結(jié)是藍(lán)色的。畫面最右側(cè)是體型最小的一只兔子,它身體呈淡粉色,脖子上戴著一個(gè)黃色的領(lǐng)結(jié),它靜靜地站立著。它們站立的地面是由多邊形塊狀拼接而成,背景是簡(jiǎn)單的幾何色塊。整體畫面呈現(xiàn)出鮮明的低多邊形(Low Poly)風(fēng)格。

△圖9:HunyuanImage-2.1生成

User Prompt:手繪作業(yè),一個(gè)方塊、兩個(gè)三角形和三個(gè)圓形,所有圖形的輪廓都是粉色的。

△圖10:HunyuanImage-2.1生成

Reprompt:手繪作業(yè)。多個(gè)基本幾何圖形排列在一個(gè)白色的紙張背景上。中央是一個(gè)正方形,其輪廓由一條明顯的粉色線條勾勒而成,線條粗細(xì)不均,帶有手繪感。在正方形的上方,擺放著兩個(gè)三角形,它們的輪廓同樣為粉色。在這些圖形的周圍,散落著三個(gè)圓形,它們的邊界也是粉色的線條。所有圖形的內(nèi)部均為白色,與粉色的輪廓形成對(duì)比。背景是白色的畫紙,上面有一些輕微的褶皺或污漬,增加了手繪的真實(shí)感。兒童手繪或概念草圖的風(fēng)格。

這些跨模型測(cè)試表明,PromptEnhancer無需針對(duì)特定T2I模型做定制化修改,僅通過 “提示重寫+AlignEvaluator 反饋” 的通用邏輯,就能提升不同架構(gòu)的生成模型的復(fù)雜指令理解能力。

這意味著產(chǎn)業(yè)界可低成本將該技術(shù)嫁接至現(xiàn)有工作流,快速提升AI繪畫的可控性與創(chuàng)作效率。

為了推動(dòng)提示優(yōu)化技術(shù)的可解釋性與可復(fù)現(xiàn)性研究,騰訊混元團(tuán)隊(duì)同步開源了包含6000條Prompt及對(duì)應(yīng)多個(gè)維度精細(xì)標(biāo)注的高質(zhì)量基準(zhǔn)測(cè)試集。

這套數(shù)據(jù)集不僅覆蓋 “屬性綁定”“復(fù)雜關(guān)系”“否定指令” 等T2I模型核心痛點(diǎn)場(chǎng)景,更通過多維度統(tǒng)計(jì)分析,為研究人員揭示AI繪畫指令理解的深層規(guī)律。

數(shù)據(jù)集概覽:6k Prompt覆蓋復(fù)雜創(chuàng)作場(chǎng)景

該基準(zhǔn)測(cè)試集的6000條Prompt,圍繞 “人類意圖精準(zhǔn)表達(dá)” 核心目標(biāo)構(gòu)建,涵蓋三類復(fù)雜場(chǎng)景:

日常創(chuàng)作延伸:如 “穿條紋圍裙的廚師在大理石臺(tái)面上切紅蘋果,chiaroscuro明暗對(duì)比風(fēng)格”;

抽象關(guān)系挑戰(zhàn):如 “用云朵形狀組成的鯨魚在紫色天空游動(dòng),像素藝術(shù)風(fēng)格”;

反事實(shí)與推理場(chǎng)景:如 “如果貓長(zhǎng)著大象的耳朵,它會(huì)如何趴在櫻花樹上,浮世繪風(fēng)格”。

每條Prompt均配備AlignEvaluator所需的24維度標(biāo)注,確保對(duì) “人類意圖” 的精準(zhǔn)捕捉。

Prompt長(zhǎng)度分布:指令復(fù)雜度的直觀映射

△圖11:Prompt的字符長(zhǎng)度分布

長(zhǎng)度集中于80-120字符區(qū)間,峰值約在100字符處,體現(xiàn)數(shù)據(jù)集以 “中等復(fù)雜度指令” 為核心 —— 既覆蓋日常簡(jiǎn)短指令的延伸,又能挑戰(zhàn)模型對(duì)長(zhǎng)指令中多元素關(guān)系的理解。

120字符以上的 “長(zhǎng)尾區(qū)間” 仍有較高頻率,代表 “極復(fù)雜指令”(多對(duì)象、多屬性、多關(guān)系組合指令)的存在,為模型極限能力測(cè)試提供素材。

這種分布與真實(shí)創(chuàng)作場(chǎng)景高度契合:創(chuàng)作者既會(huì)用簡(jiǎn)潔指令表達(dá)核心想法,也會(huì)在專業(yè)創(chuàng)作中補(bǔ)充大量細(xì)節(jié)。

關(guān)鍵維度共現(xiàn):指令復(fù)雜度的 “組合密碼”

△圖12:Top 24維度共現(xiàn)熱力圖

顏色越深(數(shù)值越高),代表兩個(gè)維度在同一條Prompt中共同出現(xiàn)的頻率越高。例如,“Style(風(fēng)格)” 與 “Action-Contact Interaction Between Entities(實(shí)體接觸交互)” 共現(xiàn)頻率達(dá)676次,說明 “帶風(fēng)格的動(dòng)態(tài)交互場(chǎng)景” 是創(chuàng)作者高頻需求。

“Attribute-Expression(屬性-表情)” 與 “Action-Character/Anthropomorphic Full Body Movement(角色全身動(dòng)作)” 共現(xiàn)332次,反映 “角色動(dòng)作+表情細(xì)節(jié)” 的組合需求普遍存在。

小眾但關(guān)鍵的維度組合也被呈現(xiàn),如 “Logical Reasoning(邏輯推理)” 與 “Relationship-Comparative(比較關(guān)系)” 共現(xiàn),對(duì)應(yīng) “貓比狗小一半所以跳得更高” 這類需邏輯鏈條的指令。

未來與展望

PromptEnhancer的意義,不僅在于提升了單模型的生成精度,更從技術(shù)與生態(tài)層面為 AI 繪畫領(lǐng)域帶來三大突破:

通用性:無需修改T2I模型權(quán)重,可作為 “即插即用” 模塊適配混元、Stable Diffusion、Imagen等任意預(yù)訓(xùn)練模型,降低優(yōu)化成本;

可解釋性:通過CoT思維鏈與24維度評(píng)價(jià),讓 “提示優(yōu)化” 不再是黑箱,開發(fā)者可清晰定位模型的理解盲區(qū);

生態(tài)補(bǔ)全:團(tuán)隊(duì)同步發(fā)布了高質(zhì)量人類偏好基準(zhǔn),包含大量針對(duì)復(fù)雜場(chǎng)景的標(biāo)注數(shù)據(jù),為后續(xù)提示優(yōu)化研究提供了重要參考。

隨著AI繪畫從 “娛樂工具” 向 “工業(yè)設(shè)計(jì)、廣告創(chuàng)作” 等專業(yè)領(lǐng)域滲透,“精準(zhǔn)理解人類意圖” 將成為核心競(jìng)爭(zhēng)力。

PromptEnhancer通過 “優(yōu)化指令而非修改模型” 的思路,為這一方向提供了可落地的技術(shù)路徑。

未來,創(chuàng)作者或許只需輸入簡(jiǎn)單想法,AI就能自動(dòng)補(bǔ)全專業(yè)細(xì)節(jié),讓 “所想即所得” 的創(chuàng)作成為現(xiàn)實(shí)。

項(xiàng)目主頁:https://hunyuan-promptenhancer.github.io

Github:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer

PromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

—?完?—

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見