激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

騰訊開源混元圖像2.1!原生2K分辨率生圖,千字長文本秒懂
2025-09-12 18:11來源:量子位

鷺羽 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

AI生圖再進(jìn)化!圖像分辨率直接卷到2K。

騰訊開源混元圖像2.1(HunyuanImage2.1),畫質(zhì)直接拉滿的同時(shí),還能讀懂千字長文本,甚至中英文混搭渲染。

新一代模型在技術(shù)上全面升級(jí),不僅顯著提升圖文語義一致性和跨場景泛化能力,還能夠精細(xì)控制場景、角色姿態(tài)甚至多物體描述,達(dá)成開源生圖模型中的SOTA。

模型開源之后,在Hugging Face趨勢(shì)榜上一路飆升,目前已拿下第一名的寶座。

話不多說,先來看幾個(gè)網(wǎng)友試玩感受一下。

首先康康真實(shí)場景下的表現(xiàn),細(xì)膩的手部和臉部紋理,處理細(xì)節(jié)過關(guān)

海報(bào)制作上,文本渲染也相當(dāng)干凈。

或者搞個(gè)美洲駝的概念圖,也是輕輕松松~

還有每次必不可少的動(dòng)漫風(fēng)環(huán)節(jié):魔女宅急便(圓潤豬咪版)

可以說,混元圖像2.1更懂語義、更擅圖文、更多風(fēng)格、更高清畫質(zhì)……

所以咱們這不趕緊上手體驗(yàn)一波。

四大亮點(diǎn)

打開官網(wǎng),操作界面是醬紫的~選擇需要生成的圖像尺寸和數(shù)量,填寫prompt(上限2048),就能秒獲取超高分辨率圖像。

我們體驗(yàn)了一下,總結(jié)下來這個(gè)模型有四大亮點(diǎn)。

亮點(diǎn)1:復(fù)雜語義生成能力強(qiáng)

得益于多樣化的大規(guī)模圖文對(duì)齊數(shù)據(jù),混元圖像2.1模型對(duì)復(fù)雜語義理解能力有了顯著提升,一些長達(dá)1k tokens長度的超長復(fù)雜prompt也能輕松完成,還能實(shí)現(xiàn)多主體分別描述控制生成,且確保精確生成。

比如說,我這里想要同一頁面中既有吉卜力風(fēng)格,又有迪士尼感覺,得到的結(jié)果be like:

Prompt:一幅圖像描繪了一個(gè)寫實(shí)風(fēng)格的男孩,他的左右肩膀上各坐著一只不同風(fēng)格的動(dòng)物。畫面中央的男孩留著黑色的短發(fā),他身穿白色T恤,服裝面料具有明顯的紋理和褶皺。在他的左肩上,坐著一只吉卜力卡通風(fēng)格的橘色小貓,這只貓有著圓潤的身體、大大的耳朵和簡約的線條,色彩溫暖。在他的右肩上,坐著一只迪士尼3D動(dòng)畫風(fēng)格的金色小狗,這只狗的毛發(fā)呈現(xiàn)出渲染感十足的光澤和卷曲狀,有著大鼻子和亮晶晶的眼睛。背景是白墻。整體畫面是一幅數(shù)字繪畫作品,融合了攝影級(jí)寫實(shí)、手繪動(dòng)畫和3D渲染等多種風(fēng)格。

亮點(diǎn)2:支持中英文文字渲染、文字和畫面融合

模型能夠在圖像中自然融合中英文文字,適用于產(chǎn)品封面、插畫、海報(bào)設(shè)計(jì)等多樣化設(shè)計(jì)場景,滿足不同領(lǐng)域的需求。

想要為歪果bro設(shè)計(jì)一款匯聚中國標(biāo)志景點(diǎn)的微縮模型,有長城、佛塔還有東方明珠廣播電視塔,還得要個(gè)大寫的“China”水印。

Prompt:A hyper-realistic photograph of a glass cube diorama on a lush, mossy forest floor, illuminated by dappled sunlight. Inside the transparent cube, an intricate landscape of miniature, highly detailed landmarks and cultural icons from China are meticulously arranged. This includes both traditional and modern architecture, such as the Great Wall winding across a terrain, a classic pagoda, and the sleek form of the Oriental Pearl Tower, all surrounded by miniature greenery. At the base of the diorama, the 3D word “China” is prominently displayed in large, bold, white block letters. The background forest is softly blurred, creating a bokeh effect that directs attention to the sharp details of the diorama. The overall look is crisp, elegant, and immersive, with a shallow depth of field.

亮點(diǎn)3:適用場景豐富,具備高美學(xué)質(zhì)感

同時(shí),模型可支持生成各種風(fēng)格,如真實(shí)感人物、漫畫與搪膠手辦等,同時(shí)具備高美學(xué)品質(zhì)和視覺表現(xiàn)力。

最近社媒都被AI生成手辦刷屏了,那就試試混元圖像2.1的效果叭!賽博悟空啟動(dòng)!

Prompt:一幅超現(xiàn)實(shí)主義風(fēng)格的悟空手辦,人物漂浮在半空,身體部分化為液態(tài)銀色金屬,眼神銳利,手拿著金箍棒,背景是一條巨龍?jiān)谠旗F中盤旋,鱗片閃爍光芒,場景充滿力量感,空中有閃電。

亮點(diǎn)4:原生2K高質(zhì)量圖像生成

模型目前能夠以其他模型1k生成的消耗,高效地生成超高清2K分辨率圖像,大幅提升了出圖分辨率和可用性,尤其適合對(duì)畫質(zhì)有專業(yè)要求的應(yīng)用場景。

比如說下面生成一個(gè)小女孩的肖像照,分辨率拉滿,這下誰能分清是AI還是真實(shí)攝影?(doge)

Prompt:A close-up shot focuses on a young girl with vibrant, curly hair and a gentle expression. Her face is characterized by a light dusting of sun-kissed freckles across her nose and cheeks. She wears a dress with a colorful floral pattern and holds a freshly-picked bouquet of wildflowers, including daisies and lavender, against a softly blurred background. The image presents a realistic photography style.

那問題來了,為啥混元圖像2.1可以做到這么強(qiáng)?來看一手技術(shù)報(bào)告解讀。

創(chuàng)新技術(shù)方案提升生圖質(zhì)量

根據(jù)官方介紹,混元圖像2.1(HunyuanImage-2.1)是一個(gè)能夠生成2K(2048×2048)分辨率圖像的高效文本到圖像模型。

技術(shù)創(chuàng)新首先是訓(xùn)練數(shù)據(jù)和標(biāo)注上,通過結(jié)構(gòu)化標(biāo)注在短、中、長和超長級(jí)別提供分層語義信息,顯著增強(qiáng)了模型對(duì)復(fù)雜語義的響應(yīng)能力。

創(chuàng)新性地引入OCR專家模型和IP RAG來解決通用VLM標(biāo)注器在密集文本和世界知識(shí)描述方面的不足,而OCR信息額外使用雙向驗(yàn)證策略確保了標(biāo)注的準(zhǔn)確性。

整個(gè)架構(gòu)可以包括兩個(gè)階段:

基礎(chǔ)文本到圖像模型:

使用了32x的高壓縮率的VAE, 大幅減少了DiT模型的輸入token數(shù)量, 同樣生成一張2K圖,token數(shù)量只有16x VAE的1/4,大幅提升了訓(xùn)練和推理的效率。

將VAE的特征空間與DINOv2特征對(duì)齊,便于使用高壓縮VAE的dit的訓(xùn)練,這顯著提高了推理效率,使得HunyuanImage 2.1生成2K圖像的時(shí)間與其他模型生成1K圖像的時(shí)間相同。

多桶、多分辨率REPA損失將DiT特征與高維語義特征空間對(duì)齊,有效加速模型收斂。

另外采用視覺-語言多模態(tài)編碼器來讓模型更好地理解場景描述、人物動(dòng)作和詳細(xì)要求,提升模型的語義對(duì)齊能力。

以及引入多語言ByT5文本編碼器,專門用于文本生成和多語言表達(dá),提升模型文字渲染的能力。

同時(shí)該階段具有170億參數(shù)的單流和雙流Diffusion Transformer。

為了優(yōu)化美學(xué)和結(jié)構(gòu)連貫性,還應(yīng)用了人類反饋強(qiáng)化學(xué)習(xí)(RLHF),引入獎(jiǎng)勵(lì)分布對(duì)齊算法,創(chuàng)新性地將高質(zhì)量圖像作為選定樣本,確保穩(wěn)定和改進(jìn)的強(qiáng)化學(xué)習(xí)結(jié)果。

精修模型:

第二階段引入了一個(gè)精修模型,進(jìn)一步提升了圖像質(zhì)量和清晰度。

此外,開發(fā)了首個(gè)系統(tǒng)性工業(yè)級(jí)改寫模型PromptEnhancer模塊,其中SFT訓(xùn)練結(jié)構(gòu)化地重寫用戶文本指令以豐富視覺表達(dá),而GRPO訓(xùn)練采用細(xì)粒度語義AlignEvaluator獎(jiǎng)勵(lì)模型來大幅提升從重寫文本生成的圖像語義。

AlignEvaluator涵蓋6個(gè)主要類別和24個(gè)細(xì)粒度評(píng)估點(diǎn),模塊支持中英文重寫,并在增強(qiáng)開源和專有文本到圖像模型的語義方面展現(xiàn)了通用適用性。

此外,還提出了一種基于MeanFlow的新型蒸餾方法,解決了標(biāo)準(zhǔn)均值流訓(xùn)練固有的不穩(wěn)定性和低效率的關(guān)鍵挑戰(zhàn)。

這種方法能夠僅用少量采樣步驟生成高質(zhì)量圖像,這也是MeanFlow在工業(yè)級(jí)模型上的首次成功應(yīng)用。

因此混元圖像2.1展現(xiàn)了強(qiáng)大的語義對(duì)齊和跨場景泛化能力,提升了文本與圖像之間的一致性,增強(qiáng)了對(duì)場景細(xì)節(jié)、人物姿態(tài)和表情的控制,并能夠生成具有不同描述的多個(gè)物體。

開源生圖模型SOTA

為了評(píng)估模型的語義一致性,研究人員提出了一項(xiàng)基于多模態(tài)大語言模型(MLLM)的智能評(píng)測(cè)指標(biāo)SSAE(Structured Semantic Alignment Evaluation)。

該指標(biāo)將300道評(píng)測(cè)題目按12個(gè)類目提取要點(diǎn),并借助MLLM自動(dòng)比對(duì)圖像內(nèi)容與要點(diǎn)進(jìn)行評(píng)分,最終可輸出兩個(gè)結(jié)果:平均圖像準(zhǔn)確率(圖像層級(jí)的平均分?jǐn)?shù))和全局準(zhǔn)確率(所有要點(diǎn)的平均得分)。

結(jié)果表明,混元圖像2.1模型在語義對(duì)齊上的表現(xiàn)領(lǐng)先于開源模型,并逼近GPT-Image等閉源商業(yè)模型的效果。

在GSB評(píng)測(cè)中,混元圖像2.1也相較于閉源模型Seedream3.0勝率為-1.36%,對(duì)比開源模型Qwen-Image勝率為2.89%。

結(jié)果表明,混元圖像2.1作為開源模型,其圖像生成質(zhì)量已達(dá)到閉源商業(yè)模型相當(dāng)水平,并在同類開源模型中具備優(yōu)勢(shì),體現(xiàn)了該模型在文本生成圖像任務(wù)中的技術(shù)先進(jìn)性與實(shí)用價(jià)值。

體驗(yàn)地址:https://hunyuan.tencent.com/image/zh?tabIndex=0

huggingface鏈接: https://huggingface.co/tencent/HunyuanImage-2.1

GitHub鏈接: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評(píng)選報(bào)名開啟啦!我們正在尋找AI+時(shí)代領(lǐng)航者?點(diǎn)擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度,共設(shè)立了5類獎(jiǎng)項(xiàng),歡迎企業(yè)報(bào)名參與

一鍵關(guān)注 點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

評(píng)論1
言璃
棒棒噠支持收藏學(xué)習(xí)了真好
安徽蚌埠
5天前