激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

6.1B打平40B Dense模型,螞蟻開源最新MoE模型Ling-flash-2.0
2025-09-17 20:38來源:機(jī)器之心

機(jī)器之心發(fā)布

今天,螞蟻百靈大模型團(tuán)隊(duì)正式開源其最新 MoE 大模型 ——Ling-flash-2.0。作為 Ling 2.0 架構(gòu)系列的第三款模型,Ling-flash-2.0 以總參數(shù) 100B、激活僅 6.1B(non-embedding 激活 4.8B)的輕量級配置,在多個(gè)權(quán)威評測中展現(xiàn)出媲美甚至超越 40B 級別 Dense 模型和更大 MoE 模型的卓越性能。

這不是一次簡單的 “模型發(fā)布”。在 “大模型 = 大參數(shù)” 的共識下,Ling-flash-2.0 用極致的架構(gòu)設(shè)計(jì)與訓(xùn)練策略,在推理速度、任務(wù)性能、部署成本之間找到了一個(gè)新平衡點(diǎn)。這不僅是 Ling 系列開源進(jìn)程中的又一重要節(jié)點(diǎn),也為當(dāng)前大模型 “參數(shù)膨脹” 趨勢提供了一種高效、實(shí)用、可持續(xù)的新路徑。

一、從 “參數(shù)軍備” 到 “效率優(yōu)先”:MoE 的下一步怎么走?

在當(dāng)前大模型競爭愈發(fā)激烈的背景下,參數(shù)規(guī)模似乎成為衡量模型能力的 “硬通貨”。但 “參數(shù)越多 = 能力越強(qiáng)” 的公式,正在失效:

訓(xùn)練成本指數(shù)級上升

推理延遲成為落地瓶頸

多數(shù)參數(shù)冗余,激活效率低

MoE(Mixture of Experts)架構(gòu)被寄予厚望:通過 “稀疏激活” 機(jī)制,用更少的計(jì)算,撬動更大的參數(shù)容量。但問題在于 —— 如何設(shè)計(jì)一個(gè) “真高效” 的 MoE?

Ling-flash-2.0 的答案是:從架構(gòu)、訓(xùn)練到推理,全棧優(yōu)化。

以小博大:6.1B 激活參數(shù),撬動 40B 性能

Ling Team 早期的關(guān)于 MoE Scaling Law(https://arxiv.org/abs/2507.17702)的研究揭示了 MoE 架構(gòu)設(shè)計(jì) scaling 的特性。在此研究工作的指導(dǎo)下,通過極致的架構(gòu)優(yōu)化與訓(xùn)練策略設(shè)計(jì),在僅激活 6.1B 參數(shù)的前提下,實(shí)現(xiàn)了對 40B Dense 模型的性能超越,用最小激活參數(shù),撬動最大任務(wù)性能。為此,團(tuán)隊(duì)在多個(gè)維度上 “做減法” 也 “做加法”:

1/32 激活比例:每次推理僅激活 6.1B 參數(shù),計(jì)算量遠(yuǎn)低于同性能 Dense 模型

專家粒度調(diào)優(yōu):細(xì)化專家分工,減少冗余激活

共享專家機(jī)制:提升通用知識復(fù)用率

sigmoid 路由 + aux-loss free 策略:實(shí)現(xiàn)專家負(fù)載均衡,避免傳統(tǒng) MoE 的訓(xùn)練震蕩

MTP 層、QK-Norm、half-RoPE:在建模目標(biāo)、注意力機(jī)制、位置編碼等細(xì)節(jié)上實(shí)現(xiàn)經(jīng)驗(yàn)最優(yōu)

最終結(jié)果是:6.1B 激活參數(shù),帶來約 40B Dense 模型的等效性能,實(shí)現(xiàn) 7 倍以上的性能杠桿。

換句話說,6.1B 的激活參數(shù),帶來了接近 40B Dense 模型的實(shí)際表現(xiàn),而在日常使用上推理速度卻提升了 3 倍以上,在 H20 平臺上可實(shí)現(xiàn)?200+ tokens/s?的高速生成,輸出越長,加速優(yōu)勢越明顯。

1/32 激活比例 + 7 倍性能杠桿,這一 “以小博大” 的背后,是 Ling 團(tuán)隊(duì)在 MoE(Mixture of Experts)架構(gòu)上的深度探索。

強(qiáng)大的復(fù)雜推理能力

為了全面評估 Ling-flash-2.0 的推理能力,螞蟻百靈大模型團(tuán)隊(duì)在模型評估中覆蓋了多學(xué)科知識推理、高難數(shù)學(xué)、代碼生成、邏輯推理、金融與醫(yī)療等專業(yè)領(lǐng)域,并與當(dāng)前主流模型進(jìn)行了系統(tǒng)對比。從下面的多個(gè)榜單分?jǐn)?shù)對比可以看出,Ling-flash-2.0 不僅優(yōu)于同級別的 Dense 模型(如 Qwen3-32B、Seed-OSS-36B),也領(lǐng)先于更大激活參數(shù)的 MoE 模型(如 Hunyuan-A13B、GPT-OSS-120B)。

尤其在以下三類任務(wù)中表現(xiàn)尤為突出:

高難數(shù)學(xué)推理:AIME 2025、Omni-MATH

得益于高推理密度語料 + 思維鏈訓(xùn)練的預(yù)訓(xùn)練策略,Ling-flash-2.0 在高難數(shù)學(xué)推理 AIME2025、Omni-MATH 數(shù)學(xué)競賽級題目中展現(xiàn)出穩(wěn)定的推理鏈路與多步求解能力。

代碼生成:LiveCodeBench、CodeForces

在功能正確性、代碼風(fēng)格、復(fù)雜度控制方面,Ling-flash-2.0 表現(xiàn)優(yōu)于同規(guī)模模型,甚至在部分任務(wù)中超越 GPT-OSS-120B。

前端研發(fā):與 WeaveFox 團(tuán)隊(duì)聯(lián)合優(yōu)化

通過大規(guī)模 RL 訓(xùn)練 + 視覺增強(qiáng)獎勵(VAR)機(jī)制,模型在?UI 布局、組件生成、響應(yīng)式設(shè)計(jì)等前端任務(wù)中,實(shí)現(xiàn)了 “功能 + 美學(xué)” 的雙重優(yōu)化。

二、不只是 “跑分”:代碼生成、前端研發(fā)、推理優(yōu)化全面突破

Ling-flash-2.0 的性能優(yōu)勢不僅體現(xiàn)在 “跑分” 上,更在多個(gè)實(shí)際應(yīng)用場景中展現(xiàn)出強(qiáng)大能力。

豐富的用例展示

1. 代碼生成與編輯

prompt1:編寫一個(gè) Python 程序,實(shí)現(xiàn)10個(gè)小球在旋轉(zhuǎn)六邊形內(nèi)部彈跳的效果。球應(yīng)受到重力和摩擦力的影響,并且必須真實(shí)地碰撞旋轉(zhuǎn)的墻壁。

prompt2:提示Traceback (most recent?call?last):File "/Users/zzqsmall/Documents/code/test.py", line?131,?in?if is_point_in_hexagon(x, y, hex_center, hex_radius):NameError: name?'is_point_in_hexagon'?is?not?defined看看哪里錯(cuò)了

prompt3:輸出下修改后的完整代碼

prompt4:需要考慮球和球之間的碰撞,再優(yōu)化下現(xiàn)在的代碼實(shí)現(xiàn)

2. 前端研發(fā)

在前端研發(fā)方面,Ling 團(tuán)隊(duì)攜手 WeaveFox 團(tuán)隊(duì),基于大規(guī)模強(qiáng)化學(xué)習(xí)全面升級 Ling-flash-2.0 的前端代碼生成能力,為開發(fā)者打造更強(qiáng)大的智能編程體驗(yàn)。

WeaveFox 生成:計(jì)算器生成

Prompt:做一個(gè)計(jì)算器,采用新粗野主義風(fēng)格,大膽用色、高對比度、粗黑邊框(3-4px)和強(qiáng)烈的陰影。通過原始的字體和略微不對稱的布局,營造一種刻意“未經(jīng)設(shè)計(jì)”的美感。按鈕應(yīng)采用粗邊框和強(qiáng)烈的色彩對比度。避免使用漸變和微妙的陰影,而應(yīng)采用鮮明大膽的設(shè)計(jì)元素。

WeaveFox 生成:旅游攻略網(wǎng)站制作

Prompt:制作一個(gè)多語言旅游攻略網(wǎng)站 - 提供不同國家和城市的旅行指南,用戶可以分享自己的旅行經(jīng)驗(yàn)和照片。

模型直出:網(wǎng)頁創(chuàng)作

Prompt:創(chuàng)作一個(gè)萬相 AIGC 模型的海外 Landing page,黑色風(fēng)格,搭配漸變紫色流動,體現(xiàn) AI 智能感,頂部導(dǎo)航包括 overview、feature、pricing、contact us

模型直出:貪吃蛇

prompt:幫我寫個(gè)貪吃蛇小游戲

3. 數(shù)學(xué)優(yōu)化求解

數(shù)獨(dú)問題

下面是一個(gè)數(shù)獨(dú)問題,請你按照步驟求解:1.?建模成運(yùn)籌優(yōu)化問題,給出數(shù)學(xué)模型。2.?編寫能夠求解的 pyomo 代碼。問題是:|_ _?_|_?_ 2|9 3?_||_ _?_|_?_?_|_?1 5||_ 4 6|_ _?_|_?_ 7|-------------------|_ 6?_|8 _?4|_ _ 9||_ _ 8|1 _ 7|6 _?_||4 _?_|2 _?9|_ 5?_|-------------------|3 _?_|_?_?_|2 9 _||7 9?_|_?_?_|_?_?_||_ 2 5|3 _?_|_?_?_|

4. CLI 接入

Ling-flash-2.0 模型可以方便的融合進(jìn)去 Qwen Code 等 CLI 服務(wù)中,只需要在環(huán)境變量(.bashrc, .zshrc)中加入以下變量

export?OPENAI_API_KEY="自己的key"export?OPENAI_BASE_URL="提供服務(wù)的url"export?OPENAI_MODEL="Ling-flash-2.0"

三、20T 語料 + 三階段預(yù)訓(xùn)練:打造高質(zhì)量基礎(chǔ)模型

Ling-flash-2.0 的優(yōu)異表現(xiàn),離不開其扎實(shí)的預(yù)訓(xùn)練基礎(chǔ)。百靈大模型團(tuán)隊(duì)構(gòu)建了一套基于統(tǒng)一數(shù)據(jù)湖寬表設(shè)計(jì)的 AI Data System,支持樣本級血緣管理,完成了 40T+ tokens 的高質(zhì)量語料處理,并從中精選出最高質(zhì)量的部分用于支持 Ling-flash-2.0 的 20T+ tokens 的預(yù)訓(xùn)練計(jì)劃。

為了充分提升模型的知識壓縮和基礎(chǔ)推理能力,百靈大模型團(tuán)隊(duì)將預(yù)訓(xùn)練分成 3 個(gè)階段:

Pre-training Stage 1:10T tokens 高知識密度語料,夯實(shí)知識基礎(chǔ)

Pre-training Stage 2:10T tokens 高推理密度語料,提升推理能力

Mid-training Stage:擴(kuò)展至 32K 上下文,引入思維鏈類語料,為后訓(xùn)練做準(zhǔn)備

訓(xùn)練過程中,關(guān)鍵超參數(shù)(如學(xué)習(xí)率、batch size)均由百靈大模型團(tuán)隊(duì)自研的 Ling Scaling Laws 給出最優(yōu)配置。此外,團(tuán)隊(duì)還創(chuàng)新性地將傳統(tǒng)的 WSD 學(xué)習(xí)率調(diào)度器替換為自研的 WSM(Warmup-Stable and Merge)調(diào)度器,通過 checkpoint merging 模擬學(xué)習(xí)率衰減,進(jìn)一步提升了下游任務(wù)表現(xiàn)。

為增強(qiáng)多語言能力,Ling 2.0 將詞表從 128K 擴(kuò)展至 156K,新增大量多語言 token,并在訓(xùn)練中引入 30 個(gè)語種的高質(zhì)量語料,顯著提升了模型的跨語言理解與生成能力。

四、后訓(xùn)練創(chuàng)新:解耦微調(diào) + 演進(jìn)式 RL,讓模型 “會思考”,也會 “說話”

高效推理能力只是起點(diǎn),百靈大模型團(tuán)隊(duì)更希望打造一款 “能思考、能共情、能對話” 的模型,實(shí)現(xiàn) “智理相濟(jì),答因境生”。

為此,團(tuán)隊(duì)設(shè)計(jì)了一套四階段后訓(xùn)練流程:

1. 解耦微調(diào)(DFT):雙模式能力奠基

通過完全解耦的系統(tǒng)提示詞設(shè)計(jì),模型在微調(diào)階段同時(shí)學(xué)習(xí) “即時(shí)回答” 與 “深度推理” 兩種模式。微調(diào)數(shù)據(jù)涵蓋數(shù)理科學(xué)、創(chuàng)意寫作、情感對話、社科哲思等多個(gè)領(lǐng)域,并引入金融建模、工業(yè)調(diào)度、供應(yīng)鏈優(yōu)化等數(shù)學(xué)優(yōu)化任務(wù),賦予模型解決實(shí)際問題的能力。

2. ApexEval:精準(zhǔn)篩選潛力模型

在 RL 前,團(tuán)隊(duì)提出 ApexEval 評測方法,聚焦模型的知識掌握度與推理深度,弱化格式和指令遵循,篩選出最具探索潛力的模型進(jìn)入強(qiáng)化學(xué)習(xí)階段。

3. 演進(jìn)式 RL:動態(tài)解鎖推理能力

在 RL 階段,模型以簡潔思維鏈為起點(diǎn),根據(jù)問題復(fù)雜度動態(tài) “解鎖” 更深層的推理能力,實(shí)現(xiàn) “遇簡速答、見難思深” 的智能響應(yīng)。

針對代碼任務(wù),團(tuán)隊(duì)統(tǒng)一采用測試用例驅(qū)動的功能獎勵機(jī)制,并創(chuàng)新引入視覺增強(qiáng)獎勵(VAR),對前端任務(wù)的 UI 渲染效果進(jìn)行美學(xué)評估,實(shí)現(xiàn)功能與視覺體驗(yàn)的協(xié)同優(yōu)化。

在開放域問答中,團(tuán)隊(duì)構(gòu)建了組內(nèi)競技場獎勵機(jī)制(Group Arena Reward),結(jié)合 RubriX 多維度評價(jià)標(biāo)準(zhǔn),有效抑制獎勵噪聲,提升模型的人性化與情感共鳴能力。

4. 系統(tǒng)支撐:高效獎勵系統(tǒng)保障訓(xùn)練質(zhì)量

后訓(xùn)練獎勵系統(tǒng)由獎勵服務(wù)調(diào)度框架、策略引擎、執(zhí)行環(huán)境三部分組成,支持異步獎勵計(jì)算、GPU 資源時(shí)分復(fù)用,支持 40K 并發(fā)執(zhí)行,為高質(zhì)量數(shù)據(jù)篩選與模型迭代提供底層保障。

結(jié)語: 高效大模型的未來,不是 “更小”,而是 “更聰明”

Ling-flash-2.0 的意義,不在于 “參數(shù)小”,而在于重新定義了 “效率” 與 “能力” 的關(guān)系。

它用 6.1B 激活參數(shù)告訴我們:模型的智能,不止于規(guī)模,更在于架構(gòu)、訓(xùn)練與推理的協(xié)同優(yōu)化。

在 “參數(shù)即能力” 的慣性思維下,百靈大模型團(tuán)隊(duì)用?Ling-flash-2.0 提供了一種可部署、可擴(kuò)展、可演進(jìn)的新范式。

即:模型的智能,不止于規(guī)模,更在于架構(gòu)、數(shù)據(jù)與訓(xùn)練策略的深度融合。

此次開源,Ling 團(tuán)隊(duì)不僅放出了 Ling-flash-2.0 的對話模型,也同步開源了其 Base 模型,為研究者和開發(fā)者提供更靈活的使用空間。

Base 模型在多個(gè)榜單上已展現(xiàn)出強(qiáng)勁性能,具備良好的知識壓縮與推理能力,適用于下游任務(wù)的進(jìn)一步微調(diào)與定制。

隨著 Ling-flash-2.0 的開源,我們有理由相信,高效大模型的時(shí)代,已經(jīng)到來。

Ling-flash-2.0 可在以下開源倉庫下載使用:

HuggingFace:https://huggingface.co/inclusionAI/Ling-flash-2.0

ModelScope:https://modelscope.cn/models/inclusionAI/Ling-flash-2.0

GitHub:https://github.com/inclusionAI/Ling-V2

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com