激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

LLM開源2.0大洗牌:60個(gè)出局,39個(gè)上桌,AI Coding瘋魔,TensorFlow已死
2025-09-17 14:12來源:機(jī)器之心

編輯:吳昕

卷王指南又更新了,這次還有番外篇。

開源 2.0 :變臉堪比整容

等了一百多天,懸念終于揭曉。

9?月?13?日上午,螞蟻集團(tuán)開源團(tuán)隊(duì)(「開源技術(shù)增長」)攜《?2025?大模型開源開發(fā)生態(tài)全景圖 》2.0 版,亮相上海外灘大會。

三個(gè)月前,「一場直播中的『現(xiàn)實(shí)世界的黑客松?』?(A Real-world Hackathon )」的斷言,今天依然成立——

彼時(shí)「撕拉片」記錄下生態(tài)初現(xiàn)的模樣,而今,已經(jīng)大變樣。

訪問地址:

https://antoss-landscape.my.canva.site/

這一次,全景圖收錄了?114?個(gè)項(xiàng)目(比上一版減少?21?個(gè)),覆蓋?22?個(gè)領(lǐng)域。其中,39?個(gè)是新晉項(xiàng)目,同時(shí)也有?60?個(gè)項(xiàng)目消失在舞臺,其中不乏一度高光的?Star?王者——

如?NextChat、OpenManus、FastGPT、GPT4All,因迭代遲緩、社區(qū)乏力而被后來者超越。

最?drama的,當(dāng)屬?TensorFlow?的謝幕,這位昔日巨星最終沒能抵擋?PyTorch?的攻勢,后者自此一統(tǒng)江湖。

灰色部分,即為出局的開源項(xiàng)目

整體趨勢是顯而易見:生態(tài)正在經(jīng)歷一輪劇烈洗牌。就像寒武紀(jì)的「生命大爆發(fā)」,Agent?層最為洶涌,混沌之中,各類新物種層出不窮。

另一組數(shù)據(jù),也側(cè)面印證了這一旺盛的新陳代謝——

算上被淘汰的項(xiàng)目,整個(gè)大模型生態(tài)的「中位年齡」只有?30?個(gè)月,平均壽命不足三年,是一片極度年輕的叢林。

尤其是「GPT?時(shí)刻」之后(?2022?年?10?月),62%?的項(xiàng)目才誕生,其中?12?個(gè)甚至是?2025?年的新面孔。也就是說,幾乎每個(gè)季度都能看到新人登場、舊人退場。

更夸張的是,這些年輕項(xiàng)目獲得了前所未有的關(guān)注:平均?Star?數(shù)接近?3?萬,遠(yuǎn)超以往同齡的開源項(xiàng)目。頭部前十的項(xiàng)目幾乎覆蓋了模型生態(tài)的全鏈路,是當(dāng)下最具代表性的社區(qū)力量。

最活躍的開源項(xiàng)目?Top 10

關(guān)鍵詞詞云也呼應(yīng)了這一趨勢:AI、LLM、Agent、Data成了最大、最亮的幾個(gè)字。

大模型開發(fā)生態(tài)關(guān)鍵詞?AI、LLM、Agent、Data?、Learning正是第一張圖表中所列項(xiàng)目的主要領(lǐng)域。

另一個(gè)大變樣是全景圖的分類框架。

因?yàn)榭催^?1.0?版本,所以當(dāng)我第一次看到?2.0?全景圖時(shí),最直觀的感受就是:分類架構(gòu)變得更具體、更細(xì)分:

從大而化之的?Infrastructure / Application,進(jìn)化為?AI Agent / AI Infra / AI Data?三大板塊,清晰勾勒出行業(yè)熱點(diǎn)(智能體為中心),和技術(shù)演進(jìn)的趨勢。

如果說?1.0?的框架還帶著傳統(tǒng)開源軟件生態(tài)的影子,那么?2.0?已經(jīng)透出「智能體時(shí)代」的氣質(zhì)。

最后,從全球?366,521?位開發(fā)者群像來看,中美雙雄貢獻(xiàn)超過?55%,依然是項(xiàng)目的絕對領(lǐng)導(dǎo)者,其中美國以?37.41%?的比例位居第一。

在技術(shù)領(lǐng)域的細(xì)分貢獻(xiàn)中,美國在?AI Infra?和?AI Data?上優(yōu)勢明顯。

如,AI Infra,美國貢獻(xiàn)度達(dá)?43.39%,是排名第二的中國的兩倍多;而在?AI Data?的領(lǐng)先優(yōu)勢更為明顯。

中國在具體應(yīng)用層(?AI Agent?)則表現(xiàn)接近美國,兩國貢獻(xiàn)度分別為?21.5%?和?24.62%?,這與中國開發(fā)者在?Agent?層面的投入更多密切相關(guān)。

制圖論的進(jìn)化

為什么要把方法論放在前面講?答案很簡單——哪些項(xiàng)目能夠進(jìn)入?2.0?全景圖,很大程度上取決于方法論變了。

1.0?版本的方法論是「從已知出發(fā)」——被廣泛討論的頭部項(xiàng)目,比如?PyTorch、vLLM、LangChain,再通過它們的協(xié)作和依賴關(guān)系向外延伸。

但出發(fā)點(diǎn)決定邊界:你從哪些種子項(xiàng)目出發(fā),就決定了能看見的生態(tài)范圍。那時(shí)的入選門檻是?OpenRank?(華東師范大學(xué)?X-lab?開發(fā)的開源影響力指標(biāo))月均值?≥ 10。

而?2.0?版本直接拉取?GitHub?全域項(xiàng)目的?OpenRank?排名,篩選出大模型相關(guān)項(xiàng)目,不僅大幅減少了起點(diǎn)偏見,也更敏感于新項(xiàng)目的爆發(fā)力。結(jié)果是,更多高熱度、高活躍度的項(xiàng)目被發(fā)現(xiàn),入選閾值也相應(yīng)提高到當(dāng)月?OpenRank > 50。

從這個(gè)角度說,2.0?更契合螞蟻「開源技術(shù)增長」團(tuán)隊(duì)做這件事的初衷:對內(nèi),為企業(yè)決策提供依據(jù);對外,為開源世界的「卷王們」點(diǎn)亮指南。

在這套新方法下,三大主力賽道脫穎而出:AI Coding、Model Serving 、LLMOps。

接下來,我們將從應(yīng)用層一路追溯到底層?Infra,逐一梳理這股洪流中的關(guān)鍵變化。

AI Agent?:AI Coding 瘋魔了

2.0 全景圖上的 AI Agent 已經(jīng)從一個(gè)「百寶箱」式的工具堆,演化為類似云計(jì)算的分層體系——

AI Coding、Agent Workflow Platform、Agent Framework、Agent Tool?等類別齊備,專業(yè)與清晰度大幅提升,社區(qū)正經(jīng)歷從野蠻生長走向系統(tǒng)分化的過程。

2.0的AI Agent?層

AI Agent?的迭代經(jīng)歷猶如過山車。

目前,AI Agent?地表變動(dòng)劇烈,就像一片新大陸,每個(gè)人都在搶先插旗。AI Coding、Chatbot、Workflow Platform?等方向接連涌現(xiàn)出新的高熱度項(xiàng)目。

更有意思的是,2.0?版還敏銳捕捉到?AI?與物理世界深度結(jié)合的跡象——「小智」嘗試把大模型跑在低功耗芯片上,Genesis?則面向通用機(jī)器人提供物理仿真平臺。

接下來,我們逐一拆解細(xì)分領(lǐng)域的變化。

1、從瘋到癲,AI Coding?增長曲線仍在陡升

除了?Cline、Continue、OpenHands?等常駐「霸榜」項(xiàng)目外,新面孔不斷涌現(xiàn)——Gemini、marimo、Codex CLI,以及定位為?Claude Code 100%?開源替代的?OpenCode。事實(shí)再次證明,「Agent for Devs」仍是最高頻、最剛需的應(yīng)用場景。

2025?年的?AI Coding?已經(jīng)完成了從「補(bǔ)代碼」到「全生命周期智能引擎」的跨越:能做的事更多,從開發(fā)到運(yùn)維全鏈路覆蓋;做事的方式更聰明,支持多模態(tài)、上下文感知與團(tuán)隊(duì)協(xié)同。

報(bào)告預(yù)測,市場也將隨之釋放出巨大的商業(yè)化潛力——付費(fèi)訂閱、SaaS?服務(wù)與增值功能,將成為新的盈利模式。

AI Coding?已經(jīng)完成了從「補(bǔ)代碼」進(jìn)化到能做的事更多,做事的方式更聰明。

這種趨勢在行業(yè)交流中感受尤深。這次上海外灘大會上,有嘉賓直言?AI Coding?工具卷到用不過來;另一位深耕?AI?編碼的?CEO?則透露,團(tuán)隊(duì)所有成員的?AI?工具報(bào)銷已超?200?美元。

幾個(gè)月前,AI?代碼還需要大量人工修正;如今質(zhì)量飛升,只需輕量修改即可。下一步,AI?編程或許會從「寫代碼」躍遷到「主導(dǎo)整個(gè)工作流」。

值得注意的是,Gemini CLI、Codex CLI?的走紅也釋放出大廠的戰(zhàn)略信號:通過開源工具鏈綁定開發(fā)者,把他們鎖入自家閉源模型的生態(tài)。

這與微軟當(dāng)年的?Windows + .NET、蘋果的?iOS + Swift?如出一轍。今天的AI?巨頭,正在用相同的路徑重塑新一輪開發(fā)者生態(tài)。

2、Chatbot & Knowledge Management?高光后的理性回歸

Chatbot?是?GenAI?應(yīng)用的第一波爆款,Cherry Studio、Open WebUI、Lobe Chat、LibreChat?在?2025?年初迎來頂峰,收獲了大量關(guān)注與貢獻(xiàn)。但熱度未能持續(xù)。5?月之后,Chatbot?進(jìn)入平臺期,逐漸降溫。

Lobe-Chat 以日更節(jié)奏,用框架將「ChatGPT?式對話」降維到人人可自建的體驗(yàn)。然而,隨著功能趨近完備,用戶也發(fā)現(xiàn)?Chatbot?核心價(jià)值仍是「對話」,而對話在生產(chǎn)力上的突破有限。

Cherry Studio?開辟了另一條路徑:把?Chatbot?與知識庫/筆記結(jié)合,定位于「個(gè)人知識助理」,更貼近長期生產(chǎn)力需求。這可能也是它逆勢上榜的原因——新進(jìn)項(xiàng)目中活躍度第二,總體位列第七。

因此,降溫并不意味著衰退。Lobe-Chat?依然保持?64.7k star?的體量,日更節(jié)奏從未停歇。只是相較?Memory、Agent?等更令人興奮的方向,Chatbot?不再是唯一的焦點(diǎn),而開始回歸理性。

3、Agent Workflow Platform?沉淀為真正的基礎(chǔ)設(shè)施

當(dāng)?GPT-5、Claude、Gemini等頂尖模型趨同,AI?應(yīng)用的差異化越來越依賴「記憶」。這催生了一大批?RAG + Agent?項(xiàng)目,成為開源熱點(diǎn)。

RAGFlow、MaxKB(專注知識庫問答)、FastGPT(輕量?RAG?平臺)、Flowise AI(主打?RAG-based QA?的可視化工作流工具)都在這一波浪潮中走紅。

盡管趨勢回落,但?7?月份的?OpenRank (1418)?仍然遠(yuǎn)高于?1?月份的起始點(diǎn)。

相比之下,Dify?的布局更完整:不僅覆蓋?RAG?和?Agent?工作流,還提供應(yīng)用發(fā)布、用戶管理、可觀測性等企業(yè)級能力,形成從原型到生產(chǎn)的一站式平臺,在社區(qū)影響力和商業(yè)化上明顯領(lǐng)先。

與此同時(shí),新的探索開始突破傳統(tǒng)?RAG?的邊界。如?Letta(尚未上榜)嘗試引入「離線學(xué)習(xí)」,讓?Agent?不僅能依賴檢索,還能真正從經(jīng)驗(yàn)中學(xué)習(xí)改進(jìn)。這意味著?Agent Workflow?未來可能從「檢索增強(qiáng)」走向「長期學(xué)習(xí)」,為應(yīng)用開辟更廣闊的空間。

4、Agent Tool?爆款頻出

Agent Tool 針對大模型的硬傷,補(bǔ)齊短板,讓?AI?從「能聊」走向「能做」。因此,這一領(lǐng)域成為當(dāng)下最炙手可熱的創(chuàng)新賽道,爆款頻出。

LiteLLM、Supabase、Vercel、ComfyUI、mem0?各自切入關(guān)鍵環(huán)節(jié),推理調(diào)用、數(shù)據(jù)存儲、記憶管理、外部交互層層推進(jìn)?AI?的能力邊界。

比如?mem0?賦予?Agent?長期記憶與上下文感知;Supabase?快速進(jìn)化成?GenAI?時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施,解決了實(shí)時(shí)信息與記憶管理的缺失問題。

而?Browser-use?更是在?9?個(gè)月拿下?60K star,讓?Agent?真正學(xué)會操作網(wǎng)頁,成為「落地最后一公里」的標(biāo)志性項(xiàng)目。

5、Agent Framework下跌明顯

2.0?版中,跌幅最大的項(xiàng)目有四個(gè)都屬于?Agent?編排框架:Eliza、LangChain、LlamaIndex、AutoGen。

一方面這些頭部項(xiàng)目在社區(qū)投入收縮;另一方面,社區(qū)注意力正從通用框架轉(zhuǎn)向應(yīng)用落地:記憶、工具調(diào)用、交互界面等更細(xì)顆粒度的創(chuàng)新,正在為未來更強(qiáng)自治的?AI?系統(tǒng)打下基礎(chǔ)。

不過,Camel-AI、CrewAI、Agno、ELIZA.OS的冒頭,顯示「協(xié)作智能體」正收獲更多關(guān)注。

LiveKit Agents?的上榜同樣典型,它專注實(shí)時(shí)交互場景,如語音對話、多人協(xié)作,這在過去是圖譜里幾乎沒有覆蓋的。

AI Infra:

模型服務(wù)狂飆依舊、LLMOps接棒MLOps

雖然遠(yuǎn)不如?Agent?層的「生命大爆發(fā)」,但在?AI Infra?的靜水深流中,仍能看到幾道涌動(dòng)的波瀾——

云端推理持續(xù)內(nèi)卷、輕量推理的開花、愈發(fā)?;?LLMOps。

2.0版本的AI Infra

1、主力賽道?Model Serving,熱力不減

在?2.0?版本里,唯二能與?AI Coding?正面對標(biāo)的賽道就是?Model Serving。

大模型要落地,推理的效率、成本、安全性是繞不過去的門檻。從?2023?年以來,這條賽道就持續(xù)高燒不退,依然是?AI Infra?的主戰(zhàn)場。

以?vLLM、SGLang?為代表的高性能云端推理方案仍是主流,生態(tài)和社區(qū)影響力不斷擴(kuò)張。尤其是?vLLM,穩(wěn)定性和生態(tài)優(yōu)勢使其熱度持續(xù)堅(jiān)挺。

大廠也全力加碼,NVIDIA TensorRT-LLM?熱度居高,新晉的?NVIDIA Dynamo?與之配合,深度綁定?GPU?硬件,正把「推理框架」當(dāng)作鞏固算力壟斷的新抓手。

與此同時(shí),本地化也在狂飆。

ollama?讓大模型從昂貴的云端「飛入尋常百姓家」,跑在個(gè)人電腦甚至移動(dòng)端。近幾個(gè)月它的熱度雖有小幅下滑,但?GPUStack、ramalama?等新框架迅速補(bǔ)位,說明「輕量?+?云端優(yōu)化」這條路徑依然涌現(xiàn)新玩家。

2、模型運(yùn)維:LLMOps?接棒?MLOps

除了?AI Coding、Model Serving,LLMOps 也是?2025?年以來增長最快的主賽道。

Phoenix、Langfuse、Opik、Promptfoo、1Panel、Dagger?等項(xiàng)目,幾乎覆蓋了從監(jiān)控、提示詞評測到工作流管理的各個(gè)環(huán)節(jié)。

這里的關(guān)鍵轉(zhuǎn)變是,2.0 版本重新定義了「模型運(yùn)維」:原本分散在模型評測和傳統(tǒng)?MLOps?的內(nèi)容,被整合進(jìn)大模型的全生命周期管理。關(guān)注點(diǎn)也從「小模型時(shí)代」的訓(xùn)練精度、數(shù)據(jù)管道,轉(zhuǎn)向「如何讓模型穩(wěn)定、可控地跑起來」。

換句話說,LLMOps?核心聚焦在監(jiān)控、提示詞效果、可觀測性和安全可信上,成為推動(dòng)大模型真正走向應(yīng)用的關(guān)鍵支撐。

3、模型訓(xùn)練,跌破年初水平

與前兩條賽道的高熱不同,模型訓(xùn)練反而一路回調(diào),不僅回吐了漲幅,還跌破了年初水平。

不同行業(yè)確實(shí)需要不同「口味」的模型。從零開始訓(xùn)練一個(gè)?GPT-4?級別模型成本過高,社區(qū)更關(guān)注如何低成本微調(diào)已有模型,比如?Unsloth?集成?QLoRA,在中低端硬件就能跑通。

問題在于應(yīng)用層成了新的戰(zhàn)場:圍繞?Chatbot、Agent Tool、Workflow,對開發(fā)者更友好,貢獻(xiàn)和創(chuàng)新空間更大。

PyTorch?等訓(xùn)練框架早已成熟,增長見頂;Swift、Unsloth、LLaMA-Factory雖短期吸睛,但沒能形成持續(xù)突破。

4、此外,Ray?在分布式計(jì)算上一騎絕塵,TransformerEngine、DeepEP、Triton、Modular等專用內(nèi)核庫的崛起,標(biāo)志著大模型正在催生屬于自己的軟件棧,從?Python API?到算子,都需要為?LLM?量身打造。

AI Data,依舊波瀾不興

相較于前兩大領(lǐng)域的風(fēng)云變幻,AI Data?領(lǐng)域顯得格外平靜。

生態(tài)鏈條已經(jīng)相當(dāng)完整,從標(biāo)注、集成、治理,到向量數(shù)據(jù)庫與搜索,再到上層應(yīng)用框架,幾乎覆蓋了數(shù)據(jù)處理的所有環(huán)節(jié)。

大多數(shù)項(xiàng)目還都是老面孔,誕生于?2014至?2020?年,本質(zhì)上為?AI 1.0(傳統(tǒng)機(jī)器學(xué)習(xí))時(shí)代而生。Chroma?是少數(shù)「趕上大模型浪潮」的新秀,2022?年亮相便切中了?RAG?應(yīng)用的爆發(fā)點(diǎn)。

但在熱度層面,AI Data?卻在持續(xù)降溫。

我們推測,一部分原因在于這些技術(shù)本身已足夠成熟,沒必要重復(fù)造輪子。

像?Iceberg、Delta Lake?這樣的數(shù)據(jù)湖,Milvus、Weaviate、Elasticsearch等向量數(shù)據(jù)庫,早已成為「基礎(chǔ)拼圖」,經(jīng)過反復(fù)驗(yàn)證后,缺少新的突破口。

另一方面,AI Data?更偏向企業(yè)級場景,開發(fā)者個(gè)人難以直觀感受到價(jià)值,GitHub?的社區(qū)關(guān)注度難以持久。

不過,波瀾不興往往孕育著更大的風(fēng)暴。AI Data?的真正挑戰(zhàn),正在原生大模型時(shí)代逐漸顯現(xiàn)。例如,向量化一切、RAG、多模態(tài)數(shù)據(jù)處理,數(shù)據(jù)平臺被專家預(yù)測將從「倉庫」進(jìn)化為「中樞」——一個(gè)智能、動(dòng)態(tài)、實(shí)時(shí)連接的系統(tǒng),能持續(xù)為模型這個(gè)大腦提供真實(shí)世界的感知。

因此,舊框架雖依舊穩(wěn)健,卻正被逼近極限。新一代原生于大模型范式的數(shù)據(jù)基礎(chǔ)設(shè)施正在醞釀中,AI Data?的下一次波瀾壯闊還在蟄伏。

商業(yè)博弈,逐漸變味的「開源」

在?2.0?全景圖出爐之前,我們就注意到一個(gè)微妙趨勢:越來越多的大模型項(xiàng)目不再沿用?MIT、Apache 2.0?這類傳統(tǒng)開源許可證,而是自擬「開源許可協(xié)議」(?Open-Source License Agreement?),在開放、控制之間劃下灰色地帶。

這種新式協(xié)議往往保留了許可方更多的干預(yù)權(quán)。比如,傳統(tǒng)協(xié)議下,授權(quán)一旦給出便不可撤銷;但在一些大模型的自擬協(xié)議里,這一限制被取消,為后續(xù)商業(yè)博弈留足了回旋余地。

還有的項(xiàng)目直接按用戶規(guī)模設(shè)限:月活躍用戶超過某個(gè)數(shù)量,就必須另行商議授權(quán)。

巧合的是,2.0?全景圖的數(shù)據(jù)也印證了這一觀察:新晉項(xiàng)目的?License?多為帶有限制性的變體,引發(fā)了「算不算開源」的爭論。

例如,Dify?采用?BSL(Business Source License)變體,先開放代碼,若干年后才切換為寬松協(xié)議,以保障商業(yè)利益。

n8n?使用?Fair-code,強(qiáng)調(diào)「防止大廠白嫖」,Cherry Studio?則在條款中明確了商用需額外授權(quán),體現(xiàn)出對商業(yè)模式的防御。

而另一層模糊,來自?GitHub?本身。Cursor、Claude-Code?等項(xiàng)目甚至連代碼都閉源,卻依舊在?GitHub?上大熱,成了廠商收集反饋的窗口。何為「開源社區(qū)」在這一波大模型浪潮中,似乎也在被挑戰(zhàn)。

番外篇:大模型的戰(zhàn)場

作為?Bonus,2.0?版本還特意梳理了?2025?年?1?月至今國內(nèi)外主流廠商的大模型發(fā)布時(shí)間線,包含開源、閉源模型,發(fā)現(xiàn)了一些有趣的現(xiàn)象。

這張全景圖也標(biāo)注了每個(gè)模型的參數(shù)、模態(tài)等關(guān)鍵信息,幫助理解當(dāng)下各家廠商的白熱化競爭究竟是在哪些方向上展開的。

1.?路線分化:開源?vs?閉源

中國的開源模型依舊百花齊放,而國外頂尖廠商則持續(xù)押注閉源。曾憑?Llama?系列對抗閉源陣營的?Meta,如今也逐漸收緊開源節(jié)奏。扎克伯格在公開信中直言,「會更謹(jǐn)慎地選擇開源什么」。Llama 4?口碑滑鐵盧,更讓?Meta?的處境尷尬。

這也Callback?了阿里云創(chuàng)始人、之江實(shí)驗(yàn)室主任王堅(jiān)在上海外灘大會開幕式上的判斷:開源與閉源的選擇,已成為?AI?競爭的關(guān)鍵變量。

2. MoE?架構(gòu)普及,參數(shù)直沖萬億

DeepSeek、Qwen、Kimi?等新旗艦,全面采用專家混合(?MoE?)架構(gòu)。憑借「稀疏激活」,模型總參數(shù)可以飆升到萬億級別,卻只在推理時(shí)激活一小部分。K2、Claude Opus、o3?等巨型模型相繼登場,性能獲得躍升,但也將訓(xùn)練和推理的算力消耗推至新高點(diǎn)。

3. Reasoning:新標(biāo)配

如果說去年模型發(fā)布拼的是「規(guī)?!?,今年比拼的就是「推理」。DeepSeek R1?借助強(qiáng)化學(xué)習(xí)大幅增強(qiáng)自動(dòng)化推理和復(fù)雜決策能力,讓Reasoning?成為今年模型發(fā)布的標(biāo)配功能。Qwen、Claude、Gemini?甚至引入「快思/慢想」的混合模式,讓模型像人一樣在任務(wù)間切換反應(yīng)速度。

4.?多模態(tài):全面爆發(fā)

過去半年,最強(qiáng)的大腦們不再只盯在語言模型,多模態(tài)賽道開始卷了起來。語言、圖像、語音交互成為標(biāo)配,中國廠商在閉源與開源兩條線上都取得全球領(lǐng)先。

與此同時(shí),語音模態(tài)生態(tài)也在興起:Pipecat、LiveKit Agents、CosyVoice?等工具鏈正在快速補(bǔ)全版圖。

不過,距離視頻模態(tài)真正成熟,甚至?AGI?的落地,仍有不短的路要走。

5.?模型評價(jià):多元化

多模態(tài)的全面爆發(fā),也帶動(dòng)了評價(jià)體系的多元化。有人依舊信賴?Design Arena、LMArena?這樣的「人投票」平臺,用主觀偏好來判斷模型優(yōu)劣。也有人更看重客觀測試集的分?jǐn)?shù),用標(biāo)準(zhǔn)答案來衡量模型表現(xiàn)。

與此同時(shí),以?OpenRouter?為代表的?API?網(wǎng)關(guān)平臺,憑借天然掌握的調(diào)用數(shù)據(jù),正在形成一種「數(shù)據(jù)投票」的排行榜。而活躍度持續(xù)飆升的?LiteLLM,未來或許也會把調(diào)用統(tǒng)計(jì)轉(zhuǎn)化為新型評測方式。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com