編輯:杜偉
不難發(fā)現(xiàn),近幾個月,開源頻頻成為 AI 社區(qū)熱議的焦點。尤其是對于國內(nèi)科技公司來說,開源成為主旋律。根據(jù) Hugging Face 中文 AI 模型與資源社區(qū)的數(shù)據(jù)顯示,國內(nèi)廠商在七八月接連開源 33 款、31 款各類型大模型。
這些開源成果大多落在了文本、圖像、視頻、推理、智能體以及世界模型領(lǐng)域,而音頻生成占比很小。
圖源:zh-ai-community
一方面是因為音頻生成在技術(shù)和數(shù)據(jù)上面臨著特殊挑戰(zhàn),音頻信號的計算和建模復(fù)雜,數(shù)據(jù)獲取難度更大;另一方面,出于安全、版權(quán)等風(fēng)險的考量,OpenAI、ElevenLabs 等主流玩家大都選擇閉源或半開源。
直到今年尤其最近一波開源潮掀起以來,AI 音頻領(lǐng)域又熱鬧了起來,包括字節(jié) MegaTTS3、阿里 Qwen2.5-Omni-7B 和 CosyVoice 3、月之暗面 Kimi-Audio、階躍星辰 Step-Audio 2 等。
在這些國內(nèi)大廠和人工智能新勢力之外,我們發(fā)現(xiàn),自去年開始,來自小紅書的技術(shù)團(tuán)隊在音頻領(lǐng)域保持了穩(wěn)定的開源節(jié)奏。他們推出了一系列成果,逐步構(gòu)建起了系統(tǒng)級音頻能力,并以開放的姿態(tài)將這些成果向社區(qū)開放。
這些成果中既有 TTS(文本轉(zhuǎn)語音)方向的?FireRedTTS,也有 ASR(語音識別)方向的?FireRedASR,在當(dāng)時取得了 SOTA 級別的效果。在實現(xiàn)研究突破之外,模型也具備工業(yè)級可商用屬性,在關(guān)鍵指標(biāo)上滿足了實際應(yīng)用需求,并通過開放許可降低商用落地門檻。
因此,發(fā)布之后,這些模型吸引了 AI 社區(qū)大量研究者與開發(fā)者的關(guān)注與好評。很多用戶在實際項目中直接部署使用并二次開發(fā),可用性和工程化潛力得到了驗證。
對于小紅書來說,開放高質(zhì)量音頻模型不僅可以提升其在這一細(xì)分賽道的技術(shù)影響力與話語權(quán),也釋放出一個明確的信號:將開源作為長期戰(zhàn)略來布局。通過一系列技術(shù)開放,小紅書正在構(gòu)建起高粘性的音頻大模型開源社區(qū)。
就在過去幾天,小紅書智創(chuàng)音頻團(tuán)隊(FireRed)又放出了多項最新開源成果。
SOTA 級音頻能力持續(xù)注入開源社區(qū)
系統(tǒng)級音頻能力并非簡單地依靠堆砌模型,而需要跨越多重技術(shù)門檻。無論是語音合成還是語音識別,都要求在延遲、準(zhǔn)確率、自然度、真實性與魯棒性等維度進(jìn)行持續(xù)優(yōu)化。
小紅書對音頻大模型的探索始于去年 9 月開源的 FireRedTTS 語音合成系統(tǒng),構(gòu)建了一套由數(shù)據(jù)處理、基座系統(tǒng)與下游應(yīng)用組成的基座語音合成框架,先訓(xùn)練基座模型以將文本序列轉(zhuǎn)換為自然、有表現(xiàn)力的語音序列,后利用上下文學(xué)習(xí)、監(jiān)督微調(diào)等方法高效地服務(wù)于配音、自然對話等下游應(yīng)用。
效果十分顯著:只需要一段給定文本和幾秒?yún)⒖家纛l,無需二次訓(xùn)練,F(xiàn)ireRedTTS 就可以模仿任意音色、任意說話風(fēng)格,比如搞怪風(fēng)、女友風(fēng)等,實現(xiàn)自由定制。
今年 2 月開源的 FireRedASR 在語音識別上帶來新突破,這類技術(shù)廣泛應(yīng)用于智能語音交互(如語音助手)與多模態(tài)內(nèi)容理解場景。該系列包含兩個模型,F(xiàn)ireRedASR-LLM 追求極致的語音識別精度,F(xiàn)ireRedASR-AED 在保證語音識別準(zhǔn)確率的同時兼顧推理效率。
結(jié)果顯示,在 AISHELL-1/2、WenetSpeech 等中文普通話測試集上,F(xiàn)ireRedASR 在關(guān)鍵指標(biāo)字錯率(CER)上取得了 SOTA。FireRedASR 的 CER 為 3.05%,優(yōu)于豆包的閉源大模型 ASR 方案 Seed-ASR 的 3.33%,也優(yōu)于阿里通義 9 月 8 號最新發(fā)布的閉源 Qwen3-ASR-Flash 的 3.52%。
目前,該模型已在 GitHub 上收獲了 1.3k 的 star。
GitHub 地址:https://github.com/FireRedTeam/FireRedASR
延續(xù) FireRedTTS 的 SOTA 級表現(xiàn),新一代的 FireRedTTS-2?進(jìn)一步瞄準(zhǔn)了語音合成現(xiàn)有方案的痛點,包括靈活性差、發(fā)音錯誤多、說話人切換不穩(wěn)和韻律不自然,在升級離散語音編碼器與文本語音合成模型兩大核心模塊的基礎(chǔ)上,為長對話語音合成提供了更優(yōu)的解決方案。
FireRedTTS-2 架構(gòu)概覽。
FireRedTTS-2 主打上下文建模與多輪對話能力,在涉及音色克隆、交互式對話和播客生成的多項主客觀測評中均實現(xiàn)了行業(yè)領(lǐng)先,讓開源模型在復(fù)雜音頻場景建模效果上達(dá)到新高點。
音色克隆只需提供對話中發(fā)音人的一句語音樣本即可模仿其音色與說話習(xí)慣,自動生成后續(xù)整段對話;同時多說話人音色切換的穩(wěn)定性與韻律自然度均處于開源模型 SOTA,為今年火熱的 AI 播客場景提供了工業(yè)級解決方案,一躍成為當(dāng)前最強開源播客生成大模型。
在 zero-shot 播客生成中,F(xiàn)ireRedTTS-2 全面優(yōu)于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等開源競品。
聽完下面一段關(guān)于「Taylor Swift 戀愛消息」的雙人多輪對話播客,你能分得清是真人錄音還是 AI 合成嗎?
目前,F(xiàn)ireRedTTS-2 可以支持 4 位說話人的多輪對話生成,還可以通過擴展數(shù)據(jù)進(jìn)一步擴展至更多說話人和更長時長,從而根據(jù)實際需求進(jìn)行快速適配。用戶對這款新模型的反饋也不錯。
論文地址:https://arxiv.org/pdf/2509.02020
代碼地址:https://github.com/FireRedTeam/FireRedTTS2
另一大開源新成果是?FireRedChat—— 業(yè)內(nèi)首個完全開源的全雙工語音對話系統(tǒng),它在智能判停與延遲等關(guān)鍵指標(biāo)上也達(dá)到了開源 SOTA,端到端性能已接近工業(yè)級水準(zhǔn)。
此次的亮點還在于:在提供完整模型之外,一站式提供 VAD、ASR、TTS、上下文感知 TTS、音頻 LLM、Dify 支持等核心模塊,支持私有化部署。這在業(yè)內(nèi)迄今沒有任何一家企業(yè)或機構(gòu)將這樣的一整套完整方案開源出去。
這就意味著,即使不是語音領(lǐng)域的專業(yè)人士,也可以直接克隆代碼,快速部署一個自己的語音助手,例如豆包的「打電話」語音對話助理。
基于內(nèi)置的情緒感知與情感合成能力,通過 FireRedChat 構(gòu)建的不是一個冷冰冰的機器人,而是一個「知冷暖、能共情、懂表達(dá)」的好朋友,她能細(xì)膩感知你的情緒變化:在你失落時,輕聲安慰、真誠鼓勵;在你遇到驚喜時,和你一樣心潮澎湃、享受 surprise;在你開心時,陪你分享喜悅、一起歡笑。
FireRedChat 讓 AI 聊天助手不只是回應(yīng)文字,更能用富有溫度的聲音、情感和表達(dá)方式,帶給你一種被理解、被陪伴的真實感受,讓 AI 真正擁有「人感」。
短短一年時間,小紅書圍繞文本轉(zhuǎn)語音、語音識別和語音對話形成了比較完整的技術(shù)棧,并已經(jīng)探索出一些好玩的功能,比如以 FireRedASR 技術(shù)為支撐的語音評論,通過唱歌、說方言、模仿有梗臺詞等一系列新的玩法,讓評論區(qū)的互動性與趣味性更濃,也提升了用戶粘性。
音頻開源的「執(zhí)牛耳者」
從小紅書已經(jīng)開源的一系列音頻大模型中,我們看到了其對開源生態(tài)的長期承諾與戰(zhàn)略耐心。
一方面,幾乎覆蓋了語音交互的核心環(huán)節(jié),從 TTS、ASR 到語音對話,技術(shù)矩陣日趨完善。由點及面的布局,顯示出其在技術(shù)積累上的底氣,利用系統(tǒng)性開源降低行業(yè)準(zhǔn)入門檻,形成生態(tài)級的牽引力。
未來,小紅書還計劃推出音樂大模型 FireRedMusic、多語種高精度語音識別系統(tǒng) FireRedASR-2 以及音頻感知大模型,讓更多細(xì)分方向的開發(fā)者用上高質(zhì)量模型。
另一方面,開源正在從模型層走向體系層,不再只是停留在單一模型的開放,而是擴展到了全鏈路模塊。這意味著,開源的價值上升到了提供系統(tǒng)化能力。
以全雙工語音對話系統(tǒng) FireRedChat 為例,VAD、ASR、TTS、對話框架等在內(nèi)基礎(chǔ)模塊的開放,降低了開發(fā)者的集成與部署門檻,使他們在開箱即用的基礎(chǔ)上快速構(gòu)建應(yīng)用,進(jìn)而擴大音頻生態(tài)的創(chuàng)新邊界。
通過開源這個推動技術(shù)演進(jìn)與生態(tài)共建的關(guān)鍵支點,小紅書的開源「野心」已逐漸顯現(xiàn)。
小紅書智創(chuàng)音頻團(tuán)隊負(fù)責(zé)人解奉龍稱,他們的目標(biāo)是建立首個工業(yè)級可商用的音頻大模型開源社區(qū),涵蓋語音識別及理解、語音 / 音效生成、全雙工語音交互、音樂理解及生成四大方向,一步步將自身打造成為開源音頻領(lǐng)域的「執(zhí)牛耳者」。
這些模型具備的工業(yè)級可商用屬性將釋放更大的價值。開發(fā)者和企業(yè)用戶在生產(chǎn)環(huán)境中直接部署與使用,大大縮短從技術(shù)到產(chǎn)品的周期,降低試錯成本。
隨著語音交互賽道的參與者越來越多,應(yīng)用創(chuàng)新與落地場景更豐富,反過來又將進(jìn)一步擴展以小紅書為主導(dǎo)的音頻開源社區(qū)。
小紅書智創(chuàng)團(tuán)隊負(fù)責(zé)人湯旭表示,團(tuán)隊將持續(xù)深耕多模態(tài)大模型,勇于突破 SOTA 邊界,探索 AI 在內(nèi)容理解與創(chuàng)作中的更多可能。我們堅持開放共享,通過開源生態(tài)與全球開發(fā)者協(xié)同進(jìn)化,共同推動行業(yè)標(biāo)準(zhǔn)演進(jìn),讓 AI 不僅賦能小紅書,更為全球創(chuàng)作者創(chuàng)造價值,開啟內(nèi)容生產(chǎn)的新范式。
寫在最后
作為一種正在重塑行業(yè)格局的力量,開源讓先進(jìn)的 AI 能力不再被少數(shù)巨頭壟斷,而是沉淀為整個行業(yè)可以共享的底層資源。
從八年前的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,開源一直都是推動大模型技術(shù)躍遷的關(guān)鍵因素之一。在共享基線之上,開發(fā)者可以進(jìn)行低成本地差異化探索。
AI 大廠選擇「閉門造車」,本質(zhì)上是通過技術(shù)壁壘構(gòu)筑護(hù)城河,并以此維持商業(yè)模式的可持續(xù)性和競爭優(yōu)勢,如 OpenAI 等。在資本驅(qū)動與市場回報的邏輯下,這種路徑無可厚非。然而,推動產(chǎn)業(yè)加速演進(jìn)往往不單靠這些巨頭的獨角戲,更在于開源社區(qū)的多點突破與百花齊放。
在開源生態(tài)中,模型、框架和工具可以快速迭代、自由組合,通過更多創(chuàng)新嘗試,加快新技術(shù)落地。尤其是在 AI 應(yīng)用的長尾場景中,整個社區(qū)的廣泛參與更有潛力讓 AI 真正從實驗室走向產(chǎn)業(yè)化。
小紅書正在用自己一次次的開源踐行這一切,持續(xù)推動音頻大模型的技術(shù)演進(jìn),向所有人釋放前沿能力,并希望通過更大的開源社區(qū)共建實現(xiàn)技術(shù)平權(quán)。這些 SOTA 級音頻大模型為開發(fā)者和中小型企業(yè)提供了平等的技術(shù)起點,讓他們在同一基準(zhǔn)線上進(jìn)行創(chuàng)新與應(yīng)用開發(fā)。
在開源生態(tài)主導(dǎo)權(quán)上的長遠(yuǎn)布局,可以為小紅書在未來的 AI 音頻市場競爭中搶占先機。
除了音頻, 小紅書智創(chuàng)團(tuán)隊還在多模態(tài)、AIGC、CV、編輯渲染、算法工程等方向多有建樹,并向公司內(nèi)部社交、直播、電商、商業(yè)化廣告和生態(tài)審核在內(nèi)的各業(yè)務(wù)線提供業(yè)界領(lǐng)先的技術(shù)解決方案,成功落地了語音評論、文字功能等爆款功能。
目前,小紅書校招正在進(jìn)行中,加入智創(chuàng)團(tuán)隊,一起挑戰(zhàn) AI 前沿技術(shù),推動開源生態(tài)的未來。
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com