近年來,以人形機(jī)器人、自動(dòng)駕駛為代表的具身人工智能(Embodied Artificial Intelligence, EAI)正以前所未有的速度發(fā)展,從數(shù)字世界大步邁向物理現(xiàn)實(shí)。然而,當(dāng)一次錯(cuò)誤的風(fēng)險(xiǎn)不再是屏幕上的一行亂碼,而是可能導(dǎo)致真實(shí)世界中的物理傷害時(shí),一個(gè)緊迫的問題擺在了我們面前:
如何確保這些日益強(qiáng)大的具身智能體是安全且值得信賴的?
現(xiàn)實(shí)情況是,能力與安全,這兩條本應(yīng)齊頭并進(jìn)的軌道,正出現(xiàn)令人擔(dān)憂的「脫鉤」。如圖 1 所示,業(yè)界的基礎(chǔ)模型在能力上飛速迭代,卻普遍忽視了與之匹配的安全對(duì)齊機(jī)制;而學(xué)術(shù)界雖有探索,但研究成果往往零散、不成體系。
圖 1: EAI 的能力與安全發(fā)展現(xiàn)狀。行業(yè)產(chǎn)品(藍(lán)色)能力飛速提升但安全滯后,學(xué)術(shù)研究(綠色)雖有探索但較為零散。作者團(tuán)隊(duì)的研究旨在規(guī)劃一條通往理想的「安全可信 EAI」(橙線)的道路。
為了彌合這一關(guān)鍵差距,上海人工智能實(shí)驗(yàn)室和華東師范大學(xué)的研究團(tuán)隊(duì)撰寫了這篇 Position Paper,旨在為「安全可信具身智能」這一新興領(lǐng)域建立一個(gè)系統(tǒng)性的理論框架與發(fā)展藍(lán)圖,推動(dòng)領(lǐng)域從碎片化研究走向整體性構(gòu)建。
論文標(biāo)題:Towards Safe and Trustworthy Embodied AI: Foundations, Status, and Prospects
作者團(tuán)隊(duì):Xin Tan, Bangwei Liu, Yicheng Bao, Qijian Tian, Zhenkun Gao, Xiongbin Wu, Zhihao Luo, Sen Wang, Yuqi Zhang, Xuhong Wang, Chaochao Lu, Bowen Zhou
論文鏈接:https://openreview.net/forum?id=Eu6Yt21Alv
項(xiàng)目主頁:https://ai45lab.github.io/Awesome-Trustworthy-Embodied-AI/
本文核心貢獻(xiàn)
不同于傳統(tǒng)的綜述文章,作者不僅梳理現(xiàn)狀,更致力于定義概念、構(gòu)建體系、并探索未來方向。核心貢獻(xiàn)如下:
首次定義新概念:本文正式引入并定義「安全可信具身智能(Safe and Trustworthy EAI)」,將其確立為一個(gè)融合了智能體內(nèi)部可靠性與外部物理世界安全性的整體性研究領(lǐng)域。
提出首個(gè)成熟度模型:創(chuàng)新性地提出「打造安全 EAI (Make Safe EAI)」的五級(jí)(L1-L5)成熟度模型。該模型為領(lǐng)域發(fā)展提供了第一個(gè)清晰的演進(jìn)路線圖,指明了從被動(dòng)、外部的安全「補(bǔ)丁」到主動(dòng)、內(nèi)生的、具備自我進(jìn)化和可驗(yàn)證能力的安全系統(tǒng)的必經(jīng)之路。
構(gòu)建全面的分析框架:提出一個(gè)包含「可信性」與「安全性」兩大維度、共計(jì)十大核心原則的完整框架,并基于此對(duì)領(lǐng)域現(xiàn)狀進(jìn)行了系統(tǒng)性梳理。它為系統(tǒng)性地分析風(fēng)險(xiǎn)、歸類現(xiàn)有研究、識(shí)別關(guān)鍵空白提供了強(qiáng)有力的工具。
L1-L5:安全可信 EAI 的演進(jìn)路線圖
作者認(rèn)為,真正的安全不是在能力之上的「附加模塊」,而是一種與生俱來的核心能力。前者只是安全可信具身的過渡形態(tài),可以稱為「Make EAI Safe」;而他們基于 R2AI 中的人工智能安全等級(jí),提出了「Make Safe EAI」的理念,打造內(nèi)生安全可信的具身智能,并將其劃分為五個(gè)演進(jìn)等級(jí),如下圖(圖 2)所示:
圖 2: 打造安全可信具身智能的五級(jí)成熟度模型,展示了從基礎(chǔ)的抵抗力(L1-L2)到高級(jí)的復(fù)原力(L3-L5)的演進(jìn)路徑。
L1: 對(duì)齊 (Alignment) - 基礎(chǔ)抵抗力:通過大規(guī)模數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練,使智能體行為符合基本的人類價(jià)值觀和安全規(guī)范。
L2: 干預(yù) (Intervention) - 監(jiān)督下的抵抗力:通過可解釋性與人類監(jiān)督干預(yù)機(jī)制,確保人類始終處于最高控制位。
L3: 模仿反思 (Mimetic Reflection) - 基礎(chǔ)復(fù)原力:智能體通過模仿和內(nèi)化經(jīng)過驗(yàn)證的安全行為模板來學(xué)習(xí)如何安全地執(zhí)行任務(wù)。
L4: 進(jìn)化反思 (Evolutionary Reflection) - 自適應(yīng)復(fù)原力:智能體具備自我改進(jìn)機(jī)制,通過與物理世界的持續(xù)互動(dòng),自主學(xué)習(xí)和優(yōu)化其安全策略。
L5: 可驗(yàn)證反思 (Verifiable Reflection) - 可保證的復(fù)原力:智能體的安全性能由控制論等理論提供可驗(yàn)證的、數(shù)學(xué)上的保證,是安全可信的最高形態(tài)。
這套框架的提出并非憑空而來,而是建立在數(shù)十年來可信計(jì)算領(lǐng)域演進(jìn)的基礎(chǔ)之上。從可信系統(tǒng),到可信 AI,再到今天關(guān)注的安全可信具身 AI,這是一個(gè)不斷發(fā)展的歷史進(jìn)程,如下圖(圖 3)所示。
圖 3: 可信計(jì)算的演進(jìn)時(shí)間線,清晰地展示了從紫色(可信系統(tǒng))、藍(lán)色(可信 AI)到綠色(安全可信具身 AI)的歷史脈絡(luò)。
十大核心原則:系統(tǒng)性風(fēng)險(xiǎn)分析的基石
為了將「安全可信」這一宏觀概念落地,作者將其分解為兩大維度和十項(xiàng)具體原則,為風(fēng)險(xiǎn)分析與系統(tǒng)設(shè)計(jì)提供了「標(biāo)尺」。
圖 4: 安全可信 EAI 的十大核心原則概覽,分為可信賴性(上排)和安全性(下排)兩個(gè)維度。
基于此框架,作者對(duì)當(dāng)前的研究趨勢(shì)進(jìn)行了定量分析。如下圖(圖 5)所示,研究發(fā)現(xiàn)研究工作主要集中在準(zhǔn)確性、可靠性和抗攻擊性上,而可審計(jì)性、可辨識(shí)性等原則仍有待深入探索。
圖 5: 當(dāng)前研究的定量分析。上圖為十大原則的層次結(jié)構(gòu),下圖為各原則下研究論文數(shù)量的統(tǒng)計(jì),揭示了研究熱點(diǎn)與空白。
四大階段:解構(gòu)具身智能的工作流與風(fēng)險(xiǎn)
作者將一個(gè)具身智能體的工作流解構(gòu)為四個(gè)核心階段:指令理解、環(huán)境感知、行為規(guī)劃和物理交互。
圖 6: 具身智能體的四階段工作流,展示了從接收用戶指令到最終在物理世界執(zhí)行動(dòng)作的全過程。
基于此工作流,構(gòu)建全面的文獻(xiàn)分類體系,如下圖(圖 7)所示,系統(tǒng)性地梳理了在每個(gè)階段、每個(gè)原則下的現(xiàn)有研究工作,為研究者提供了清晰的知識(shí)圖譜。
圖 7: 安全可信具身 AI 的文獻(xiàn)分類體系總覽,詳細(xì)映射了相關(guān)研究工作到本研究的框架中。
孿生模擬器:構(gòu)建與測(cè)試可信智能體的基石
高質(zhì)量的孿生模擬器是開發(fā)可信 EAI 不可或缺的工具,場(chǎng)景的「保真度」「可定制性」和環(huán)境的「可編輯性」對(duì)此至關(guān)重要。
圖 8: 評(píng)估 EAI 模擬器的關(guān)鍵維度。(A) 場(chǎng)景保真度對(duì)比,(B) 從藍(lán)圖到 3D 世界的場(chǎng)景定制能力,(C) 模擬復(fù)雜交互的環(huán)境可編輯性。
未來展望:從孤立優(yōu)化到整體閉環(huán)的控制論范式
作者認(rèn)為,當(dāng)前研究的最大瓶頸在于孤立地優(yōu)化單個(gè)組件。要構(gòu)建真正安全可信的 EAI,必須進(jìn)行一場(chǎng)范式轉(zhuǎn)移。
他們主張,未來的研究應(yīng)將智能體視為一個(gè)先進(jìn)的自適應(yīng)控制系統(tǒng)(Cybernetic System),其 「可信賴」的品質(zhì)是在與環(huán)境和人類的持續(xù)動(dòng)態(tài)交互中涌現(xiàn)出來的。
圖 9: 作者團(tuán)隊(duì)提出的具身智能控制論框架。智能體(Self)、世界(World)和互動(dòng)(Interaction)構(gòu)成了一個(gè)閉環(huán)系統(tǒng),通過「行動(dòng) - 反饋 - 演化 - 協(xié)作」的循環(huán),不斷涌現(xiàn)出可信賴性。
這一未來的閉環(huán)系統(tǒng)建立在三大支柱之上:
世界 (The World):構(gòu)建高保真、可擴(kuò)展、可交互的虛擬環(huán)境,彌合模擬與現(xiàn)實(shí)的鴻溝。如下圖(圖 10)所示,當(dāng)前技術(shù)難以同時(shí)滿足這三點(diǎn),是未來需要攻克的「不可能三角」。
圖 10: 現(xiàn)有虛擬環(huán)境(左)與理想的虛擬世界(右)的對(duì)比。
自我 (The Self):發(fā)展能夠自我進(jìn)化的智能體,從「預(yù)訓(xùn)練的雕像」轉(zhuǎn)變?yōu)槟軌蚪K身學(xué)習(xí)的生命體。如下圖(圖 11)所示,下一代記憶系統(tǒng)將是實(shí)現(xiàn)自我進(jìn)化的核心。
圖 11: 實(shí)現(xiàn)下一代可進(jìn)化的具身智能體,紅色部分(如主動(dòng)感知、記憶壓縮、記憶編輯與共享)代表亟待發(fā)展的關(guān)鍵技術(shù)。
互動(dòng) (The Interaction):設(shè)計(jì)無縫的協(xié)同架構(gòu),整合內(nèi)部的「身腦協(xié)同」、外部的「多智能體協(xié)作」與「人機(jī)協(xié)同」。
圖 12: 實(shí)現(xiàn)無縫協(xié)同的三個(gè)關(guān)鍵渠道:內(nèi)部(身腦)、多智能體和人機(jī)互動(dòng)。
總結(jié)
本文不僅是對(duì)安全可信具身智能領(lǐng)域的全面梳理,更是一份行動(dòng)倡議和未來路線圖。作者希望通過提出的全新框架、成熟度模型和控制論范式,為社區(qū)提供一個(gè)統(tǒng)一的語言和共同的目標(biāo),共同推動(dòng)下一代不僅強(qiáng)大,而且從根本上安全、真正值得信賴的具身智能的到來。
歡迎大家閱讀論文原文,獲取更詳細(xì)的論述,期待與您交流!
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com