【大河財(cái)立方消息】9月15日,宇樹(shù)科技宣布開(kāi)源UnifoLM-WMA-0——跨多類(lèi)機(jī)器人本體的開(kāi)源世界模型-動(dòng)作架構(gòu)。宇樹(shù)科技介紹,UnifoLM-WMA-0專(zhuān)為通用機(jī)器人學(xué)習(xí)而設(shè)計(jì),其核心在于一個(gè)可以理解“機(jī)器人與環(huán)境交互”物理規(guī)律的世界模型。
該世界模型具備兩大核心功能:一是仿真引擎,作為交互式仿真器運(yùn)行,為機(jī)器人學(xué)習(xí)提供合成數(shù)據(jù);二是策略增強(qiáng),可與一個(gè)動(dòng)作頭進(jìn)行對(duì)接,通過(guò)預(yù)測(cè)未來(lái)與物理世界的交互過(guò)程,進(jìn)一步優(yōu)化決策性能。
通俗而言,仿真引擎像一個(gè)虛擬訓(xùn)練場(chǎng),可以生成大量合成數(shù)據(jù)供機(jī)器人學(xué)習(xí)和訓(xùn)練;策略增強(qiáng)可以預(yù)測(cè)機(jī)器人在真實(shí)環(huán)境中的“下一步”,為決策提供參考。這讓人形機(jī)器人不需要每次都在真實(shí)環(huán)境試錯(cuò),也能變得更“聰明”。
宇樹(shù)科技在五個(gè)開(kāi)源數(shù)據(jù)集上完成模型訓(xùn)練,測(cè)試結(jié)果顯示,模型作為仿真引擎,可根據(jù)“當(dāng)前圖像”及一定數(shù)量的“機(jī)器人未來(lái)動(dòng)作”,實(shí)現(xiàn)交互可控生成。
此外,宇樹(shù)科技介紹,其世界模型也有能力實(shí)現(xiàn)長(zhǎng)程任務(wù)的持續(xù)交互生成,生成結(jié)果與原視頻對(duì)比如下所示:
宇樹(shù)科技稱(chēng),為了推進(jìn)全球具身智能行業(yè)發(fā)展,宇樹(shù)科技現(xiàn)將此世界模型-動(dòng)作架構(gòu)完整開(kāi)源并持續(xù)更新,一起讓通用機(jī)器人盡早成為可能。
責(zé)編:史健 | 審核:李震 | 監(jiān)審:古箏