據(jù)媒體報(bào)道,智元機(jī)器人今日宣布,通用具身基座大模型GO-1(Genie Operator-1)已在GitHub正式開源,成為全球首個(gè)采用Vision-Language-Latent-Action(ViLLA)架構(gòu)的通用具身智能模型。
這一突破性架構(gòu)通過引入隱式動(dòng)作標(biāo)記,有效彌合了圖像-文本輸入與機(jī)器人動(dòng)作執(zhí)行之間的語義鴻溝,顯著提升了機(jī)器人對復(fù)雜任務(wù)的理解與執(zhí)行能力。 向全球開發(fā)者免費(fèi)開放,降低具身智能技術(shù)門檻。
該模型基于多模態(tài)理解、隱式規(guī)劃和動(dòng)作生成三層協(xié)同設(shè)計(jì),支持多視角視覺、力覺信號(hào)與語言指令的融合處理。
同時(shí),智元推出Genie Studio一站式開發(fā)平臺(tái),覆蓋數(shù)據(jù)采集、模型訓(xùn)練到真機(jī)部署全流程,助力開發(fā)者快速實(shí)現(xiàn)具身智能應(yīng)用落地。GO-1已在多類機(jī)器人本體上完成驗(yàn)證,展現(xiàn)出優(yōu)秀的可移植性與仿真性能。
值得一提的是,智元機(jī)器人在不久前正式發(fā)起Genie Trailblazer全球招募計(jì)劃,向全球的具身智能研究團(tuán)隊(duì)發(fā)出邀請,聚焦通用具身智能模型、具身世界模型、高級(jí)遙操作三大核心探索方向。