EN

用ChatGPT和強化學習玩轉《我的世界》,Plan4MC攻克24個復雜任務

在開放式的環境中學習多種任務是通用智能體的重要能力。具有無限生成的復雜世界和大量開放任務,游戲《我的世界》(Minecraft)成為近幾年開放式學習研究的重要測試環境。

智源研究院和北京大學的團隊提出了在無專家數據的情況下高效解決 Minecraft 多任務的方法 Plan4MC。目前可以完成 24 個復雜多樣任務,為當前強化學習路徑下最優表現,成功率相比所有的基線方法有巨大提升。

研究結合強化學習和規劃的方法,將解決復雜任務分解為學習基本技能和技能規劃兩個部分。使用內在獎勵的強化學習方法訓練三類細粒度的基本技能。智能體使用大型語言模型構建技能關系圖,通過圖上的搜索得到任務規劃。


文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站