NTTの生成AI大規模言語モデル「tsuzumi」と人型ロボットとの連携デモを公開 身体感覚を持つロボットの物理的作業をLLMが制御

写真拡大 (全4枚)

NTTは、現在開催中の「NTT R&D FORUM 2023 - IOWN ACCELERATION」(R&Dフォーラム)で、大規模言語モデル「tsuzumi」とロボットとの連携デモを公開した。テーマは大規模言語モデル「tsuzumi」を使って、身体感覚を持つロボットの物理的作業を制御すること。



食事として用意されたパスタや焼き魚、サラダ、アイスクリームなどが置かれた中で、人がロボットに対して「健康的なランチのテーブルを作って下さい」と音声で依頼すると、AIが依頼に合った献立を選び、最適な位置にテーブル配置してくれる。



何も置かれていない前面のテーブルに、健康的なランチをAIが選択して配置していく
「健康的なランチ」という曖昧なオーダーに対して、大規模言語モデル「tsuzumi」が理解して、並んでいる食事の要素を考慮して、最適なものを選択して、最適な置き方でテーブルに配置する。



なお、なぜ「tsuzumi」がそのメニューを選択したのかを、ロボットの音声や後ろのディスプレイに表示して明示してくれている。この作業はシステム的に作ったものではなく、LLMが生成しておこなっているという。食事の置き方(配置)も「tsuzumi」が生成して配慮している。

■「健康的なランチのテーブルを準備してください」: