Google DeepMindが自然言語で場所の案内などオフィス内のタスクをこなすデモムービーを公開

2024年7月12日 13時0分

Gemini 1.5の最大100万トークンという長いコンテキストウィンドウを活用することで、オフィス内のタスクを自然言語で解決できるようになったとGoogle DeepMindが論文にまとめ、デモムービーを公開しました。

[2407.07775v1] Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

https://arxiv.org/abs/2407.07775v1

コンテキストウィンドウが大きいAIモデルは一度に多くの情報を扱うことが可能です。今回、DeepMindはオフィスや自宅を案内するムービーを撮影してAIに視聴させ、「どこに何があるのか」という環境についての情報を学習させました。

ユーザーが自然言語でAIに指示することで、AIがムービーの情報とカメラからの入力を元にユーザーを目的地に案内させることに成功したとのこと。以下は実際に「何かを描ける場所を教えて」というタスクをこなすデモムービーです。