近年ではAIの性能が飛躍的に向上し、現実世界の複雑なシナリオでタスクを実行できるAIエージェントが開発されています。しかし、これらのAIエージェントは複数のシナリオ間で一般化されたタスクを実行する際に失敗することが多いそうで、これは各環境で必要な観察や行動の違いに起因するとのこと。そこで中国の研究チームが、最も統一化されたインターフェースである「スクリーン」を入力に、「キーボード」と「マウス」を出力に使