Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。

[2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

https://arxiv.org/abs/2404.05719

Apple teaching an AI system to use apps; maybe for advanced Siri

https://9to5mac.com/2024/04/09/ferret-ui-advanced-siri/

ChatGPTのようなチャットボットAIシステムのベースとなっている大規模言語モデル(LLM)は、主にウェブサイトから収集された膨大なテキストから学習しています。そして、Google GeminiのようなMLLMは、テキストだけでなく、画像・動画・音声といった非テキスト情報も学習しているのがポイントです。

ただし、MLLMはスマートフォン向けアプリとしてはパフォーマンスが優れていないとされています。その理由の1つとして、トレーニングに用いられる画像や動画のほとんどで縦横比がスマートフォンの画面と異なる横長のものであるからというのがあります。また、スマートフォンではアイコンやボタンなど、認識する必要のあるUIが自然の画像オブジェクトよりも小さいという問題も存在します。

今回Appleの研究者が発表したFerret-UIは、スマートフォンのモバイルアプリの画面を認識できるように設計されている生成AIシステムです。



スマートフォンのUI画面は通常、縦長のアスペクト比を持ち、アイコンやテキストなどの小さな対象物を含んでいます。これに対応するため、Ferret-UIでは画像の詳細を拡大し、強化された視覚的特徴を活用する「any resolution」という技術が導入されました。これによって、Ferret-UIは画面の解像度に関係なく、UIの詳細を正確に認識できるようになります。



また、Ferret-UIは、アイコン認識、テキスト検索、ウィジェットのリスト化など、基本的なUIタスクの広範囲にわたるトレーニングサンプルを丁寧に収集しています。これらのサンプルには領域ごとにアノテーション(注釈)が付けられています。これにより、言語と画像の関連付けと正確な参照が容易になります。つまり、Ferret-UIは具体的なUIサンプルを大量に学習することで、様々なUIを正しく理解できるようになっているというわけです。



論文によると、Ferret-UIはGPT-4Vや他の既存のUI対応MLLMよりも優れた性能を示しているとのこと。これは、Ferret-UIの「any resolution」技術や、大規模で多様なトレーニングデータ、高度なタスクへの対応などが、UIの理解と操作において高い効果を発揮していることを示唆しています。

さらにFerret-UIのモデルの推論能力を高めるために、詳細な説明、知覚/相互作用の会話、機能推論など、高度なタスクのためのデータセットがさらにコンパイルされています。これにより、Ferret-UIは単純なUI認識だけでなく、より複雑で抽象的なUIの理解やインタラクションが可能になります。

Ferret-UIが実用化すれば、アクセシビリティの向上が期待できます。視覚障害などでスマートフォンの画面を見ることができない人でも、画面に表示されている内容を要約してAIがユーザーに伝えるということが可能になります。また、スマートフォン向けアプリを開発する際に、Ferret-UIに画面を認識させることで、アプリのUIのわかりやすさや使いやすさがより迅速にチェックできる可能性があります。



さらに、スマートフォンに最適化したマルチモーダルAIということで、iPhoneに搭載されているAIアシスタントのSiriと組み合わせることで、任意のアプリを使ったより高度なタスクをSiriで自動化することも期待できます。