Llama 3.2発表、スマホ向けの小規模モデルも
米メタ(Meta)は、オープンソースの大規模言語モデル(LLM)として「Llama 3.2」を発表した。小規模・中規模ビジョンモデル(11B・90B)と、エッジデバイスやモバイルデバイスに搭載できる、軽量なテキスト専用モデル(1B・3B)が用意される。
小規模・中規模ビジョンモデル
Llama 3.2の11B・90Bビジョンモデルは、画像認識やさまざまな視覚理解タスクにおいて、主要な基礎モデルである「Claude 3 Haiku」や「GPT-4o mini」と同等の性能を持つという。
画像推論のユースケースをサポートしており、チャートやグラフを含む文書レベルの理解、画像へのキャプション付加、自然言語の記述に基づいて画像内のオブジェクトを方向的に特定する視覚的グラウンディングタスクなどに対応する。
たとえば、ユーザーが「(自分の)小規模事業で前年のどの月に最高の売り上げを記録したか」と質問すると、Llama 3.2は入手可能なグラフに基づいて推論を行い、素早く回答を提示する。
また、地図を基に推論を行い、「ハイキングコースがいつ急勾配になるか」といった質問などに答えられる。地図上に示された特定のトレイルの距離などを示すこともできる。
11B・90Bビジョンモデルのベンチマーク
軽量なテキスト専用モデル
Llama 3.2の1B・3Bモデルは、128Kトークンの文脈長をサポートする。クアルコムとMediaTekのハードウェアで有効化され、Armプロセッサ向けに最適化されている。
3Bモデルは、要約などのタスクにおいて、「Gemma 2 2.6B」や「Phi 3.5-mini」を上回る性能を発揮したという。1Bモデルは「Gemma」と同等とされている。
多言語テキスト生成とツール呼び出し機能に優れる1B・3Bモデルにより、開発者はモバイルデバイス上などでパーソナライズされたエージェントアプリケーションを構築できる。
このようなアプリケーションを活用することで、たとえば直近10件の受信メッセージの要約を作成してアクションアイテムを抽出し、ツール呼び出し機能を活用してミーティングのカレンダー招待を送信できる。
処理をローカルで実行することで、プロンプトと応答スピードがリアルタイムに感じられるというメリットがある。また、メッセージやカレンダー情報などのデータをクラウドに送信しないため、プライバシーが守られる。
1B・3Bモデルのベンチマーク