NTTの生成AI大規模言語モデル(LLM)「tsuzumi」驚きのデモ徹底公開! パワポの図表や写真、人物像まで理解するマルチモーダルLLMの実際
![NTTの生成AI大規模言語モデル(LLM)「tsuzumi」驚きのデモ徹底公開! パワポの図表や写真、人物像まで理解するマルチモーダルLLMの実際](https://image.news.livedoor.com/newsimage/stf/c/8/c8c15_1668_c94ea478_e1dd6c58-m.jpg)
![](https://image.news.livedoor.com/newsimage/stf/9/2/9264e_1668_7a4d6fde870b576c0a89a8540f080c7c.jpg)
「tsuzumi」ファインチューニングのデモ。GPT-3との比較等
![](https://image.news.livedoor.com/newsimage/stf/1/5/15ef3_1668_c1f9b02e8ad143300c96c897a08253fa.jpg)
パワーポイントで作成したロードマップの図表を「tsuzumi」が理解して要約をテキストで表示するデモ
「tsuzumi」は2023年11月1日に発表され、「軽量でありながら世界トップレベルの日本語処理性能を持つ」として、商用サービスは2024年3月提供開始を予定している。
![](https://image.news.livedoor.com/newsimage/stf/c/c/cceb4_1668_fbd2bebe1dc1789494df39dbb62ac3a1.jpg)
●tsuzumiの特長
tsuzumiの特長のポイントをあげると
・軽量なLLM
・日本語と英語に対応(多国語にも対応していく) 〜特に日本語が得意なLLM〜
・柔軟なチューニング 〜基盤モデル+アダプタ〜
・マルチモーダル 〜言語+視覚・聴覚・ユーザ状況理解〜
となっている。
■生成AI大規模言語モデル(LLM)「tsuzumi」概要:
「軽量なLLM」「日本語と英語については世界トップクラスと同程度の性能を記録」については別記事「NTT版生成AI大規模言語モデル(LLM)「tsuzumi」驚異の性能を披露 NTT R&Dフォーラム2023開幕 NTT島田社長の基調講演と見どころ」で解説したのでそちらを参照していただきたい。
●柔軟なチューニング
「柔軟なチューニング」とは、効率的に知識を学習させることのできる「アダプタ」という考えを取り入れていること。アダプタとは事前学習済みモデルの外部に追加されるサブモジュール。「tsuzumi」はベースとなる基盤モデルに、業務や分野、企業に合わせた情報を追加学習をおこなうために3つのチューニング方法が用意されている。
![](https://image.news.livedoor.com/newsimage/stf/1/c/1c8ee_1668_aef6a02224a261e496d66e367b448e5a.png)
基盤モデルに、最新情報、業務に特化した情報、企業や組織に特有の情報などを追加学習させるだけで、カスタムチューニングが容易にできるしくみを採用している。
![](https://image.news.livedoor.com/newsimage/stf/c/a/ca1b9_1668_4d78d3d43e7f364b69e5ddfcf1fd2969.png)
例えば特定の業界に特有の言語表現や知識に対応してチューニングされたアダプタを付加することで、少ない「追加学習」で「tsuzumi」の知識量をアップすることができる。
![](https://image.news.livedoor.com/newsimage/stf/b/4/b4a4b_1668_aaf8177eb3a7deeebb128d3960b93529.jpg)
■「tsuzumi」のファインチューニングの解説:
●LLMの可能性を広げる「マルチモーダル」
マルチモーダルは、対話が中心だった大規模言語モデル(LLM)に、生成AIとして応用の可能性を広げる要素となっている。例えば、写真、Excelなどで作成した表、ロードマップの図などを解析して理解することができる。また、顔の表情や声のトーンから人の感情を解析することができる。言語化されていないグラフィカルな表示や音声のニュアンス、感情などを理解し、現実世界での人との協調作業を可能とする。
![](https://image.news.livedoor.com/newsimage/stf/4/b/4bf04_1668_3633db24aa79c16e4f09f429fb26c166.jpg)
視覚的読解技術の実施例。「A」が「tsuzumi」の回答(正解)。図を解析して正確に理解していないと正解は出せない。
●パワーポイントで作成した図表を理解して要約する等のデモ
下の動画では、パワーポイントで作成した(基調講演で使われていた)ロードマップの図表を「tsuzumi」が読み解き、理解し、テキストとして要約(図を解説)する様子が確認できる。
![](https://image.news.livedoor.com/newsimage/stf/2/1/21497_1668_4b4b58ff5f775bc276cdbd8f5ec740ca.jpg)
また、猫がキーボードに手を乗せている写真を解析し、「tsuzumi」が写真を説明するキャプションを生成する。
![](https://image.news.livedoor.com/newsimage/stf/8/b/8b63d_1668_b8e7312aa093f30282f193b612c072cf.jpg)
最後に、手書きの回答用紙を解析して、どこにどんな情報が記入されているかを理解し、質問に対して記入されている内容をテキストで回答する様子が見られる。
![](https://image.news.livedoor.com/newsimage/stf/5/9/59c13_1668_bb47009f23dbf01592d594e7a61f2f6b.jpg)
どれも必見のデモ内容となっている。
■「tsuzumi」マルチモーダル機能のデモ 1:
●マルチモーダル機能を活用、人物像からニックネームを生成
マルチモーダル機能では、スタッフにAIが簡単な質問をして回答を理解し、その人の容姿や態度、感情を解析してニックネームを付ける、という少し変わった趣向のデモが行われていた。
![](https://image.news.livedoor.com/newsimage/stf/b/8/b8066_1668_6231bbf46c9679ac25fe17dc48f1ac08.jpg)
女性の話や趣味趣向、感情、動きを解析してニックネームを生成する
■「tsuzumi」マルチモーダル機能のデモ 2 ニックネーム:
●映像から異常を検知、対処方法をAIが提案
下の動画は、セキュリティカメラの映像に写っている人物の属性や感情、行動を解析。異常が発生するとそれを検知し、異常の内容を理解し、対処方法をAIが提案するデモとなっている。
![](https://image.news.livedoor.com/newsimage/stf/a/c/ac968_1668_1ca3524852c61cc2837163cd335ffa43.jpg)
危険な人物が侵入してきたことを検知し、対処方法をAIが提案しているところ
また、ここまで見てきたマルチモーダル機能は、NTTの「MediaGnosis
:
」(メディアグノシス)と基盤連携し、実現しているそのしくみは動画内で解説されている。
ちなみに「MediaGnosis」は、音声音響処理・画像映像処理・自然言語処理・クロスモーダル処理などマルチメディアの情報処理を統合的にオールインワンで扱うことができ、これまでよりも効率的な「学習」を実現、高精度かつ総合的な「推論」をおこなう次世代メディア処理AIのこと。「tsuzumi」もこのひとつのモジュールとして連係動作することで、可能なことが格段に増えている。
![](https://image.news.livedoor.com/newsimage/stf/6/1/61e44_1668_1f70efa4babd2c6224a1ce777194c427.jpg)
■NTT大規模言語モデル「tsuzumi」マルチモーダルのデモ
映像から異常を検知、対処方法を提案
高度なシステムを実現する「MediaGnosis」