クイズ大会の様子(写真:公式YouTubeより引用)

自然な対話ができる人工知能(AI)「ChatGPT」の登場でAIの応用シーンが急速に広がる中、自然言語処理技術のエンジニアらが訓練したAIと日本トップレベルのクイズプレイヤーが対戦するイベントが1月末に都内で開かれた。

AIは早押し解答部門で「日本のクイズプレイヤーのトップ5に入るレベル」と評価された一方、問題作成を競う部門では「もっともらしい嘘」を生成するなど、プロの人間を驚かせる能力と欠点の両方が浮き彫りになった。

クイズAIが人と戦えるレベルに

AIがクイズで競うコンペティション(以下「大会」)「AI王〜クイズAI日本一決定戦〜」は2020年から2021年にかけて初開催され、以降年に1回の頻度で行われてきた。

早押し解答部門では、エンジニアたちが開発した8チームのAIが「速く正答する」​技術を競った。正答までのスピードと正答の数で、最終順位を決めた。最終報告会では予選を通過したチームが、人間のプレイヤーと対戦した。従来はAI同士のみで戦っていたが、AIと人間が戦うのは今大会が初めてだ。AIのクイズの作問レベルを競い合う問題作成部門も開催された。

大会発起人で東北大学データ駆動科学・AI教育研究センター学術研究員の鈴木正敏さんは、人とAIのクイズバトルに関して「ChatGPTの登場でAI技術が著しく進化したことと、参加者の努力によって、クイズAIが人と競えるレベルまで到達した」と話した。

鈴木さんによると大会が初めて開かれた2020年前後は、OpenAIのAIソフトウエアGPT-2やGoogleの自然言語処理モデル「BERT」の登場によって、自然言語処理技術の1つの手法である質問応答システムの研究が世界中で活発化した。

一方、日本では最先端の研究に追随できる研究機関がほぼなかったことや利用可能なデータの少なさなどを背景に、研究が盛り上がらず、世界的なトレンドに後れを取っていた。

鈴木さんは日本人になじみが深いクイズを題材にした質問応答の大会を開催することで、若手研究者や学生の関心を高めようと「AI王」プロジェクトを立ち上げた。

1回目の大会ではAIが20択の択一問題に挑戦し、優勝したチームの正解率が9割を超えたため、2回目は選択肢なしで回答する問題形式に移行。そのルールでも2022年の第3回大会で上位チームが正解率9割以上に達し、「与えられた問題に正答するという能力は行き着くところまで到達した」(鈴木さん)ことから、ルールの見直しが不可避になった。

第3回大会期間中には、AIの世界に歴史的な革命も起きた。OpenAIが膨大な量のテキストデータを学習した大規模言語モデル(LLM)をベースとした対話型AIサービスChatGPTをリリースしたのだ。

鈴木さんはその影響を、「これまで不可能だったレベルの流暢な文章の生成ができるようになり、自然言語処理技術の応用の可能性が大きく広がった。一方で、もっともらしいフェイクを出力するという課題も顕在化した」と説明した。

ChatGPT登場でルール見直し

ChatGPTに代表されるLLMの登場という技術革新を踏まえ、2023年から2024年にかけて開催された第4回「AI王」は内容を大きく見直し、「早押し」と「問題作成」の2部門で競うことにした。

「早押し解答部門」は、従来の「問題文をすべて与えられたうえで解答を導くペーパーテストスタイル」から一歩進み、「ノーベル平和賞を受賞したこともある『MSF』と略される国際医療ボランティア団体は何?」というように、少しずつ回答候補が絞られていく設問において、先の文章を予測しできるだけ早い回答を競う。

問題作成部門は、LLMを活用する前提で「嘘がなく、面白いクイズ問題」をどの程度自動生成できるかを競った。同部門は、今大会から実行委員に加わった半導体メーカー大手キオクシアで、半導体工場でのデータ分析技術を生かしてクイズを自動生成するAIを開発した社員らが、競技ルールや審査基準を監修した。

1月26日、キオクシア本社(東京)の会議室で、予選を通過したチームと人気テレビ番組「東大王」で活躍した鶴崎修功さんなど日本のトップクイズプレイヤーによるエキシビジョンが行われた。

「クイズAIが一般に公開できるレベルになった」(大会実行委員の鈴木さん)ことから、初の試みとしてYouTubeでリアルタイム配信もされた。


東大王の鶴崎修功さん(左)、クイズ作家の矢野了平さん(真ん中)、クイズプレイヤーの徳久倫康さん(右)(写真:筆者撮影)

AI3チームと人間3人が対戦した早押し部門は、AIはそれぞれ1問につき4度まで回答できるルールとし、人間側に実質的なハンデがついた。1戦ではコールセンター受託運営ベルシステム24ホールディングスのチームが開発したAIが人間を圧倒するスピードで正答を連発、勝利を収めた。

ハンデをなくして人間とAIが同条件で競った2戦目は、人間が連携し、AIの回答ポイントを見抜いてその直前でボタンを押すなどして巻き返し勝利した。

年号を聞いただけで正しい答えを出力するAIに対し、人間の回答者が「よく覚えているなあ」と嘆息すると、司会者が「正確には学習したんです」と切り返す一幕もあった。

3戦行われた早押し対決では人間が2勝した。同部門では人間と互角に戦い、対決を盛り上げたベルシステム24ホールディングスが開発したAIが優勝に選ばれた。

ベルシステム24ホールディングスのチームは、クイズの問題とWikipediaを覚えさせ、6、8、11、14など決まった文字数で回答を計算し、正しいだろうと判断したときに出力するように設計した。

チームリーダーの金本勝吉さんは「コールセンターで経験豊富なオペレーターは、過去に聞かれた内容から足りない情報を補って対処するのが上手。早押しクイズAIの開発は、必要な情報が欠落している質問に対応することも多いコールセンターの実課題に近い」とコメントした。

AIは早押しで「日本でトップ5の実力」

大会実行委員会のメンバーで、人間側として早押し対決に参加したクイズプレイヤーの徳久倫康さんは「今回は僕たちがAIの動きを学習して対応したが、AIがさらに自分たちに対応してきたら、もう勝てないと思う」と苦笑いした。東大王の鶴崎さんは「早押しクイズでは、日本で5本の指に入る」と評価した。


早押し対決では正答が公開された後に、AI3チームが回答した場所が表示された(写真:公式YouTubeより引用)

問題作成部門では、AIが作成したクイズを「問題文と想定解が正しく対応しているか」「問題文に雑学や興味深い情報が盛り込まれているか」など複数の基準で採点。上位3チームのクイズに人間のクイズプレイヤーが挑戦し、それぞれが最もよくできていると評価したチームに加点して、総合得点を出した。問題作成部門ではパナソニックソリューションテクノロジーのチームが優勝した。

予選の審査を担当した徳久さんは「AIはとんでもなく難しい奇問や、答えが複数あるようなクイズを作ることはあるものの、破綻のない問題文を作るというレベルには達していた」と評した。

AIに面白い問題を要求してみると…

ただ、面白さや雑学要素は不足気味で、そのまま使えそうなものは20問のうち1、2問にとどまったという。また、AIに「面白い問題を」と要求すると嘘を付くケースが頻発したそうだ。

「既存の情報を勘違いしたとか盛るとかではなく、まったくの虚構の情報をもっともらしく流暢に語る(笑)。人間が何を面白がるかというのはわかっているというのが興味深い」(徳久さん)

本選に進出した明治大学理工学部のチームは、Wikipediaを覚えさせてクイズを作成したが、最新のバージョンでなかったためか、ダンスボーカルユニット「新しい学校のリーダーズ」をテーマにした問題作成を指示されたAIが「新しい学校のリーダーズが学校をよくするにはどうすればいいでしょうか」ととんちんかんな作問をするなど、いくつかの固有名詞に対応できなかったという。

また、問題作成部門では参加8チームのうち1チームだけがChatGPTを使わず従来の機械学習の手法でAIを訓練し、問題を作らせたものの、予選最下位だった。実行委員会はその挑戦をたたえながら「従来の手法で挑戦したチームが一番労力をかけていたが、ChatGPTに歯が立たなかった。AI技術やその応用が大きな転換点を迎えていることを実感した」と話した。

キオクシアでクイズAI開発に取り組む市川尚志さんは、「最新のニュースなどからAIでクイズをつくれると、教育や介護、地方創生といった新たな分野でクイズ活用が可能になる。現時点では面白くない、嘘が出現するなどの課題はあるが、ベースとなる問題を大量に作ってくれるので作問効率は大きく上がる」と期待した。

大会ではクイズという身近な素材を通して、ChatGPTなど生成AIをはじめとするAI技術の現在地が示された。

参加者からは「LLMがホットトピックになっているが、日本語のLLM利用に関するコンペはなかなかない。プロンプトや日本語特有の利用のコツを学ぶよい機会になった」「ChatGPTの登場から日が浅いため、どのチームも模索段階で、企業の研究者と大学生の差がそこまで出なかった」などの声が上がった。


企業や大学から多くの研究者、エンジニアが参加した(写真:筆者撮影)

問題作成部門で優勝したAIを開発したパナソニックソリューションテクノロジーの武田鷹広さんは「今は(人間の)クイズ王にかなわないが、1〜2年後には同レベルまでに持っていけるのでは」と手応えを語った。

「クイズAIは高校1年の夏休み」

クイズAIと対峙した人間のプレイヤーからは、「ここまでちゃんと作れるんだな」と驚きの声も漏れた。

鶴崎さんは問題作成を行ったクイズAIのレベルを人間に例えて「中学生ではない。高校1年の7月」と講評した。「高校でクイズを始めた人が3カ月経って、変な問題も作るけど面白さがわかってきた、という感じ。夏休みにものすごく伸びる気がする」。

(浦上 早苗 : 経済ジャーナリスト)