AIは入力されたプロンプトに従ってさまざまな問題を解決したり、自然な応答を生成したりすることができますが、その精度はプロンプトの書き方に影響されることがわかっています。新たに、「AIに『深呼吸をして』といった人間に送るようなアドバイスを与えると問題の正答率が上昇する」ということが、Google DeepMindの研究チームによって報告されました。

一般的に、AIモデルのパフォーマンスを向上させるには、タスクの数学的定義に基づいた最適化アルゴリズムやオプティマイザーなどが用いられます。これに対してDeepMindの研究チームは、大規模言語モデルを使用して自然言語で記述された「メタプロンプト」を改善し、最適化プロセスを実行する「Optimization by PROmpting(OPRO)」という手法を考案しました。

論文のプレプリントサーバー・arXivに掲載された「Large Language Models as Optimizers(オプティマイザーとしての大規模言語モデル)」という論文では、OPROがどのような仕組みで機能するのかが解説されています。

以下の図は、OPROの仕組みを簡単に表したものです。OPROの中心となるのは「meta-prompt(メタプロンプト)」と呼ばれるアルゴリズムであり、これは過去のプロンプトが特定のタスクを解決するのにどれほど有効だったのかを評価します。これに基づいて大規模言語モデルが改善されたプロンプトを生成し、それによって得られた回答を評価してスコア付けし、さらにメタプロンプトで改善を行うという流れになっています。

OPROの仕組みは、人間がさまざまなプロンプトを試行錯誤し、少しずつ改善していくプロセスを大規模言語モデルに担わせるようなものです。研究チームは、「最適化問題を正式に定義し、プログラムされたソルバーで更新ステップを導き出す代わりに、最適化問題を自然言語で記述します。そして、問題の記述と以前の解に基づいて、新しい解を反復的に生成するよう大規模言語モデルに指示します」と述べています。

研究チームは、小学校レベルの算数問題のデータセットであるGSM8Kと、多様な問題からなる推論テストデータセットのBig-Bench HardでOPROの性能をテストしました。その結果、OPROによって最適化されたプロンプトはGSM8KとBig-Bench Hardの両方で人間が設計したプロンプトを大幅に上回り、場合によっては50%を超えることが判明したと報告されています。

今回の研究で特に興味深いものだとテクノロジー系メディアのArs Technicaが指摘しているのが、「Take a deep breath and work on this problem step by step(深呼吸をして、この問題に一歩ずつ取り組もう)」というプロンプトを入力すると、Googleの大規模現モデル・PaLM 2におけるGSM8Kの正答率が最も高くなったという点です。PaLM 2は、特別なプロンプトがなかった場合だとGSM8Kの正答率が34%にとどまりましたが、「Let’s think step by step(一歩ずつ考えよう)」と付け加えた場合は正答率が71.8%に上昇し、「深呼吸をして、この問題に一歩ずつ取り組もう」と付け加えると正答率は80.2%に達しました。

当然ながらAIは人間のように体を持っていないため、「深呼吸するといい」とアドバイスされたところで深呼吸を行うことはありません。それにもかかわらず、こうした人間らしいアドバイスがAIの精度を向上させることは、東京大学やGoogleが発表した2022年の研究でも報告されています。

Ars Technicaは、AIモデルのトレーニングに含まれる本やウェブのQ&Aフォーラムなどには、より慎重な解決策を示す前に「一歩ずつ考えましょう」「深呼吸してみましょう」といった言葉が含まれていることが多いと指摘。そのため、これらのフレーズを入力するとAIモデルがデータセット中の高品質な答えにたどり着いたり、推論や問題解決の良い例を生成したりするのに役立つ可能性があると主張しました。

