GPT-4は財務諸表から将来の収益の伸びを予測する点で人間のアナリストよりも優れていることが研究により明らかに
OpenAIが開発する大規模言語モデル(LLM)の「GPT-4」は、道徳テストで人間の大学生より優れたスコアをたたき出したり、セキュリティ勧告を読むことで実際の脆弱性を悪用できたりと、すでに一部の分野で人間の能力を超えることが示されています。そんなGPT-4が、プロのアナリストに匹敵する精度の財務諸表分析を行えることが実証されました。
Financial Statement Analysis with Large Language Models by Alex Kim, Maximilian Muhn, Valeri V. Nikolaev :: SSRN
The future of financial analysis: How GPT-4 is disrupting the industry, according to new research | VentureBeat
https://venturebeat.com/ai/the-future-of-financial-analysis-how-gpt-4-is-disrupting-the-industry-according-to-new-research/
Research shows OpenAI's GPT-4 'outperforms' humans in financial statement analysis, but skeptics aren't convinced - SiliconANGLE
https://siliconangle.com/2024/05/26/research-shows-openais-gpt-4-outperforms-humans-financial-statement-analysis-skeptics-arent-convinced/
シカゴ大学ブース・スクール・オブ・ビジネスの研究グループが、「LLMの財務諸表分析能力」を検証するという研究を行いました。研究では企業の財務諸表のみをLLMに入力し、将来の収益を予測させています。テストにおいて、「匿名化された貸借対照表」と「コンテキストが一切ない損益計算書」のみが提供された場合であっても、GPT-4は人間のアナリストを上回る予測精度を実現することに成功しました。
研究グループは「LLMの予測精度は限定的にトレーニングされた最先端の機械学習(ML)モデルのパフォーマンスと同等であることがわかりました」「LLMの予測はトレーニングメモリから生じるものではありません。LLMは企業の将来の業績に関する有用な物語的洞察を生み出すことがわかったのです」と述べ、LLMの財務諸表を読み取る力の高さを称賛しています。
以下のグラフは左が「企業収益予測における正確性スコア」を示したもので、右が「企業収益予測におけるF値」を示したものです。シカゴ大学の研究では、収益予測の正確性とF値の両方において、GPT-4が人間のアナリストを超えるスコアを叩きだしています。
同研究における重要なポイントは「思考の連鎖(CoT)プロンプト」と呼ばれる、中間的な推論ステップを介して複雑な推論能力を実現するプロンプトを用いることです。
CoTプロンプトを採用することでGPT-4は金融アナリストの分析プロセスをエミュレートすることが可能となり、傾向を特定したり比率を計算したり情報を統合して予測を形成したりすることができるようになるとのこと。上記のグラフでもCoTプロンプトを利用した際のスコアである「GPT (with CoT)」の方が、CoTプロンプトを利用しない場合のスコア「GPT (without CoT)」よりも高いことは一目瞭然。加えて、CoTプロンプトを利用してGPT-4に収益予測させる場合の予測精度は60%程度ですが、人間のアナリストの予測精度は53〜57%となっており、CoTプロンプトを利用すれば人間のアナリストよりも正確な収益予測ができることが明らかになっています。
研究グループは「総合すると、私たちの研究結果はLLMが意思決定において中心的な役割を果たす可能性があることを示唆しています」と結論付けました。研究グループはLLMの利点について、「膨大な知識ベース」と「パターンやビジネスコンセプトを認識する能力に由来する、不完全な情報でも直感的な推論を実行できる点」と指摘しています。
以下の図はLLMに企業の収益予測を行わせる際の流れを示したもの。貸借対照表と損益計算書をGPT-4 Turboに入力し、CoTプロンプトを用いて収益を予測しています。具体的にはトレンド分析・比率分析・理論的解釈を実行しているとのことです。
これまで言語モデルにとって数値の分析は大きな課題のひとつであったため、テクノロジーメディアのVentureBeatは「この研究結果は注目に値する」と言及。
論文の著者のひとりであるアレックス・キム氏は、「言語モデルにとって最も困難な領域のひとつが数値領域です。この領域において、言語モデルは計算を実行し、人間のような解釈を行い、複雑な判断を下す必要があります。LLMはテキストタスクにおいて効果的であることが知られていますが、数値を理解するには深い数値推論や人間の心が持ち合わせるような柔軟性に欠けていると考えられてきました」と述べ、CoTプロンプトを用いたGPT-4の収益予測が従来のLLMを上回る成果を出していることを強調しています。
VentureBeatは「汎用言語モデルがひとつの分野に特化したMLモデルのパフォーマンスに匹敵し、人間の専門家を超える能力を示したことは、金融分野におけるLLMの破壊的な可能性を示しています」と言及。人間の専門知識と判断力がすぐにAIに置き換えられるということは考えにくいものの、GPT-4のような強力なツールがアナリストの作業を大幅に強化・効率化できることは明らかであり、今後数年間で財務諸表分析の分野で大きな変化が起きる可能性があると指摘しました。