近年のAIは研究が進み、人間と遜色ないほどの精度でリアルタイムの会話をすることが可能です。しかし、人間とAIの思考には大きな隔たりがあることを、アムステルダム大学などの研究チームが発見しました。Evaluating the Robustness of Analogical Reasoning in GPT Models(PDFファイル)https://openreview.net/pdf?id=t5cy5v9wph

Scientists discover major differences in how humans and AI 'think' - and the implications could be significant | Live Sciencehttps://www.livescience.com/technology/artificial-intelligence/scientists-discover-major-differences-in-how-humans-and-ai-think-and-the-implications-could-be-significantアムステルダム大学でニューロシンボリックAIを研究するマーサ・ルイス助教授らの研究チームはまず、OpenAIの大規模言語モデル・GPT-3に対して「提示された例を参照して、出されたお題に続く文字を特定する」という問題を提示しました。実際の問題例が以下。・「a b c d」が「a b c e」となるとき、「1 2 3 4」はどうなる?・「a b c d」が「a b c e」となるとき、「i j k l」はどうなる?・「a b b c d」が「a b c d」となるとき、「i j k k l」はどうなる?実験の結果、これらの問題に対して人間はすぐに正しい答えをを提示できました。一方、AIは「『a b c d』が『a b c e』となるとき、『i j k l』はどうなる?」のような問題は正解できましたが、「『a b b c d』が『a b c d』となるとき、『i j k k l』はどうなる?」のような比較的複雑な問題は間違えがちであることが明らかになりました。他にも、研究チームはGPT-3やGPT-3.5、GPT-4に対して提示されたアルファベットを並べ替えるアナグラムの問題を提示したり、「以下の表の『?』を埋めよ」といった問題を出したりしています。2 2 25 5 56 6 ?これらの問題でも大規模言語モデルは人間と比較して間違えやすいことが報告されています。ルイス氏は「AIはパターンを特定して一致させるのは得意ですが、それらのパターンを使って一般化することはあまり得意ではないようです」と指摘しました。ほとんどのAIは数多くのデータセットを使って学習しており、学習に使ったトレーニングデータが多ければ多いほど、より多くのパターンが特定されます。しかしルイス氏は「データに何が含まれているかよりも、データがどのように使用されるかが重要です」と述べています。また、海外メディアのLiveScienceは「AIは研究や判例法分析、量刑の推定などの分野で広く使われるようになってきていますが、類推する能力が低いと、判例がわずかに異なるケースに対応できない可能性があります」と語りました。今回の研究を通して研究チームは「AIモデルには、トレーニング中に存在しなかったデータのサンプルを観察し、質問に従ってその答えを予測する『ゼロショット』学習能力がない」と結論付けています。