幼児が新しく知った単語を、特定の物体や概念とどのように関連付けているのかについては、さまざまな研究が行われてきましたが、一般化するには限界がありました。ニューヨーク大学の研究者らは、子どもの一人称体験を再現できる映像をヘッドマウントカメラで撮影して、その映像をもとにAIをトレーニングするという前例のない研究を行いました。

Grounded language acquisition through the eyes and ears of a single child | Science

https://www.science.org/doi/10.1126/science.adi1374

AI Learns Through the Eyes and Ears of a Child

https://www.nyu.edu/about/news-publications/news/2024/february/ai-learns-through-the-eyes-and-ears-of-a-child.html



研究に取り組んだのはニューヨーク大学データサイエンスセンターのヴォン・ワイキーン氏、ワン・ウェンタオ氏、エミン・オーハン氏、ブレンデン・M・レイク氏です。

チームは、レイク氏の娘であるルナちゃんにヘッドマウントカメラを装着してもらい、6カ月のときから2歳になるまで、何を見聞きしたのかを録画しました。

録画された映像にはルナちゃんが遊ぶ様子や食事している様子、絵本の読み聞かせを聞いている様子など、発達全般にわたるさまざまな活動が含まれていました。登場する単語の数は約25万語で、多くは繰り返し使われるものだったそうです。

Can AI Learn Language the Way Babies Do? - YouTube

研究チームは週に1回、60時間以上の録画された映像を使ってAIのトレーニングを実施。トレーニングにあたっては映像から切り出した画像と、文字起こしされた音声が、それぞれ別のモジュールで取り込まれて、コントラスト学習で組み合わせて使用されました。

たとえば、親が子どもに向けて何かを言っているとき、発話されている単語の一部は、子どもが見ている何かを指している可能性があります。こうした手がかりを組み合わせて「この単語はこの物体・概念を指している」と学習することになります。

この「Child’s View for Contrastive Learning(CVCL)モデル」をトレーニングしたあと、ヴォン氏らは、乳児の単語学習を測定するのと同じように、ターゲットとなる単語と異なる4つの画像を提示して、単語がどれを指すのかテストしました。すると、CVCLモデルは、子どもが日常でふれあうような数多くの単語と概念を学習したことを示しました。



論文の筆頭著者であるヴォン氏は「我々の研究結果は、最近のアルゴリズムの進歩と、1人の子どもの自然な経験の組み合わせが、初期の言語と概念の習得に関する理解を再構築する可能性があることを示すものです」と述べました。

データサイエンスセンターおよび心理学科准教授で、論文の最終著者であるレイク氏は「AIモデルを使って、子どもが直面する言語学習問題を研究することで、『子どもが言葉を学ぶために必要な要素は何か』という定番の議論に対処することができます。学習だけでできることは、これまで考えられてきたよりも多いようです」と述べています。