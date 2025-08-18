こちらは、「Digital PR Platform」より提供された企業や団体等のプレスリリースを原文のまま掲載しております。内容と削除・修正等のお問い合わせは、「Digital PR Platform」までご連絡をお願い致します。
【甲南大学】言語に関するAI分野で最も権威ある国際学会「ACL 2025」にて優秀論文に選出 ～ AIを利用して単語の意味の豊富さを測定する手法を考案し、言語の新しい普遍的性質を示唆
甲南大学知能情報学部の永田亮准教授（理化学研究所客員研究員）と早稲田大学理工学術院基幹理工学部の田中久美子教授の論文が、自然言語処理分野で最も権威ある国際学会のひとつであるThe 63rd Annual Meeting of the Association for Computational Linguistics （ACL2025）に採択され、優秀論文賞（outstanding paper award）に選出されました。
【研究成果のポイント】
・最新のAI技術を利用して語義（単語の意味）の豊富さを測定する手法を考案しました。
・同手法を用いて、語義と頻度に関する統計的法則として知られるmeaning-frequency lawが24言語について成り立つことを明らかにし、同法則が言語の普遍的性質である可能性が高いことを示しました。
・同手法を用いることで、ChatGPTなどのテキスト生成AIの要素技術である言語モデルがもつ語義識別能力をテストできることを明らかにしました。この成果は、今後の生成AIの発展につながることが期待されます。
本研究成果は、2025年7月27日から8月1日にかけてオーストリアのウィーンで開催されたACL2025で発表され、優秀論文賞に選出されました。
1．背景
人間が産出する言語データにはさまざまな統計的性質が知られており、今回研究対象とした語義と頻度に関する統計的法則（meaning-frequency law）*¹ もその一つです。Meaning-frequency lawは、頻度が高い単語ほど、その単語がもつ意味の数（語義数）が多くなるという法則です。この法則では、単語頻度と語義数を両対数でプロットすると線上になるという、べき乗則*² が成り立ちます（図1）。
既存研究でmeaning-frequency lawの検証は盛んにわれてきましたが、限られた言語と単語しか対象にすることができず、同法則が言語一般に見られる普遍的性質かどうかは明らかではありませんでした。この最大の理由は、辞書に基づいて語義数を決定する点にありました。同じ単語でも辞書により語義数が大きく異なることがあり、語義数を決定することがそもそも難しい問題です。また、辞書に掲載されている単語（主に単語の原型）と語義しか対象にできないという制約もあります。
2．研究成果
本研究では、以上の問題を解決し、従来研究に比べ格段に幅広い言語と単語についてmeaning-frequency lawが成り立つことを明らかにしました。このことは、同法則が言語の普遍的性質である可能性が極めて高いことを示唆しています。すなわち、言語を問わず、単語頻度と語義数には、べき乗則が成り立ち、人間言語の本質の一つである可能性を示しました。
考案した手法では、辞書を用いずに語義数を決定するために、AI技術を利用して、語義数に対応した語義の豊富さという量を新しく定義しました。また、実際に語義の豊富さを測定する手法を考案しました。最新のテキスト生成AIでは、言語モデル*³ という要素技術が使われています。言語モデルに、文やパラグラフなどの言語データを入力すると、各単語は単語ベクトル*⁴ と呼ばれる数値の組に変換されます。数値の組で表される単語ベクトルは、番地のようなものと捉えられますが、適切な前処理を単語ベクトルに施すと、球面（正確には超球面）上のある地点対応した番地と解釈することができます（図2）。意味が類似した単語は、類似した数値の組からなる単語ベクトルとして表されます。球面上で解釈すると、意味が類似した単語は、球面上の近い地点に配置されることになります。逆に、意味が大きく異なると離れた地点のベクトルとなります。このことを利用して、 Webページなどの大量の言語データに出現する各単語の全用例を言語モデルで単語ベクトルに変換すると、その単語がカバーする球面上の範囲が明らかになります。この範囲が広いほど語義が豊富であると解釈できます。今回考案した手法は、ベクトルがカバーする範囲に基づいて語義の豊富さを定義します。より厳密には、von Mises-Fisher分布*⁵ と呼ばれる確率分布を仮定すると、単語ベクトルのカバーする範囲は、全単語ベクトルを平均したベクトルの長さに応じた量で表されることを数学的に示すことができます。本研究では、この量を語義の豊富さと定義して、meaning-frequency lawを新しく定式化しました。