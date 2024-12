武漢大学などの研究チームが、録音した音声を風景画像に変換することに成功したと発表しました。実験には特別に設計したAIが使われました。From hearing to seeing: Linking auditory and visual place perceptions with soundscape-to-image generative artificial intelligence - ScienceDirect

https://www.sciencedirect.com/science/article/abs/pii/S0198971524000516Researchers Use AI To Turn Sound Recordings Into Accurate Street Images - UT Newshttps://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/武漢大学のYonggai Zhuang氏らは、北米、アジア、ヨーロッパの都市で撮影されたYouTubeの動画と音声を用いて10秒間の音声と静止画のペアを作成。これらを使用して、音声から高解像度の画像を生成できるAIモデルを設計しました。そして、AIに100種類の音声を聞かせて画像を生成してもらい、生成後の画像と実際の画像を比較してどれほど正しいのかを人間とコンピューターに評価してもらいました。コンピューターによる評価では、両画像の建物や空、植物の相対的な割合を比較しています。その結果、生成された画像と実際の画像との間には空と植物の割合に強い相関が見られ、建物の割合にはやや相関が低いことがわかったそうです。また、人間の参加者は平均80%の精度で実際の画像に類似した画像を選択したとのことです。Zhuang氏らは「音から情景を思い描く能力は人間特有の能力であり、環境との深い感覚的なつながりを反映しています。大規模言語モデルにサポートされた高度なAI技術を使用することで、機械が人間の感覚に近いものを得られる可能性があることが実証されました」と話しました。コンピューターによる分析では、生成された画像は空や植物、建物の比率を近似していることに加え、建築様式や物体間の距離を近しく反映していることが多く、また録音が晴天時に行われたのか、曇天時なのか、夜間なのかといった照明条件も正確に反映していたことがわかっています。Zhuang氏らは「照明条件は、交通音や夜行性昆虫の鳴き声など、特定の音声から判断しているのかもしれません」と指摘しています。Zhuang氏らは「今回の研究は、AIが人間の主観的な体験を理解できるという可能性を示唆しています。人間が目を閉じて周囲の音に耳を傾けると、遠くから聞こえる車の音だったり、木の葉の優しいざわめきを街や森の風景と結びつけることができるはずです。こうした感覚をAIに共有することで、快適かつ美しい空間を作る都市設計にAIを活用できる可能性があります」と述べました。