GoogleのAI部門であるGoogle DeepMindが、YouTubeで最大60秒の縦型動画を共有する「YouTubeショート」で、視覚言語モデル「Flamingo」を使って動画のメタデータを自動生成していることを明らかにしました。



A Google DeepMind AI language model is now making descriptions for YouTube Shorts - The Verge

https://www.theverge.com/2023/5/24/23735850/google-deepmind-ai-flamingo-language-model-descriptions-youtube-shorts

YouTubeショートは説明文やタイトルが十分に整っていないことが多く、このことがYouTubeショートの動画の検索性を低くしている原因になっているそうです。Google DeepMindのコリン・マードックCEOによると、YouTubeショートの場合、動画の作成プロセスが長い動画よりもシンプルで合理的であるため、クリエイターがメタデータを追加しないことがあるとのこと。

また、YouTubeショートの製品管理ディレクターであるトッド・シャーマン氏は「YouTubeショートはフィード上で視聴されることがほとんどで、積極的に検索して動画を探し出すのではなく、次の動画にスワイプして見つけるスタイルなので、メタデータを追加するインセンティブはそれほど高くありません」と述べています。

視覚言語モデルのFlamingoは、動画の最初のフレームを分析し、言語化することで説明文を自動で作成します。



この説明文はユーザーから見えるものではなく、あくまでもメタデータとして保存され、YouTubeショートの動画の検索性を向上させるために活用されます。



シャーマン氏は「FlamingoモデルはYouTubeショートの動画を理解し、説明的なテキストを提供します。この機能は、メタデータを必要としている検索システムにとって非常に価値があります。これによって、ユーザーはビデオを適切に検索できるようになります」と述べています。



IT系ニュースサイトのThe Vergeは、YouTubeショート以外の動画にもFlamingoによるメタデータ作成が行われるかどうかをシャーマン氏に質問しています。シャーマン氏は「その可能性は十分に考えられますが、その必要性はYouTubeショートに比べると少しは低くなると思います」とコメント。長い動画の場合は、クリエイターが撮影や編集に何時間も費やし、動画のメタタグやサムネイルなどにも細かく手を入れるため、Flamingoでわざわざメタデータを作成する意味が薄くなります。

なお、The VergeはAIのFlamingoが動画を分析してテキストタグをつけることについて、過去にGoogleフォトが黒人をゴリラとタグ付けした事件に言及し、「重大な間違いを犯し、クリエイターに損害を与え、Googleを大きな批判にさらす可能性があります」と指摘しています。

GoogleのAIが黒人を「ゴリラ」と分類した事件から8年が経過してもGoogle・Apple・Amazon・MicrosoftのAIはゴリラのラベル付けを避けている - GIGAZINE