Twitter、Facebookが投稿中の写真内容を読み上げる機能を次々導入する背景

写真拡大 (全2枚)

先日、Facebookが投稿中の写真の内容を読み上げる機能(Automatic Alternative Text)を発表した。認識技術を用いることで写真の内容を自動認識し、読み上げてくれるという機能だ。
認識可能な被写体は、自動車、オートバイなどの乗り物、アウトドア、山、波、太陽、木などの自然、食べもの……など。

これまでは、音声読み上げ機能を使えば投稿の文章は読み上げられるが、投稿に添付されている写真については「写真が添付されている」ということしか知る方法がなかった。それが、Automatic Alternative Textでは何の写真なのかを説明してくれるのだ。

デモムービーとして、「Image may contain: outdoor,cloud,foliage,plant,tree」のように、何が写っているかを読み上げる様子が公開されている。




これがInstagram、Facebookメッセンジャー、WhatsAppなど、Facebook関連サービスに導入されるという。

一方、Twitterも3月末にツイートに添付された画像の内容を読み上げる機能の追加を発表。
ただ、これは投稿者があらかじめ説明を入力する必要がある。

◎ 従来からあったaltタグでの代替テキスト
こうしたFacebookやTwitterの動きは、視覚障害者に考慮し、視力が弱い人でも情報にアクセスできるようにというもの。

この考え方は、実は、HTMLの初期からあった。
写真などの画像をHTMLドキュメントの中に埋め込む際は、altタグを使って中身を表わすテキストを代替用として設定しておくことが推奨されている。
そもそもWebでは「誰でもが同じソースに同じようにアクセスできること」が重要視され、HTMLの仕様にも「Webアクセシビリティ」といった要素が取り入れられている。

実際、当時はネットの回線が細かったことから、大きな画像だと読み込みに時間がかかる場合も多々あった。
視覚障害者のためだけではなく、画像表示を待つ間に写真の内容がわかるので、altタグに説明を入れたほうがいいと言われていた。

ただ、タグを手書きする時代も過ぎ、今はブログツールやSNSで無意識に写真をアップロードするようになった。altタグでの説明も、いつのまにか”置いていかれていた配慮”となったといえる。
もちろん、いまもブログサービスやSNS、写真共有サイトなどでソースコードを表示すると、altタグは使われている。そういう場合、多くは” ”で、altタグの中身はブランクになっている。

◎ 自動認識技術の精度は上がっている!?
もう1つのポイントは、Twitterが投稿者自身、つまり人が写真の説明を入力するのに対し、Facebookの写真の内容を読み上げる機能は、人ではなく、自動認識技術が使われるということだ。

写真の自動認識というと、昨年、GoogleがGoogleフォトのサービスの1つとして提供を始めた自動認識システムが誤認識(黒人2人の写真を“Gorillas”とタグ付けした)を行い、物議を醸したのも記憶に新しい。それが約1年前のこと。

今回のニュースでも、Twitterのように自分で入力できるならいいが、自動認識では間違った内容で読み上げられるのではという危惧も当然ある。
現在も研究が進んでいる画像の自動認識は、認識の精度や性能はかなりアップしていると言われているが。

やはり自動認識技術の開発に力を入れているMicrosoftがWebで公開しているものに、「Captionbot.ai」がある。これはCognitive Services(認識サービス)のデモの1つとして公開されているものだ。
手持ちの写真をアップロードすると、何の写真かを答えてくれるbotだ。
試したところ、こんなに結果だ。「beach」と出てくるところは、古い、画質の悪い写真でもそこそこ認識している感じ(顔が写っていなかったせいか、女の子がboyになってしまったが)。




回線の高速化・大容量化が進み、一気に加速したWebのリッチコンテンツ。
ここに来て、新しい技術を使って、よりアクセシビリティが便利になるという動きにつながっている。

Facebookの画像認識技術の実サービスでの活用がどこまでの精度なのかはまだわからないが、人が実際に使っていくことで性能が上がっていくことは十分考えられるわけで、期待したい。


大内孝子