コンピューターがアップロードされた画像や指定したURLの画像を解析し、何が写っているのかを判定して自然言語で説明するというサービス「CaptionBot」が提供されています。人間の判断能力にも近づいているといわれる画像認識機能の一端を体験できるサイトの実力を試してみました。

CaptionBot - For pictures worth the thousand words

https://www.captionbot.ai/



CaptionBotはブラウザからアクセスして画像をアップロードするか、画像のURLを指定することで画像認識を体験できるサービスです。



このように、エクスプローラーで画像を指定してから「開く」をクリックしてアップロードすると……



数秒で画像が解析され、結果が画像の上に表示されました。この画像だと少し判定が難しかったようで、「自信は無いのですが、カップを持っている手だと思います」と、なかなか惜しい答えに。画面左下に書かれた「How did I do? (結果はどうでしたか?)」の部分では、星の数で結果を評価できるようになっています。



戦闘機の画像だと「青空を飛ぶ戦闘ジェット機だと思います」と、こちらは大正解。



箱にスポッと入った猫の画像だと「ネクタイを締めた猫だと思います」と、猫の部分だけは正解。



冷やしちゃんぽんの画像は「サラダがのった食べ物が一皿と水筒」と、当たらずとも遠からず。人間でも難しいと思いますが、麺が見えていないこともあって、さすがに「ちゃんぽん」というキーワードにたどり着くのは無理なようです。



ちゃんぽんを箸上げした画像だと、「パスタと野菜の料理をアップで撮影したもの」という意味の説明。もう少し引きの写真を使うと、「chopstick (箸)」というキーワードが出てきていたのか気になるところ。



洋上のドローン船に着陸成功したSpaceXの「Falcon 9」ロケットだと、「海面でセイリングする船」という回答。



コンクリートブロックの上にドローンとiPhoneとiPadを置いた写真は少し難しかったようで、「自信はありませんが、箱の上に座っている鳥だと思います」との回答。外れではありますが、ドローンを「鳥」と判定するに至った思考プロセスが非常に気になります。



なお、CaptionBotの解説ページによると、このサービスはMicrosoft Cognitive Services(Microsoft認知サービス)の認識機能を使って提供されているものとのこと。Computer Vision APIとEmotion API、Bing Image API、そして自然言語を生成するNatural Languageを使って答えを導くように作られています。



また、CaptionBotは同じくMicrosoftが提供している年齢推測機能「How Old Do I Look?」などの兄弟的な位置づけのサービスとのことです。

画像から年齢を推測してくれるMicrosoft公式の機械学習サイト「How Old Do I Look?」 - GIGAZINE