単行本が全60巻ある横山光輝氏のマンガ「三国志」のコマを1つずつ分割、それぞれの吹き出し内の文字をOCRで取得し、全文検索できるようにしたシステムをDamisuさん(@heruheru3)が開発しました。

横山光輝三国志 画像全文検索システム

http://mitchell-fts.appspot.com/



このシステムは2017年8月3日(木)〜5日(土)に慶應義塾大学日吉キャンパスで開催された「builderscon 2017」の「横山光輝三国志に『うむ』は何コマある マンガ全文検索システムの構築」という講演の技術デモ・検証向けに作成されたもので、期間中はコマの画像が実際に表示されましたが、今は該当するコマがどの巻に収録されているのかを教えてくれるようになっています。

デモ時の動作風景はこちらのツイートで見られます。



使い方は、Google検索などと同じように、作中のどこに出てきたか知りたいフレーズを入力して検索するだけ。「うむ」の場合は458コマ含まれていたことがわかります。結果表示の書式は「希望コミックス版(全60巻)の当該巻数[当該巻名] ページ数 [当該話数] コマ数」です。



「むむむ」は97コマ登場しました。いろいろな武将が考え込んだり悩んだりして「むむむ」と唸っていますが、特に有名なのは、諸葛亮が馬超を味方に引き入れるべく送り込んだ李恢が馬超を説得するシーンで、「むむむ」と唸った馬超に李恢は「なにがむむむだ!」と返しています。



ぱっと思い付かない人は「定番」タブをクリックすると、横山光輝三国志で定番としてわりと知られているフレーズの候補が出てくるので、ここから選ぶというのもアリです。たとえば「斬れ」は45コマ登場。荊州南部侵攻の際、劉度配下の邢道栄を捕らえた劉備が、何のためらいもなく即座に「斬れっ!」と言い放ったコマが有名です。



驚きを表す「げえ」は、意外にも18コマだけ。赤壁の戦いで大敗してボロボロになり敗走する途上の曹操が、諸葛亮の読み通りの道を逃げた結果、伏兵として配置されていた関羽に出会ったときの「げえっ、関羽」という、もはや絶望しか感じないコマの印象が強すぎるのかも。



吹き出し外の書き文字は対応してないものが多いようで、横山光輝三国志の戦いではよく鳴り響いている「ジャーンジャーン」がどれぐらい登場するのかは不明でした。



なお、システム構成やコマをどう分割したのか、OCRはどうしたのかといった内容については、Damisuさんが当日のスライドを公開しているので、参考にしてください。

横山光輝三国志 全文検索システム - Google スライド