画像・PDF・TXT・メールなどの中身を読み取って検索できるようにするオープンソースのドキュメント整理ツール「Teedy」レビュー
Teedyはさまざまな種類のファイルの中身を読み取って検索できる状態にしてくれるドキュメント整理ツールです。受信したメールを自動で取り込む設定もできるとのことなので、実際にセルフホストして使い勝手を確かめてみました。
sismics/docs: Lightweight document management system packed with all the features you can expect from big expensive solutions
TeedyのインストールにDockerを利用するので、下記のリンクから自分の環境に合った方法でDockerをインストールします。
Install Docker Engine | Docker Documentation
https://docs.docker.com/engine/install/
今回はDebianを利用するため、下記のコマンドを入力しました。
sudo apt-get update
sudo apt-get install ca-certificates curl gnupg
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/debian/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
sudo chmod a+r /etc/apt/keyrings/docker.gpg
echo \
"deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \
"$(. /etc/os-release && echo "")" stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
リポジトリの「Examples」にある「Default, using PostgreSQL」をコピーします。
コピーした内容を「docker-compose.yml」という名前で保存し、テキストエディタで開いてポート番号を80番に変更。また、「DOCS_BASE_URL」にTeedyを設置するURLを入力し、管理者のメールアドレスとパスワードを入力します。ドキュメントを見ると「DOCS_DEFAULT_LANGUAGE」で標準で使用する言語を設定できるとのことだったので、「jpn」と入力しました。
下記のコマンドを入力してTeedyを起動。
sudo docker compose up -d
サーバーのアドレスをブラウザに入力するとTeedyのログイン画面が表示されました。ID・パスワードともに「admin」と入力してログインします。
初回ログイン時にチュートリアルが行われます。「→」をクリック。
Teedyでは「ドキュメント」という単位でデータを整理します。それぞれのドキュメントには複数のファイルを添付することが可能とのこと。「→」をクリックします。
ファイルは特定のエリアにドラッグ&ドロップすることでアップロード可能です。ドキュメントに対してアップロードするほか、直接アップロードすることでドキュメントを作成することもできます。「→」をクリック。
そして検索欄を使用することで目的のドキュメントを探すことが可能です。「→」をクリック。
ドキュメントはタグを付けて整理することもできるとのこと。チェックマークをクリックしてチュートリアルを終了します。
早速「Add a document」をクリックしてドキュメントを作成しようとしたところ、言語設定が「English」になっているのを発見。
「Settings」の「Configuration」をチェックするとドキュメントの標準言語が英語になっていました。
「日本語」を選択して「Save」をクリックします。
再び「Add a document」をクリックし、タイトルと説明文を入力して「Save」をクリック。
今回は下記の4記事の内容をPDF・DOCX・TXT・PNGに書き出してTeedyの検索性能をチェックしてみます。
Appleが「スポーツ賭博」に手を染めようとしているとの指摘 - GIGAZINE
フリーソフトウェアライセンスの「GPL」に違反したとして1億円超の損害賠償を大手通信事業者のOrangeが命じられる - GIGAZINE
NVIDIAがCUDAを他のハードウェア上で実行することを禁止 - GIGAZINE
世界の新車販売の5台に1台がEVとなり石油需要が抑制されていたことが判明、バッテリー価格もどんどん下落中 - GIGAZINE
4つのファイルをドラッグ&ドロップでアップロード。
PDFファイルの内容を検索欄に入れてみると、ヒット部分がプレビューで表示されました。
一方、DOCXのファイルに含まれている単語を入力しても全くヒットしませんでした。
ただのテキストファイルの中身は当然のようにヒット。
最後のPNGファイルについても見事検索にヒットしました。画像ファイルをアップロードすると自動で文字を読み取ってくれる模様です。
また、Teedyにはメールを自動で取り込む機能が存在しています。「Settings」の「Inbox scanning」をクリック。
「Enable inbox scanning」にチェックを入れ、IMAPのホスト名・ユーザー名・パスワードを入力。
「Test the parameters」をクリックし、接続に成功したら「Save」で保存します。
メールを送信後、しばらく待機するとドキュメントの一覧に表示されました。メール1通ごとに1つのドキュメントとして取り込まれます。
もちろんメール本文の内容で検索することが可能になっていました。
なお、メールの取り込みは15分ごとに行われるとのことです。