EvernoteとGoogle Documentの中国語OCR機能を比べてみる その3 - JPEGで読み込み

懲りもせずこのシリーズが復活しているのには訳があります。

前回、PDFファイルで比較した際には、Google Documentの圧勝という結果に終わったのですが、ふとJPEGで読み込んだらどうなるかという事が頭をよぎりました。Evernoteをお使いの方ならおわかりになるとお思いますが、JPEGの中に文字情報が含まれているとそれを認識してくれる機能があり、検索などで使われると結構便利だったりするのです。

ということで、仕切り直しです。JPEGの素材をそれぞれGoogle DocumentとEvernoteで読み込ませて結果を比べてみます。

本日の素材

f:id:deutschina:20130814103721j:plain

(使用済み)中国語テキスト計2ページをJPEG形式、解像度300dpiでスキャンしました。比較なら前回と同じのを使えよと突っ込みが入りそうですが、中国語学習が現在進行形なのでお許しください(笑)。

いろんな意味で安定の Google Document

前回と同じ要領で、JPEGファイルをGoogle DocumentにUploadします。オプションで文字認識するか聞いてくるので、Simplified Chineseを選択してUpload + Conversionされるのを待つことしばし。前回と同じようにイメージの下に文字認識された結果がInsertされています。

f:id:deutschina:20130814092843j:plain

丸数字が@に変換されていたり、文の最後の句点(。)も小文字のoに変換されているところは相変わらずですが、PDFの時よりも、少し認識度が落ちているようにも見えます。

一手間かけてのEvernote

Evernoteの場合は、まずイメージをEvernote特有のenex形式でエクスポートします。エクスポートしたファイルをメモ帳で開くとファイルの一番最後の方に文字認識の結果とおぼしき内容が出力されています。

f:id:deutschina:20130814092943j:plain

少し大きくしてみましょう。

f:id:deutschina:20130814093422j:plain

こういうとき、NLTKでタグを取り除くコマンドとかやれば良いんでしょうが、それをやる前にとあることに気がついてしまいました。似たようなというか、ほぼ同じ文字列で一部だけ違う文字列が複数回登場しています。例えばこんな感じです。

<i>乌烟痒气</t><t w="48">乌烟摩气</t><t w="47">乌烟璋气</t><t w="46">马烟痒气</t><t w="46">乌姻痒气</t><t w="44">乌姻摩气</i>

実際の文書では1回しか登場していませんが、この成語「乌烟瘴气」(これが正解)のそっくりさんが6個ほど登場しています。これは、文字認識の結果確定に到らない場合に複数の結果を貼り付けているように見えます。

・・・全部微妙に間違っているのが切ないけど(苦笑)

これはEvernoteのOCRは検索精度を上げる事に主眼が置かれているからだと想像します。正しいという確証のない認識結果を1つだけ貼り付けるより、「たぶんこうだろうな」という候補を複数貼り付けておいた方が検索の精度は上がります。なぜなら検索する人は正解(=検索用語)を知っている可能性が高いからです。

ちなみに、上の中にあった用語(間違っているけどねw)をEvernoteで検索窓に入れてやるとこんな感じで引っかかります。

f:id:deutschina:20130814100625j:plain

黄色い部分は文字情報が埋め込まれている場所ということになると思います。残念ながら正解の文字列が認識できていないので、正しい「乌烟瘴气」を入れてもこの文書は引っかからないのが残念ですけどね。

まとめ

結論から言うと、スキャナを使うという前提であれば、PDF形式で読み込んでGoogle Documentに文字認識させる方が精度は良さそうです。JPEGを使った場合は、ファイルサイズがPDFより大きくなる割に文字認識精度が上がらない、というのが現時点(2013年8月)での感想です。

ただ、今回Evernoteの結果を見て、いろいろ気づきがありました。OCRの認識精度を高める事は、普通に考えれば認識のスピードやプログラムの大きさなどとトレードオフの関係にあるはずです。Evernoteの場合は、OCRの目的を本来文字データを含まない画像を検索可能にすることに絞っているので、高認識度は多少犠牲にしても、逆に可能性のありそうなモノを複数貼り付けておくというアプローチでうまく対応していると言うことになると思います。逆によく考えてあるなぁと感心しました。

ということで、Google DocumentとEvernoteの中国語OCRの機能を比べてみるというお話しは、とりあえずこれで打ち止めとしたいと思います。