EvernoteとGoogle documentのOCR機能を比べてみる(中国語)

つい昨日のことなんですが、Google Documentに多言語OCR機能が付いてるという事を今更ながらに知ってしまいました。(苦笑)

長年愛用しているEvernoteにも同様の機能がありますが、英語+日本語というように、英語とその他1言語しか選べないので、これまでは「English+日本語」の設定のままにしていました。ただ、よくよく考えると、日本にいて日本語の文書をScanするときはScansnapで読み込んでおり、そこで日本語OCRにかけているのでEvernoteの設定で「English+日本語」に拘ることはないことに気がついたので、両者の性能を比べてみることにしました。

FUJITSU ScanSnap S1500M Mac専用 Acrobat 9 Pro標準添付 FI-S1500M-A

FUJITSU ScanSnap S1500M Mac専用 Acrobat 9 Pro標準添付 FI-S1500M-A

素材は?

まず、元々の素材は中国語の教科書をスキャンしてPDF化したものを使うことにしました。授業後に書き込みのある状態の部分、あとは何も書き込みがない部分が入り交じったような感じです。

f:id:deutschina:20130731090445p:plain
f:id:deutschina:20130731090446p:plain

こいつをEvernoteとGoogle Documentに読み込ませて文字認識をさせて結果を比べてみます。

まずはEvernoteから

EvernoteにWebでログインして、Recognition Languageの設定を「English+简体中文」に変更します。

f:id:deutschina:20130731091300p:plain

件のPDFファイルを新規ノートとしてEvernoteにドロップして待つことしばし、こんな感じでSearchable PDFとして保存というメニューが出てきたら、すかさず選択してファイルを保存します。

f:id:deutschina:20130731091529p:plain

それで出てきた結果がこちら。

f:id:deutschina:20130731091728p:plain

全6ページの空白のPDFが出力されてきました(泣)。

これは出だしから厳しい展開ですね。。。

Google Documentは頑張ったけど

今度はGoogle Documentです。Google DocumentもやはりWeb側で設定があります。

f:id:deutschina:20130731092221p:plain

アップロードの際にその都度確認するというオプションを選んでおきます。画面ショット取り忘れましたが、ファイルをアップロードするときに言語を選ぶことができるので、Simplefied Chineseを選択します。

で、アップロードした結果はどうなったか。選んだオプション的に、元の読み込んだイメージの後ろに、文字認識をしたテキストデータが挿入されるという形式になっていまいした。

f:id:deutschina:20130731092520p:plain

例えば、こんな出だしのページが、こんな感じで出力されていました。

f:id:deutschina:20130731092634p:plain

意外に悪くない認識率だと思いました。ただ、得手不得手があるようで、こんな感じで意味不明となっているページもありました。

f:id:deutschina:20130731092726p:plain

Simplified Chineseを選んだからなのは分かっていますが、声調記号付きのピンインはこんな感じ。

f:id:deutschina:20130731092811p:plain

これだったら手入力した方が早いかもしれないですね。

とりあえずの(今のところの)結論

見た感じ、Evernoteは最初のページで手書きの書き込みがあるともう画として認識してしまったのか、結果的には何も文字情報としては変換されませんでした。一方のGoogle Documentの方は、手書きのコメントは華麗にスルーして頑張って認識しています。ただ、実用に耐えるかと言われるとちと厳しいかな?という感じです。

ただ、元々の文書をSCANするときに解像度を上げてみるなど、もう少し工夫することで、また違った結果が得られるかも知れませんね。ということで、また別の材料で改めて実験してみようと思います。