結局NLTKで何をやりたいのか

この本の写経も気がつけば第6章に突入して、この本のボリュームからすると約半分というところまで消化してきています。

入門 自然言語処理

入門 自然言語処理

機械的に写経して、自分の環境ではこうなっただとか、こういう理解をしたという事を書いています。誰かの役に立ったかどうか分かりませんが、それでもつたない英語で書いているだけで、世界何十カ国からアクセスがあることに新鮮な驚きを覚えていたものの、ちょうどはてなブログに引っ越しする前後で行き詰まっていました。

簡単にいうと写経してもEndless loopに陥るとか、意味の分からないSyntax errorを頂戴するとか。お前にNLTK的なモノは向いてないよと言われているような気さえするほどテンションが落ちました。と言っても、今見ると単なるTypoとか、インデントを間違えてLoopの中に全部の処理を放り込んでしまったとか、全くもってお恥ずかしいレベルの話なんですけどね。

とはいえ、写経はともかくNTLKを学んだ結果で、何をしたいんだろうと言う話を整理するのも悪くないなと思ったので、ここに雑記的に書いておこうと思います。

今やっているところ

自分自身はPythonもほぼ初心者だったので、Python+NLTKを使う環境作りから初めて、あとはひたすら写経、これが結構面白くてはまるのに時間がかかりませんでした。もちろん写経が面白いという訳ではなく、NLTKで出来ることを自分で追体験していてはまったという意味です。

今やっている第6.1章というのは、教師あり学習という要素を解析するにあたってツールを作って、特定の規則性のようなモノを学習させて、その妥当性を検証するというのを繰り返してます。イマイチ日本語の解析に役立つのかなと言う半信半疑なところもありつつも、修行だと思ってやってます(笑)

漠然とやりたいこと

自分と言語の関わりと言えば、中国語とは切っても切れない関係にあります。今からだいぶ前(笑)に中国語学習を初めて、実際に中国にも通算で4年以上住んでいます。実は、以前のブログにも書いたのですが、だいたい6000単語ぐらいのデータベース(単語とピンイン)を以前作って、それを上手いことNLTKの枠組みを使えないかとか考えています。

  • コロケーション(collocation)的なモノ、どの動詞を使うのが自然かとか


前者は、今持っている単語データベースで何とかなるかもしれないけど、後者は自分用の文章コーパスを作る必要があるかもと漠然と想像しています。もちろん、 北京大学のお化けコーパスとかもあるのは知ってますが、語学学習者となると、自分の学習した内容から引っ張ってくる方が語学学習者としては良いのかなとも思います。となると、テキストから自分で文字起こしして、それを文や単語に分割というイメージ?

・・・ちょっと考えただけでも面白そう。

となると何を学ぶべきか

この本の大部分は英語を使うことを想定して、日本語版だけに第12章というのがあって日本語特有の処理が追加されています。普通なら一気にぶっ飛んで第12章をやりつつ分からないところがあれば戻るというイメージだろうけど、上に書いたように日本語でやりたいことがまだ見つかっていない。となると、第11章のコーパスを作るところあたりをやった方が良いのかなと思ったり。じゃ、今の写経はどうする?これも半分まで来たら完走したい気もする。

もう少し考えます。(結論出てないのかいw)