Ubuntu+Perl+CaboCha

日本語係り受け解析や形態素解析などテキスト処理をする際には、windows xp+Java+cabochaの組み合わせよりもlinux+perl+cabochaの方が勝っていると思っている。

僕はlinux上でのプログラム経験しかない*1。それも3年前からまったく触ってないし、すべてinterpreterwindowsでのプログラム経験がないし、Javaは触ったことがない。

よって、windows xp+Java+cabochaとlinux+perl+cabochaの比較はできないのだが、少ない僕の経験から言っても、テキスト処理をさせたときのlinux+perlの組み合わせは使い勝手が良い。

perlはメモリの確保や型を気にしなくていいし、文字列を扱う関数も豊富だ。

そういうわけで、ある人にlinux+perl+cabochaを勧めた。

その人の研究室ではperlを使っている人がいなく、だいたいJavaを使っているそうだ。

これは、詳しい人に聞いたほうが良いと思い、id:kaisehに聞いてみた。

彼曰く、「perlは最強、ただし学習の手間を考えると、Javaでほとんどできてるなら、そのまま通したほうが良い。」

とりあえずUbuntu+Perl+cabochaの環境を設定してみた。

perlUbuntuをinstallする際に標準で入っている。

synapticにcabochaがあれば一瞬で出来るのだが、残念ながらない。仕方なく、configure+make+make installで入れるもエラーをはきまくる。しかし、パッケージを用意してくれた人がいて、無事に解決。

以下は、cabochaを設定する時のメモ。
奈良先端大学松本研究室のEric Nichols氏のページから適当なパッケージをとってきて終わり。

とってきたパッケージは以下の5つ。
cabocha
chasen
libtext-chasen-perl
tinysvm
yamcha

インストールするとちゃんと動いた。Eric Nichols氏には感謝します。

configure+make+make installで仮に入ったとしても、パッケージ管理をsynapticでしてくれなくなるので、こういうパッケージを作ってくれる人がいるとありがたい。