言語処理ツールのインストール(Ubuntu編)

UbuntuChaSen, CaboChaをインストールするメモ.
PythonからCaboChaを呼び出せるようにした.
ChaSenはパッケージではなくソースからビルドしました.

インストールの準備

Ubuntuではg++が初期状態では入ってないのでインストールする.
$ apt-get install g++


次に/usr/local/以下にetcがないのでetcを作成.
$ sudo mkdir /usr/local/etc


ChaSenとCaboChaをインストールするのに必要なファイルをかき集めてくる.
chasen-2.3.3.tar.gz
darts-0.3.tar.gz
TinySVM-0.09.tar.gz
yamcha-0.33.tar.gz
cabocha-0.53.tar.gz
ipadic-2.7.0.tar.gzまたはipadic-2.6.3.tar.gz

ChaSenのインストール

Dartsのインストール
$ ./configure
$ make && make install


ChaSenのインストール時には注意が必要.
darts-0.3から一部メソッド名が変更されているので,そのままだとChaSenから呼び出せない.
なので,./lib/dartsdic.cppを以下のように書き換える.

  • 71行目をSetArrayからset_arrayに変更
  • 180行目を削除し,keys[size] = (char*)key.data();に書き換える


それから--enable-staticオプションを付けてインストール.
$ ./configure --enable-static
$ make && make install
ここまで正常に終わったらあとはipadicをインストールするとChaSenのインストールは終了.

CaboChaのインストール

インストールする順番はTinySVM→YamCha→CaboChaで,必ずこの通りにする.
でないとインストールできない.
TinySVMとYamChaをインストールするときは--enable-staticオプションを与える.
与えないとUndefined yamcha_clearとか言われてCaboChaが動いてくれない.
$ cd TinySVM-0.09/
$ ./configure --enable-static
$ make && make install
$ cd ..
$ cd yamcha-0.33/
$ ./configure --enable-static
$ make && make install


CaboChaをインストールする際は--enable-chasen-staticオプションを用いる.
$ cd cabocha-0.53/
$ ./configure --enable-chasen-static
$ make && make install


それからPythonで動くようにしなきゃならないのでcabocha-0.53/pythonへ移動してビルド&インストール.
$ cd python/
$ python setup.py build
$ python setup.py install


これだけでは「libcabocha.so.2: No such file or directory」と言われてしまう.
試しにlibcabocha.so.2.1.1(実体の方)を/usr/lib以下にコピーしたら動いた.
なので,/usr/lib以下にlibcabocha.so.2.1.1をコピー.
$ cp /usr/local/lib/libcabocha.so.2.1.1 /usr/lib/libcabocha.so.2
これでPythonからCaboChaを呼び出せるようになる.


で,無事動いてるわけだが,CaboChaに対して--enable-staticってやるの忘れてた.
これでどう変わってくるんかなぁ?
間違ってる箇所,もっとスマートなインストール方法があれば教えて下さい.