Javaの形態素解析と言えばずっとSenかと思っていました。。。
Senの更新ってずっととまってるんですね。。。
参考リンク:http://java.net/projects/sen/
参考リンク:http://java.net/projects/sen/downloads
ダウンロード先にもモジュールがないみたいですね。(20120312現在)
SVNは公開されているのでソースコード自体は取得できるので
自分でビルドすることはできます。
よく見かける以下のリンクも切れてしまっているようです。
参考リンク:https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0
そんなこんなで久しぶりにSenを触ってみようかなと思ったのですが、
自分でビルドするのもめんどくさいのでどうしようかと。。。
そんな中ネットを彷徨っていたらこんな形態素解析を発見
「igo」
参考リンク:http://igo.sourceforge.jp/
なんと純Java。Mecab辞書なので基本的な解析結果はMecabと一緒ですね。
ってことは茶筅を元にしてるSenも元はMecabなので、結局ほぼ一緒ですね。
(一緒なのかいwwと思ってしまったのは自分だけではないはず)
まぁでもせっかく調べてめぐり合えたので使ってみました。
以下、そのときのメモです。
純Javaなので、どう考えてもJavaから使うのが普通ですが、
そこまでやる気がうせてしまったので、やめましたw
最終的には実行スクリプトを登録して終了です。
参考までにどうぞー。
[root@yoshi3 05_20120311_igo]#
Require packages : ant
[root@yoshi3 05_20120311_igo]# yum -y install yum
...
[root@yoshi3 05_20120311_igo]#
Here is download link of igo : http://sourceforge.jp/projects/igo/releases/
Here is download link of ipadic : http://code.google.com/p/mecab/downloads/detail?name=mecab-ipadic-2.7.0-20070801.tar.gz
[root@yoshi3 05_20120311_igo]#
[root@yoshi3 05_20120311_igo]# tar xvf mecab-ipadic-2.7.0-20070801.tar.gz
[root@yoshi3 05_20120311_igo]# java -cp igo-0.4.5.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP
### Build word trie
### Build word dictionary
### Build matrix
### Build char-category dictionary
DONE
[root@yoshi3 05_20120311_igo]#
[root@yoshi3 05_20120311_igo]# java -cp igo-0.4.5.jar net.reduls.igo.bin.Igo ipadic
today is sunny.
today 名詞,固有名詞,組織,*,*,*,*
is 名詞,一般,*,*,*,*,*
sunny 名詞,一般,*,*,*,*,*
. 名詞,サ変接続,*,*,*,*,*
EOS
[root@yoshi3 05_20120311_igo]#
Create a file "igo" as follow :
[root@yoshi3 05_20120311_igo]# cat igo
#!/bin/sh
IGO_HOME=/root/05_20120311_igo/
java -cp $IGO_HOME/igo-0.4.5.jar net.reduls.igo.bin.Igo $IGO_HOME/ipadic
[root@yoshi3 05_20120311_igo]# chmod 744 igo
[root@yoshi3 05_20120311_igo]# cd /usr/local/sbin/ && ln -s /root/05_20120311_igo/igo igo
[root@yoshi3 05_20120311_igo]# igo
0 件のコメント:
コメントを投稿