日本語形態素解析の紹介
このページでは、日本語形態素解析であるJUMAN、ChaSen、MeCab、KyTea、Sudachiについて紹介、比較をしていく
JUMAN
最も歴史が古い日本語形態素解析で1992年にリリースされた。JUMANは構文解析システムKNPと組み合わせて利用されることを想定している。
JUMANの特徴として、単語間の接続コストといった解析用のパラメーターは人でによる処理で行われている。最新の日本語形態素解析と比較すると精度は落ちるが、長い歴史をかけてチューニングされていることもあり、分野依存性が低い形態素解析が特徴である。
ChaSen
2006年に初めて登場した日本語形態素解析である。
C言語で実装されており、コードはJUMANのバージョン2.0.0を参考に作られている。
ChaSenの特徴として、統計的手法を用いることにより解析速度と使い勝手の向上を目指したことである。具体的には、JUMANでは解析用のパラメーターを人手でチューニングをしていたのに対してChaSenでは、正しく解析されたデータつまり注釈済みコーパスを用いて推定している。
MeCab
MeCabは2006年3月に初めてリリースされた日本語形態素解析である。
MeCabはC++言語で実装されており、ChaSenをもともとは再実装したものであった。
MeCabの特徴として、ダブル配列の活用と条件付き確率場の利用が挙げられる。
KyTea
2009年に初リリースされた日本語形態素解析である。
KyTeaは、単語分割、品詞推定、読み推定を行うだけで、活用処理は行わないため形態素解析ではない。
KyTeaの特徴として、点推測を用いた単語分割である。
Sudachi
2017年にリリースされた日本で最も新しい日本語形態素解析である。
Sudachiは企業のサポートにより商業利用を目的とした利用促進のため今後10年開発し続けることを目標としている。
Sudachiの特徴として、分割単位の異なる3つのモードで動作することである。3つのモード(A,B,C単位)は、Aは、短い単位(UniDic短単位相当)、Cは固有表現相当(NEologd相当)、BはAとCの中間相当(IPAdic相当)である。
参考文献
工藤拓. 形態素解析の理論と実装. 近代科学社, 2018. https://ja.wikipedia.org/wiki/JUMAN https://ja.wikipedia.org/wiki/ChaSen https://ja.osdn.net/projects/chasen-legacy/ https://ja.wikipedia.org/wiki/MeCab http://www.phontron.com/kytea/index-ja.html https://qiita.com/hi-asano/items/aaf406db875f1c81530e#sudachi