形態素解析器MeCabでエラー発生.原因は文字コード(UTF-8).

iOS
この記事は約2分で読めます。

こんにちわ,oyoshiです

形態素解析器の一つである「MeCab」をUTF-8で使いたくて四苦八苦したお話です笑

自分,Macを使ってるのですが,デフォルトだとEUC-JPという文字コードで設定されてしまうんです.

MeCab辞書に新規単語を追加するとき,UTF-8形式で書いたcsvファイルを使うのですが,そもそもMeCabがUTF-8に設定されていないとうまく追加できませんよね.

そういう話です.

参考にしたのは以下のサイトです

qiita.com

1. ターミナルの文字コードを「utf-8」にする

f:id:oyoshiyoshi:20190715212830p:plain
ターミナル→環境設定
f:id:oyoshiyoshi:20190715212912p:plain
utf-8だけにチェックを入れる

2. MeCabのダウンロード(以下のURL)

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

「Source」にある「mecab-0.996.tar.gz」をダウンロード

あとは以下のコマンドをターミナルで入力

$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install

3.MeCab辞書のダウンロード(以下のURL)

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

「IPA辞書」をダウンロード(推奨って書かれてる)

あとは以下のコマンドをターミナルで入力

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def

さらに同ディレクトリ内にある「dictrc」というファイルを編集し,以下のように書き換える

config-charset = EUC-JP」→「config-charset = UTF-8

そのあと,以下のコマンドを入力

$ ./configure --with-charset=utf-8
$ make
$ sudo make install

4.文字コードの確認

mecab -P | grep config-charset

これで「config-charset: UTF-8」と出ればok.

自分はこれでうまくいきました.

たぶん大丈夫なはず...

コメント

タイトルとURLをコピーしました