こんにちわ,oyoshiです
形態素解析器の一つである「MeCab」をUTF-8で使いたくて四苦八苦したお話です笑
自分,Macを使ってるのですが,デフォルトだとEUC-JPという文字コードで設定されてしまうんです.
MeCab辞書に新規単語を追加するとき,UTF-8形式で書いたcsvファイルを使うのですが,そもそもMeCabがUTF-8に設定されていないとうまく追加できませんよね.
そういう話です.
参考にしたのは以下のサイトです
1. ターミナルの文字コードを「utf-8」にする


2. MeCabのダウンロード(以下のURL)
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
「Source」にある「mecab-0.996.tar.gz」をダウンロード
あとは以下のコマンドをターミナルで入力
$ tar zxfv mecab-X.X.tar.gz $ cd mecab-X.X $ ./configure --with-charset=utf8 $ make $ make check $ sudo make install
3.MeCab辞書のダウンロード(以下のURL)
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
「IPA辞書」をダウンロード(推奨って書かれてる)
あとは以下のコマンドをターミナルで入力
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz $ cd mecab-ipadic-2.7.0-XXXX $ nkf -w --overwrite *.csv $ nkf -w --overwrite *.def
さらに同ディレクトリ内にある「dictrc」というファイルを編集し,以下のように書き換える
「config-charset = EUC-JP」→「config-charset = UTF-8」
そのあと,以下のコマンドを入力
$ ./configure --with-charset=utf-8 $ make $ sudo make install
4.文字コードの確認
mecab -P | grep config-charset
これで「config-charset: UTF-8」と出ればok.
自分はこれでうまくいきました.
たぶん大丈夫なはず...
コメント