アプリケーション開発ポータルサイト
ServerNote.NET
カテゴリー【PythonDebianFreeBSD
Python3.8に形態素解析エンジンMecabモジュールを組み込む
POSTED BY
2023-10-28

・形態素解析エンジンMecabをソースからインストール

・Python3.8をソースコードからインストール

上記がそれぞれ完了していれば、MecabエンジンをPython3.8につないでPythonから実行するために、

mecab-python

モジュールをインストールする。mecab-pythonにはmecabそのものは含まれていないので、単体のmecabがインストールされている必要がある。

mecab-pythonのインストールpipでオートに行おうとしてもほとんどの環境でエラーとなる。

sudo -s
pip3.8 install mecab-python

これですんなり入ればそれでOKである。しかしほとんどの環境では、

Using cached https://files.pythonhosted.org/packages/86/e7/bfeba61fb1c5d1ddcd92bc9b9502f99f80bf71a03429a2b31218fc2d4da2/mecab-python-0.996.tar.gz
....
AttributeError: module 'string' has no attribute 'split'

などと出てエラーになる。よって、上記ログにあるURLをコピーして、ソースを取得し、解凍する。

cd /usr/local/src
wget https://files.pythonhosted.org/packages/86/e7/bfeba61fb1c5d1ddcd92bc9b9502f99f80bf71a03429a2b31218fc2d4da2/mecab-python-0.996.tar.gz
tar xvfzp mecab-python-0.996.tar.gz

その中の、setup.pyを、以下のように修正する。

cd mecab-python-0.996
vi setup.py

# 変更前
def cmd2(str):
    return string.split (cmd1(str))

# 変更後
def cmd2(str):
    return cmd1(str).split()

これでコンパイルが通るはずであるので、ビルドする

root@debian:/usr/local/src/mecab-python-0.996# python3.8 setup.py build

running build
running build_py
creating build
creating build/lib.linux-x86_64-3.8
copying MeCab.py -> build/lib.linux-x86_64-3.8
running build_ext
building '_MeCab' extension
creating build/temp.linux-x86_64-3.8
gcc -pthread -Wno-unused-result -Wsign-compare -DNDEBUG -g -fwrapv -O3 -Wall -fPIC -I/usr/local/include -I/usr/local/include/python3.8 -c MeCab_wrap.cxx -o build/temp.linux-x86_64-3.8/MeCab_wrap.o
MeCab_wrap.cxx: In function ‘PyObject* PyInit__MeCab()’:
MeCab_wrap.cxx:8309:21: warning: variable ‘md’ set but not used [-Wunused-but-set-variable]
   PyObject *m, *d, *md;
                     ^~
MeCab_wrap.cxx: In function ‘void SWIG_Python_FixMethods(PyMethodDef*, swig_const_info*, swig_type_info**, swig_type_info**)’:
MeCab_wrap.cxx:8279:22: warning: ‘char* strncpy(char*, const char*, size_t)’ output truncated before terminating nul copying 10 bytes from a string of the same length [-Wstringop-truncation]
               strncpy(buff, "swig_ptr: ", 10);
               ~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~
g++ -pthread -shared build/temp.linux-x86_64-3.8/MeCab_wrap.o -L/usr/local/lib -lmecab -lstdc++ -o build/lib.linux-x86_64-3.8/_MeCab.cpython-38-x86_64-linux-gnu.so

多少のWarningは気にしない。成功したのでインストールする。

root@debian:/usr/local/src/mecab-python-0.996# python3.8 setup.py install

running install
running build
running build_py
running build_ext
running install_lib
copying build/lib.linux-x86_64-3.8/_MeCab.cpython-38-x86_64-linux-gnu.so -> /usr/local/lib/python3.8/site-packages
copying build/lib.linux-x86_64-3.8/MeCab.py -> /usr/local/lib/python3.8/site-packages
byte-compiling /usr/local/lib/python3.8/site-packages/MeCab.py to MeCab.cpython-38.pyc
running install_egg_info
Writing /usr/local/lib/python3.8/site-packages/mecab_python-0.996-py3.8.egg-info

これで無事Python3.8でMecabが使えるようになった。一般ユーザーに戻り、コンソールでテストしてみる。

python3.8
Python 3.8.0 (default, Oct 29 2019, 10:24:42)
[GCC 8.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
>>> tgg = MeCab.Tagger("-Owakati")
>>> str = "すもももももももものうち"
>>> res = tgg.parse(str)
>>> print(res)
すもも も もも も もも の うち

>>> tgg = MeCab.Tagger("-Ochasen")
>>> res = tgg.parse(str)
>>> print(res)
すもも  スモモ  すもも  名詞-一般
も      モ      も      助詞-係助詞
もも    モモ    もも    名詞-一般
も      モ      も      助詞-係助詞
もも    モモ    もも    名詞-一般
の      ノ      の      助詞-連体化
うち    ウチ    うち    名詞-非自立-副詞可能
EOS

のような感じ。

入力をMecabにかけてそのまま表示するApache CGIのサンプルはこちら

※本記事は当サイト管理人の個人的な備忘録です。本記事の参照又は付随ソースコード利用後にいかなる損害が発生しても当サイト及び管理人は一切責任を負いません。
※本記事内容の無断転載を禁じます。
【WEBMASTER/管理人】
自営業プログラマーです。お仕事ください!
ご連絡は以下アドレスまでお願いします★

【キーワード検索】