Python3.8に形態素解析エンジンMecabモジュールを組み込む
POSTED BY
2023-10-28
2023-10-28
上記がそれぞれ完了していれば、MecabエンジンをPython3.8につないでPythonから実行するために、
mecab-python
モジュールをインストールする。mecab-pythonにはmecabそのものは含まれていないので、単体のmecabがインストールされている必要がある。
mecab-pythonのインストールpipでオートに行おうとしてもほとんどの環境でエラーとなる。
sudo -s pip3.8 install mecab-python
これですんなり入ればそれでOKである。しかしほとんどの環境では、
Using cached https://files.pythonhosted.org/packages/86/e7/bfeba61fb1c5d1ddcd92bc9b9502f99f80bf71a03429a2b31218fc2d4da2/mecab-python-0.996.tar.gz .... AttributeError: module 'string' has no attribute 'split'
などと出てエラーになる。よって、上記ログにあるURLをコピーして、ソースを取得し、解凍する。
cd /usr/local/src wget https://files.pythonhosted.org/packages/86/e7/bfeba61fb1c5d1ddcd92bc9b9502f99f80bf71a03429a2b31218fc2d4da2/mecab-python-0.996.tar.gz tar xvfzp mecab-python-0.996.tar.gz
その中の、setup.pyを、以下のように修正する。
cd mecab-python-0.996 vi setup.py # 変更前 def cmd2(str): return string.split (cmd1(str)) # 変更後 def cmd2(str): return cmd1(str).split()
これでコンパイルが通るはずであるので、ビルドする
root@debian:/usr/local/src/mecab-python-0.996# python3.8 setup.py build running build running build_py creating build creating build/lib.linux-x86_64-3.8 copying MeCab.py -> build/lib.linux-x86_64-3.8 running build_ext building '_MeCab' extension creating build/temp.linux-x86_64-3.8 gcc -pthread -Wno-unused-result -Wsign-compare -DNDEBUG -g -fwrapv -O3 -Wall -fPIC -I/usr/local/include -I/usr/local/include/python3.8 -c MeCab_wrap.cxx -o build/temp.linux-x86_64-3.8/MeCab_wrap.o MeCab_wrap.cxx: In function ‘PyObject* PyInit__MeCab()’: MeCab_wrap.cxx:8309:21: warning: variable ‘md’ set but not used [-Wunused-but-set-variable] PyObject *m, *d, *md; ^~ MeCab_wrap.cxx: In function ‘void SWIG_Python_FixMethods(PyMethodDef*, swig_const_info*, swig_type_info**, swig_type_info**)’: MeCab_wrap.cxx:8279:22: warning: ‘char* strncpy(char*, const char*, size_t)’ output truncated before terminating nul copying 10 bytes from a string of the same length [-Wstringop-truncation] strncpy(buff, "swig_ptr: ", 10); ~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~ g++ -pthread -shared build/temp.linux-x86_64-3.8/MeCab_wrap.o -L/usr/local/lib -lmecab -lstdc++ -o build/lib.linux-x86_64-3.8/_MeCab.cpython-38-x86_64-linux-gnu.so
多少のWarningは気にしない。成功したのでインストールする。
root@debian:/usr/local/src/mecab-python-0.996# python3.8 setup.py install running install running build running build_py running build_ext running install_lib copying build/lib.linux-x86_64-3.8/_MeCab.cpython-38-x86_64-linux-gnu.so -> /usr/local/lib/python3.8/site-packages copying build/lib.linux-x86_64-3.8/MeCab.py -> /usr/local/lib/python3.8/site-packages byte-compiling /usr/local/lib/python3.8/site-packages/MeCab.py to MeCab.cpython-38.pyc running install_egg_info Writing /usr/local/lib/python3.8/site-packages/mecab_python-0.996-py3.8.egg-info
これで無事Python3.8でMecabが使えるようになった。一般ユーザーに戻り、コンソールでテストしてみる。
python3.8 Python 3.8.0 (default, Oct 29 2019, 10:24:42) [GCC 8.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>> import MeCab >>> tgg = MeCab.Tagger("-Owakati") >>> str = "すもももももももものうち" >>> res = tgg.parse(str) >>> print(res) すもも も もも も もも の うち >>> tgg = MeCab.Tagger("-Ochasen") >>> res = tgg.parse(str) >>> print(res) すもも スモモ すもも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 の ノ の 助詞-連体化 うち ウチ うち 名詞-非自立-副詞可能 EOS
のような感じ。
入力をMecabにかけてそのまま表示するApache CGIのサンプルはこちら。
Android
iPhone/iPad
Flutter
MacOS
Windows
Debian
Ubuntu
CentOS
FreeBSD
RaspberryPI
HTML/CSS
C/C++
PHP
Java
JavaScript
Node.js
Swift
Python
MatLab
Amazon/AWS
CORESERVER
Google
仮想通貨
LINE
OpenAI/ChatGPT
IBM Watson
Microsoft Azure
Xcode
VMware
MySQL
PostgreSQL
Redis
Groonga
Git/GitHub
Apache
nginx
Postfix
SendGrid
Hackintosh
Hardware
Fate/Grand Order
ウマ娘
将棋
ドラレコ
※本記事は当サイト管理人の個人的な備忘録です。本記事の参照又は付随ソースコード利用後にいかなる損害が発生しても当サイト及び管理人は一切責任を負いません。
※本記事内容の無断転載を禁じます。
※本記事内容の無断転載を禁じます。
【WEBMASTER/管理人】
自営業プログラマーです。お仕事ください!ご連絡は以下アドレスまでお願いします★
【キーワード検索】
【最近の記事】【全部の記事】
Intel Macbook2020にBootCampで入れたWindows11 Pro 23H2のBluetoothを復活させるWindowsのデスクトップ画面をそのまま配信するための下準備
WindowsでGPUの状態を確認するには(ASUS系監視ソフトの自動起動を停止する)
CORESERVER v1プランからさくらインターネットスタンダートプランへ引っ越しメモ
さくらインターネットでPython MecabをCGIから使う
さくらインターネットのPHPでAnalytics-G4 APIを使う
インクルードパスの調べ方
【Git】特定ファイルを除外する.gitignore
【Ubuntu/Debian】NVIDIA関係のドライバを自動アップデートさせない
【Python】Spacyを使用して文章から出発地と目的地を抜き出す
【人気の記事】【全部の記事】
【Windows10】リモートデスクトップ間のコピー&ペーストができなくなった場合の対処法Windows版Google Driveが使用中と言われアンインストールできない場合
進研ゼミチャレンジタッチをAndroid端末化する
【Apache】サーバーに同時接続可能なクライアント数を調整する
VirtualBoxの仮想マシンをWindows起動時に自動起動し終了時に自動サスペンドする
Windows11+WSL2でUbuntuを使う【2】ブリッジ接続+固定IPの設定
【C/C++】小数点以下の切り捨て・切り上げ・四捨五入
Googleファミリーリンクで子供の端末の現在地がエラーで取得できない場合
【Linux】iconv/libiconvをソースコードからインストール
Ubuntu Server 21.10でイーサリアムブロックチェーン【その5】
【カテゴリーリンク】
Android
iPhone/iPad
Flutter
MacOS
Windows
Debian
Ubuntu
CentOS
FreeBSD
RaspberryPI
HTML/CSS
C/C++
PHP
Java
JavaScript
Node.js
Swift
Python
MatLab
Amazon/AWS
CORESERVER
Google
仮想通貨
LINE
OpenAI/ChatGPT
IBM Watson
Microsoft Azure
Xcode
VMware
MySQL
PostgreSQL
Redis
Groonga
Git/GitHub
Apache
nginx
Postfix
SendGrid
Hackintosh
Hardware
Fate/Grand Order
ウマ娘
将棋
ドラレコ