形態素解析エンジンMecabをソースからインストールしてC/C++で使う
POSTED BY
2024-10-12
2024-10-12
Mecabとは入力文字列を文節に分解してくれるオープンソースの形態素解析エンジン。
ユーザー入力を分解して自動応答するチャットボットで広く使われている。
まず、以下本家サイトから本体とIPA辞書をダウンロードする。
https://taku910.github.io/mecab/
mecab-0.996.tar.gz # 本体
mecab-ipadic-2.7.0-20070801.tar.gz # IPA辞書
取得したら /usr/local/src に設置する。
本体コンパイル・インストール
sudo -s cd /usr/local/src tar xvfzp mecab-0.996.tar.gz cd mecab-0.996 ./configure --with-charset=utf8 --enable-utf8-only make make install
辞書コンパイル・インストール
sudo -s cd /usr/local/src tar xvfzp mecab-ipadic-2.7.0-20070801.tar.gz mecab-ipadic-2.7.0-20070801 ./configure --with-charset=utf8 --enable-utf8-only make make install
/usr/local/以下にインストールされたので、一般ユーザーに戻ってテストしてみる。
hogeuser@debian:~$ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
ソースからインストールすると、C/C++のライブラリも自動で入るのですぐ使える。
以下、サンプルを書いてみる。
C/C++ | mecab.c | GitHub Source |
#include <stdio.h> #include <mecab.h> #include <stdlib.h> #include <string.h> #define strnull(x) (x == NULL || x[0] == '\0') #define countof(x) sizeof(x) / sizeof(x[0]) int main(void) { char name[512], *ptr; char *argv_a[] = {(char *)"mecab", (char *)"-Owakati"}; char *argv_b[] = {(char *)"mecab", (char *)"-Ochasen"}; mecab_t *mecab; sprintf(name, "すもももももももものうち"); if ((mecab = mecab_new(countof(argv_a), argv_a)) != NULL) { fprintf(stdout, "mecab_new ok\n"); if ((ptr = (char *)mecab_sparse_tostr(mecab, name)) != NULL) { fprintf(stdout, "mecab_sparse_tostr ok string is:\n%s\n", ptr); } mecab_destroy(mecab); } if ((mecab = mecab_new(countof(argv_b), argv_b)) != NULL) { fprintf(stdout, "mecab_new ok\n"); if ((ptr = (char *)mecab_sparse_tostr(mecab, name)) != NULL) { fprintf(stdout, "mecab_sparse_tostr ok string is:\n%s\n", ptr); } mecab_destroy(mecab); } return 0; }
char*型配列をmecab_newに渡す。これはmecabコマンドを呼ぶのと同じ形式になる。
argv_aは mecab -Owakati と実行するに同じ、
argv_bは mecab -Ochasen と実行するに同じ。
mecab_sparse_tostrで入力文字列の解析を実行し、結果がptrに返る。コマンドの出力と同じもの。
終わったらmecab_destroy。
コンパイル、実行結果
gcc -o mecab.x mecab.c -I/usr/local/include -L/usr/local/lib -lmecab ./mecab.x mecab_new ok mecab_sparse_tostr ok string is: すもも も もも も もも の うち mecab_new ok mecab_sparse_tostr ok string is: すもも スモモ すもも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 の ノ の 助詞-連体化 うち ウチ うち 名詞-非自立-副詞可能 EOS
Android
iPhone/iPad
Flutter
MacOS
Windows
Debian
Ubuntu
CentOS
FreeBSD
RaspberryPI
HTML/CSS
C/C++
PHP
Java
JavaScript
Node.js
Swift
Python
MatLab
Amazon/AWS
CORESERVER
Google
仮想通貨
LINE
OpenAI/ChatGPT
IBM Watson
Microsoft Azure
Xcode
VMware
MySQL
PostgreSQL
Redis
Groonga
Git/GitHub
Apache
nginx
Postfix
SendGrid
Hackintosh
Hardware
Fate/Grand Order
ウマ娘
将棋
ドラレコ
※本記事は当サイト管理人の個人的な備忘録です。本記事の参照又は付随ソースコード利用後にいかなる損害が発生しても当サイト及び管理人は一切責任を負いません。
※本記事内容の無断転載を禁じます。
※本記事内容の無断転載を禁じます。
【WEBMASTER/管理人】
自営業プログラマーです。お仕事ください!ご連絡は以下アドレスまでお願いします★
【キーワード検索】
【最近の記事】【全部の記事】
nohupで常時起動したPythonスクリプトがログを出力しない場合Intel Macbook2020にBootCampで入れたWindows11 Pro 23H2のBluetoothを復活させる
Windowsのデスクトップ画面をそのまま配信するための下準備
WindowsでGPUの状態を確認するには(ASUS系監視ソフトの自動起動を停止する)
CORESERVER v1プランからさくらインターネットスタンダートプランへ引っ越しメモ
さくらインターネットでPython MecabをCGIから使う
さくらインターネットのPHPでAnalytics-G4 APIを使う
インクルードパスの調べ方
【Git】特定ファイルを除外する.gitignore
【Ubuntu/Debian】NVIDIA関係のドライバを自動アップデートさせない
【人気の記事】【全部の記事】
進研ゼミチャレンジタッチをAndroid端末化する【Windows10】リモートデスクトップ間のコピー&ペーストができなくなった場合の対処法
【Apache】サーバーに同時接続可能なクライアント数を調整する
Windows版Google Driveが使用中と言われアンインストールできない場合
Windows11+WSL2でUbuntuを使う【2】ブリッジ接続+固定IPの設定
【C/C++】小数点以下の切り捨て・切り上げ・四捨五入
GitLabにHTTPS経由でリポジトリをクローン&読み書きを行う
cannot guess build type; you must specify oneと言われた場合
VirtualBoxの仮想マシンをWindows起動時に自動起動し終了時に自動サスペンドする
Pythonで処理にかかった時間を計測するには
【カテゴリーリンク】
Android
iPhone/iPad
Flutter
MacOS
Windows
Debian
Ubuntu
CentOS
FreeBSD
RaspberryPI
HTML/CSS
C/C++
PHP
Java
JavaScript
Node.js
Swift
Python
MatLab
Amazon/AWS
CORESERVER
Google
仮想通貨
LINE
OpenAI/ChatGPT
IBM Watson
Microsoft Azure
Xcode
VMware
MySQL
PostgreSQL
Redis
Groonga
Git/GitHub
Apache
nginx
Postfix
SendGrid
Hackintosh
Hardware
Fate/Grand Order
ウマ娘
将棋
ドラレコ