概要

テキストマイニングで使えるツールとして、KH Coderというものがあります。

KH Coderは、Windows用で使う場合、インストーラが用意されているため、簡単にインストールできますが、Linuxでは中々インストールが面倒です。

今回は、LinuxへのKH Coderのインストール方法を説明します。

環境

  • KH Coder 3.Alpha.17j
  • R 3.6.1
  • Perl 5.30.1

MySQLのインストール

KH Coderは、Perlのプログラムですが、Perl以外にも色々とインストールする必要があります。

ここでは、まず最初に、MySQLのインストールをします。

MySQLの場合、OS毎のパッケージマネージャでインストールできることがほとんどです。

Ubuntuでインストールするコマンドは次のものです。

$ sudo apt install mysql-server mysql-client

この記事の執筆時点で、KH Coderはmysqlのバージョンが8以上だと認証でつまづくため、5.7あたりをインストールしましょう。

これで、MySQLのインストールができました。

Perlのインストール

Perlは、Linuxにデフォルトでインストールされているものを使っても構いません。

今回はLinuxに標準でインストールされているPerlを使用します。

KH Coderでは、いくつかのPerlのライブラリを使用します。

そのため、Perlのライブラリをインストールします。

次のURLを参考にインストールします。

Installing khcoder on Ubuntu · Issue #91 · ko-ichi-h/khcoder

次のコマンドでperlのライブラリをインストールする画面を開きます。

$ perl -MCPAN -e shell

インストールは次のコマンドを実行することでできます。

    install Jcode*
    install Tk*
    install DBI
    install DBD::CSV
    install File::BOM*
    install Lingua::JA::Regular::Unicode (needs sudo)*
    install Net::Telnet
    install Excel::Writer::XLSX
    install DBD::mysql
    install Spreadsheet::ParseExcel::FmtJapan
    install Spreadsheet::ParseXLSX
    install Statistics::ChisqIndep*
    install Statistics::Lite*
    install Unicode::Escape*
    install Algorithm::NaiveBayes*
    install Lingua::Sentence*
    install Proc::Background

いくつかエラーが発生するかもしれませんが、その場合は無視するかその都度調べながらやってみましょう。

Rのインストール

KH CoderではRの環境を必要とします。

Rは、MySQLと同じようにOSのパッケージマネージャを使ってインストールすることができます。

Ubuntuでインストールするコマンドは次のものです。

$ sudo apt install r-base

さらに、Rのライブラリをインストールする必要があります。

次のコマンドでライブラリをインストールする画面を起動します。

$ R

インストールするためのコマンドは次のものになります。

    install.packages("ade4", dependencies=TRUE)
    install.packages("amap", dependencies=TRUE)
    install.packages("Cairo", dependencies=TRUE)
    install.packages("cluster", dependencies=TRUE)
    install.packages("codetools", dependencies=TRUE)
    install.packages("colorspace", dependencies=TRUE)
    install.packages("dichromat", dependencies=TRUE)
    install.packages("foreign", dependencies=TRUE)
    install.packages("ggdendro", dependencies=TRUE)
    install.packages("ggplot2", dependencies=TRUE)
    install.packages("ggnetwork", dependencies=TRUE)
    install.packages("ggsci", dependencies=TRUE)
    install.packages("gtable", dependencies=TRUE)
    install.packages("igraph", dependencies=TRUE)
    install.packages("KernSmooth", dependencies=TRUE)
    install.packages("lattice", dependencies=TRUE)
    install.packages("maptools", dependencies=TRUE)
    install.packages("MASS", dependencies=TRUE)
    install.packages("Matrix", dependencies=TRUE)
    install.packages("mgcv", dependencies=TRUE)
    install.packages("munsell", dependencies=TRUE)
    install.packages("nlme", dependencies=TRUE)
    install.packages("nnet", dependencies=TRUE)
    install.packages("permute", dependencies=TRUE)
    install.packages("pheatmap", dependencies=TRUE)
    install.packages("plyr", dependencies=TRUE)
    install.packages("proto", dependencies=TRUE)
    install.packages("RcolorBrewer", dependencies=TRUE)
    install.packages("Rcpp", dependencies=TRUE)
    install.packages("reshape2", dependencies=TRUE)
    install.packages("rgl", dependencies=TRUE)
    install.packages("rpart", dependencies=TRUE)
    install.packages("scales", dependencies=TRUE)
    install.packages("scatterplot3d", dependencies=TRUE)
    install.packages("slam", dependencies=TRUE)
    install.packages("som", dependencies=TRUE)
    install.packages("sp", dependencies=TRUE)
    install.packages("spatial", dependencies=TRUE)
    install.packages("stringr", dependencies=TRUE)
    install.packages("survival", dependencies=TRUE)
    install.packages("vegan", dependencies=TRUE)
    install.packages("wordcloud", dependencies=TRUE)

これで、Rの準備はできました。

MeCabのインストール

最後にKH Coderで使う形態素解析のエンジンとしてMeCabとその辞書データのインストールをします。

MeCabは次のURLからダウンロードします。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

ダウンロードしたものは解凍してインストールします。

$ tar zxvf mecab-0.996.tar.gz
$ cd mecab-0.996/
$ ./configure --with-charset=utf8
$ sudo make install

次に、辞書データのインストールをします。
辞書データは、最近の言葉にも対応しているmecab-ipadic-NEologdをインストールします。

$ git clone https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

最後にMeCabの設定を変更して、辞書を読み込むようにします。

設定は/usr/local/etc/mecabrcで、dicdirの部分を次のように変更します。

dicdir =  /usr/local/lib/mecab/dic/mecab-ipadic-neologd

これで、MeCabのインストールができました。

KH Coderのインストール

最後に、KH Coderのインストールをします。

KH Coderは次のURLからダウンロードできます。

Releases · ko-ichi-h/khcoder

基本的に最新のものをダウンロードしておけば大丈夫です。

ダウンロードしたものは解凍して適当な場所におきます。

KH Coderの中には、設定ファイルがあるため、最初に設定をしておきましょう。

基本的に必要な設定は、MySQLへの接続に必要な設定で、次の箇所にMySQLへ接続するためのユーザ名とパスワードを設定します。

sql_username    ユーザ名
sql_password    パスワード

これで設定は終わりです。

KH Coderの起動は、KH Coder内のkh_coder.plというファイルを実行します。

$ perl kh_coder.pl

これで、KH Coderを起動できるはずです。

もし起動できないのであれば、エラーメッセージを参考にして起動できるようにしましょう。

設定の補足

KH Coderを使用する際に、ハマった部分として文字コードがあります。

KH Coderはデフォルトで、Shift_JISでテキストを読み込みます。しかしLinuxではUTF-8が基本的に使われるため、この部分でハマります。

これは、KH Coder起動後の画面でUTF-8を使用するように設定を変更することで解決することができます。

おそらく、LinuxでKH Coderを使うのであればこの設定はしておく必要があると思います。

さいごに

KH Coderを起動するまで、かなり大変でした。

LinuxでKH Coderを使用したいという人の参考になれば幸いです。