Tritonnセットアップ
WEKOで全文検索を行うときには,Tritonn(http://qwik.jp/tritonn/)を利用します.Tritonnでは,MySQLから全文検索エンジンSennaを利用可能にするために必要なパッケージが提供されています.
(一)TritonnのMySQLを利用するためにパッケージにMySQLを削除しておきます.
MySQLがインストールされてなくても確認のために上記を行っても問題ありません.
下記のメッセージがでるだけです.
No Match for argument: mysql
No Packages marked for removal |
sudo yum install perl-DBI
sudo rpm -ivh mecab-0.97-tritonn.1.0.12.i386.rpm
sudo rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12.i386.rpm
sudo rpm -ivh senna-1.1.4-tritonn.1.0.12.i386.rpm
sudo rpm -ivh MySQL-shared-5.0.67-tritonn.1.0.12.i386.rpm
sudo rpm -ivh MySQL-client-5.0.67-tritonn.1.0.12.i386.rpm
sudo rpm -ivh MySQL-server-5.0.67-tritonn.1.0.12.i386.rpm
|
MySQLの設定
この時点でMySQLはOSの起動と同時に自動的に立ち上がるようになっているはずです.以下のコマンドで確認してください.
/sbin/chkconfig --list mysql
mysql 0:off 1:off 2:on 3:on 4:on 5:on 6:off |
となっていればOKです.もし,全部offならば,
sudo /sbin/chkconfig mysql on |
として自動起動するように設定しておくと便利です.
その他のMySQLの設定は,アプリケーション設定のページのMySQLの設定3番から行ってください.このとき,1のMySQLのインストールは,すでにTritonnバージョンをインストールしているので実行しないでください.2のサービスの自動起動も,上記で実施していますので,すでに完了しています.
PDFテキスト抽出セットアップ
WEKOではPDFからテキスト抽出して,その内容を上記の全文検索エンジンの検索対象とします.テキスト抽出には,popplerのpdftotextというコマンドを利用します.以下に従ってパッケージをインストールしてください.
- pdftotextのインストール
sudo yum install poppler-utils |
これだけでOKです.
MS Officeファイルからのテキスト抽出セットアップ
WEKOではMS Office 2003以前のワード(doc),エクセル(xls),パワーポイント(ppt)ファイルの中身も全文検索の対象とすることができます.以下に従って,必要なライブラリをインストールしてください.
wvWareのインストール
ワードファイルの中身を抽出するために,wvWareを利用します.
- http://prdownloads.sourceforge.net/wvwareからwvの最新版ソースをダウンロードしてください.2008年12月13日現在では,1.2.4が最新バージョンです.ソースダウンロード
- ソースコードを展開
コンパイルに必要なパッケージをインストール
sudo yum install gcc
sudo yum install autoconf
sudo yum install automake
sudo yum install libtool
sudo yum install libgsf-devel
|
多分,こんだけ入れば十分なはずです.
コンパイル
cd wv-1.2.4
./autogen.sh
make
sudo make install
|
tar zxvf xlhtml-0.5.1.tar.gz |
コンパイル
cd xlhtml
./configure
make
sudo make install
|
コンパイルの環境を一度整えているから簡単だね.