Solr と ManifoldCF

CentOS 7.0 を使った。

CentOS 上のファイルシステムに PDF や Excel, Word を置いて全文検索するまでの記録。

ネットワーク穴あけ

systemctl stop firewalld.service

Solr を起動

rm -rf solr-4.9.0
export _JAVA_OPTIONS="-Djava.net.preferIPv4Stack=true"
tar xf solr-4.9.0.tgz
cd solr-4.9.0/example/
java -jar start.jar
Started SocketConnector@0.0.0.0:8983 と表示されたら起動完了。

ManifoldCF 起動

rm -rf apache-manifoldcf-1.6.1
export _JAVA_OPTIONS="-Djava.net.preferIPv4Stack=true"
tar xf apache-manifoldcf-1.6.1-bin.tar.gz
cd apache-manifoldcf-1.6.1/example/
java -jar start.jar
Starting crawler… と表示されたら起動完了。

検索対象の文書ファイルを設置

クローラーを動かす

出力先を定義

入力元を定義

ジョブ登録(入力と出力を関連付け)してジョブを起動

クエリーを投げる

http://192.168.0.7:8983/solr をブラウザーで開く。

Solritas サンプル アプリ


2014/7/14 初版