とりあえず、いくか(^^;
日時:2008年2月15日(金)13時00分~17時30分(12時30分開場)
会場:福岡ソフトリサーチパーク SRPホール
主催:独立行政法人情報処理推進機構(IPA)
共催:財団法人九州システム情報技術研究所(ISIT)、福岡OSS研究会
定員:100名(先着順:事前登録の方法は【お申し込み方法】に掲載しています)
対象者:OSSを使ったシステム開発/導入による業務変革/推進に興味をお持ちの方
費用:無料
日時:2008年2月15日(金)13時00分~17時30分(12時30分開場)
会場:福岡ソフトリサーチパーク SRPホール
主催:独立行政法人情報処理推進機構(IPA)
共催:財団法人九州システム情報技術研究所(ISIT)、福岡OSS研究会
定員:100名(先着順:事前登録の方法は【お申し込み方法】に掲載しています)
対象者:OSSを使ったシステム開発/導入による業務変革/推進に興味をお持ちの方
費用:無料
# uptime
00:13:48 up 361 days, 2:48, 1 user, load average: 0.13, 0.40, 0.43
mknmz -Cで教えてくれるFILTERDIR:と示されたところ。
text/html; x-type=mt3: mt3.plと表示されればOK。
mknmz -t 'text/html; x-type=mt3' -s -z /hoge/archives/とかやればいけるはず。
my $MT3_MESSAGE_FILE = '\d{6}\.html';で指定しているインデックス作成対象ファイル名の部分と、
$$contref =~ s/<form method="post".*/</body></html>/s;で指定している対象範囲の目印部分だけだと思います。
$$contref =~ s/<body>.*<div class="blogbody">/<body>/s;
本BlogとMLogの全文検索インデクスを再構築した。
本Blogは非力なMac miniでもそれほど時間がかからないけど、MLogは登録記事が5万もあるので、別マシンでmknmzすることにした。
��ちなみに、別マシンは速いといってもPen4-2.4GHzクラスであり、今となっては2世代ほど前か(^^;
Pen4-2.4GHzでの性能は、
インデックスを書き出しています...
[基本]
日付: Tue Jan 1 02:53:44 2008
追加された文書の数: 59,305
サイズ (bytes): 438,091,087
合計の文書数: 59,305
追加キーワード数: 1,123,946
合計キーワード数: 1,123,946
わかち書き: /usr/bin/mecab -Owakati -b 8192
経過時間 (秒): 23,306
ファイル/秒: 2.54
システム: linux
Perl: 5.008008
Namazu: 2.0.17RC4
その後の追加記事分をMac miniで実行したら、
インデックスを書き出しています...
[追加]
日付: Tue Jan 1 11:01:31 2008
追加された文書の数: 98
更新された文書の数: 91
サイズ (bytes): 765,156
合計の文書数: 59,312
追加キーワード数: 119
合計キーワード数: 1,124,065
わかち書き: /usr/bin/mecab -Owakati -b 8192
経過時間 (秒): 224
ファイル/秒: 0.84
システム: linux
Perl: 5.008008
Namazu: 2.0.16
この場合、ざっくり
Pen4-2.4GHz : 初代Mac mini = 3 : 1
と言う性能比かな。
CPUアーキテクチャもnamazuのバージョンも異なるので、何か検索不具合があったら教えてください。