Namazu全文検索システム
>>200 特定のファイル(拡張子だけだったかも)を除外する という設定項目があった様な記憶があるんで、 もしかしたら、それの応用でディレクトリごと無視するとかできるかも。 #具体的にどんな設定をするかは忘れた #多分namazuの本家サイト見たらあったよ 自分のページは全て、「http://www.example/com/?cat= ★」★はページごとに違う という形式なのですが、 こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、 どうすればいいのでしょうか? >>202 replaceでがんばってどうにかできないかな? 例えば /home/apache/documentroot/test/1.txt ↓ http://www.example.com/?cat=/test/1.txt って変換だったら Replace "/home/apache/documentroot" "http://www.example.com/?cat= " とか こういうこと? >>205 ありがとうございます。 全部、/?cat=★は「★.inc」としてファイルをおいてあるので、それでなんとかいきそうです。 教えてもらいたいことがあるんですが nmz.field.**** の****を増やしたいのですが、どうしたら良いでしょうか? 具体的にはmknmz時にuriを見て wwwroot/aaa/a.html wwwroot/bbb/b.html nmz.field.locate ってファイルを作ると その中に aaa bbb って出力されてほしい で検索結果でyahooのカテゴリのように <a href="a.html">aのタイトル</a> カテゴリ TOP>>aaa(${locate}の値)とかやりたい まぁ検索結果の中でuri見て変換したら良いんだけど、 もうちっとスマートに処理させたいなと・・・ 質問です。 2chの過去ログを検索出来るようにしていますけど ファイル数17万程度でインデックス作成に取り組んでいるのですけど 3日経っても終わりません。。おかしいと思いこちらに来ました。 もっと処理を早くしたいのですが、、 一応何を書けばいいのかわかりませんが、 PCのスペック等を簡単にまず記します。 何か必要な設定項目を書けと言われればすぐ書きますので、、 CPU P3-1G@dual mem 1G namazu ver2.0.12 perl 5.6 設定ファイルの中身を弄ればいいのでしょうか。。 一応インデックス書き出しは行われ続けていますけど 遅くて遅くて、、、 何かヒント等くれる方いらっしゃいませんでしょうか、、、? OS windows2000 sp3 KAKASI使用 mknmzrc設定 $ON_MEMORY_MAX = 5000000; $FILE_SIZE_MAX = 10000000; $TEXT_SIZE_MAX = 1000000; $WORD_LENG_MAX = 128; $INVALID_LENG = 128; $MAX_FIELD_LENGTH = 200; $WAKATI = $KAKASI; とりあえずon memory maxの値が小さいのはわかったのですけど これが速さに関係するのかは理解出来ませんでした。 また、他に問題点や気づく点等がありましたら教えて欲しいです、、 処理能力にはディスクI/Oという重要なファクターもある。 一気にmknmzするのではなく、分割してmknmz→マージする。 そうすれば処理時間もだいたい想像できる。 >>212 ヒント有難う御座います! 少しそれについて調べてみます。 http://geta.ex.nii.ac.jp/ GETAのPHPインタフェイス作ろうという奇特な御仁は いらっしゃいませんか? これ誰かお願いします http://pc3.2ch.net/test/read.cgi/unix/1075033822/576 Java の API のリファレンスを Namazu でインデックス化していて Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです Namazuでインデックス化をして検索をしようと思ったら 「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。 どうしてなのでしょうか。 どなたかPHPスクリプトで動く 日本語全文検索エンジンソフトウェアを教えてください。 4/1にNamazuの新バージョン出るんじゃなかったっけ? kakasiについて質問です。 自分で作った辞書を、追加した。 # mkkanwa kanwadict (追加した辞書ファイル) 自分で追加した辞書の内容は、 上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、 現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか? kanwadictって、viで開くと文字化けして見れません。 ※環境:UNIX >>224 何かあったの? クラックされてたとか? namazu.orgサーバに不正侵入、サービス停止 全文検索システム「Namazu」を配布するNamazu Projectは5月27日、 同プロジェクトのサーバが不正侵入を受けたと発表した。 http://headlines.yahoo.co.jp/hl?a=20040527-00000016-zdn_n-sci >>229-233 今回の2ch不調で俺が見た多重で最高だw 人がいないので話題をふってみる 検索結果について質問なんですけど ttp://www.kaiho.mlit.go.jp/cgi-bin/namazu.cgi?query=%8B%DF%8AC&max=20&result=normal&sort=score ↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか? ttp://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?key=a&submit=%B8%A1%BA%F7%B3%AB%BB%CF%21&whence=0&max=20&format=long&whence=0&dbname=reiki 自分のは↑こんなふうに参照したページの上部しか表示されません。 >>240 本当だ・・・キーワードの入れ方がまずかったようです。 自分のnamazuでやり直したらちゃんと表示されました。 無知で申し訳ありません。 Perl版Namazuをレン鯖に置いてみましたが、 全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。 検索結果画面はきちんと表示されますが、検索文字列だけが化けています。 もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。 何が原因でしょうか? ↑うわ、UNIX板に書くつもりだったのに間違えた ごめんなさい、無視してください。 検索は問題なく出来るのですが、 ヒットしたファイルが日本語のファイル名だと、 ブラウザ上に表示されているファイル名を クリックしてもファイルをオープンしません。 検索対象ファイルの、 ファイル名が日本語でも対応してますか? ちなみにWindows版(2.0.12)です。 http://suwako.plala.jp/pukiwiki/index.php?%5B%5BPHP%A4%C7Namazu%5D%5D ↑ここ見てnamazuの全文検索システムのソースを入れてみたら 無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある カレントディレクトリになってしまいます。 これはどうすれば対処することが出来ますかね? namazurcの48行目にあるReplaceを参考サイトを見ながら いじってみましたがやはり結果は同じです。 一体どこがおかしいんだろう? 例えばnamazu.phpをC:\homeに置いたら 検索結果はちゃんと表示されるんですがリンクが全て namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home) 変えるべきところはnamazurcのReplaceのところとは思うんですが 何度変えても同じ結果になってしまいます。 どうすればちゃんとしたリンク先になってくれるかな? 参考にしたサイト↓ http://ponx.s5.xrea.com/hiki/ja/hiki.cgi?xrea_tdiary_namazu http://you-like.to/nekomimi/works/w2k20001110.html >>247 何でだろうね?ところで自鯖でやってるの? Replace A(インデックス作成時のパス) B(Aを置換したい文字列) だよね。ちゃんとそうなってる? pnamazu.cgiの検索結果に表示される「著者」の欄がウザイのと、 この欄の ${author} が一体何を表示するのかがわからないので ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。 sub field_init { %FieldAlias = ( 'author' => 'from' , 'title' => 'subject' , 'url' => 'uri' , ); あたりまではなんとなく分かるんですが・・・ Perlのすごい人! だれか教えて! 著者を消したいだけなら NMZ.result をいじったほうが早いよ。 著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。 .namazurcで Replace /index.html / Replace /C\|/namazu/nurupo/ http://hoehoe.ne.jp/ ~nurupo/ と、2つの置換を行いたいのですが、当然できません。 正規表現が使えるみたいなことが書いてありますが Replace /C\|/namazu/nurupo/(.+)/index.html http://hoehoe.ne.jp/ ~nurupo/$1/ では全てが http://hoehoe.ne.jp/ ~nurupo/$1/ にされてしまいます($1が展開されない) どうやればこの置換を実現できるのでしょうか? む?もしかして$1じゃなくて\1なのか・・・?そうなのか・・・? ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・ Namazuの検索結果って、 全部ドキュメントの行頭あたりしか表示しないけど Googleみたいにマッチした前後の文章を表示できんの? >>255 できない。 レスポンスを重視した結果、今の仕様になっていると思われる。 >>255 Googleっぽい動作が希望なら Estraier使ってみるとか Estraier はNamazu ほど敷居は低くないよなぁ・・・ >>255 有りものの中でなら msearch がお勧め そういや微妙に商用はいってる2ちゃん検索もmsearch使ってるっぽいな。 http://find.2ch.net/ CGIで複数の基本インデックスの指定は不可? F:\index +aaa +001 +002 +003 +bbb +001 +002 +003 aaaとbbbを指定したいのだが… ぐぐたら無理ぽいな ttp://search.luky.org/vine-users.2/msg02960.html 001とか002とかもインデックス? javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。 多分無理かな。以下のようにcccを指定する じゃダメ? F:\index +ccc +aaa +bbb >>261-262 数字のフォルダがインデックスで大まかに分けてある。 やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。 インデックスと結果表示をutf8でできないでしょうか… お聞きしたいのですが… wgetで落したHTMLファイルをNamazuで検索しています。 Namazuの検索結果の順番を自分で決めたいんですが、 NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。 どなたかいい方法知りませんか? インデックスの作成を速くする方法ないですか? namazuはcなのにmknmzはperlなのはどうして? >>267 インデックスの作成を早くするには分散して作成してからマージすればよいかも。 namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、 mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。 ちなみにpnamazuっていうPerlで書かれたnamazuもある。 たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。 質問は一個ずつにしてね。 とりあえずローカルで動かそうと思ったんですが、どうしてもインストールが うまくいきません。 インデックスを作ろうとするとNKF.pmが無いといわれます。 PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか? 一日費やして何とかNamazuをサーバーでうごかせれるようになったレベルなんですが、これでñとかóのような外国語をブラウザから検索してみると激しく文字化けしてしまいます。 なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!! namazuのwin32版をインストールしたのですが、mknmzrcの$ALLOW_FILEのところで、 2行目以下のwordなどの設定が対応メディアタイプに反映されません。 2行目以下も#は外しているのですが…。 茶筌のところ#を残しているのですが、それもちょっと変かもです。 うまくいかない原因がわかる方どなたか教えてください。 読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc システム: MSWin32 Namazu: 2.0.12 Perl: 5.006001 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: chasen -j -F '%m ' わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.SJIS 言語: ja_JP.SJIS 文字コード: sjis CONFDIR: D:/namazu/etc/namazu LIBDIR: D:/namazu/share/namazu/pl FILTERDIR: D:/namazu/share/namazu/filter TEMPLATEDIR: D:/namazu/share/namazu/template 対応メディアタイプ: application/x-gzip message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; x-type=rfc text/x-hdml >>272 まず最新の2.0.14を使いましょう。 それと D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE のところを全行はりつけてよ。 どこの#を外したのか見てみないとわからんよ。 >>273 最新って言ってもベータ版らしいので…。 とりあえずこんな感じです。 # # This pattern specifies file names which will be targeted. # NOTE: It can be specified by --allow=regex option. # Do NOT use `$' or `^' anchors. # Case-insensitive. # $ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text "|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files "|.*\\.pdf|.*\\.ps" . # PDF, PostScript "|.*\\.tex|.*\\.dvi" . # TeX, DVI "|.*\\.rpm|.*\\.deb" . # RPM, DEB "|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint "|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8 "|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man あれ?連続する半角スペースとタブが消えるのは2ちゃんの仕様でしたよね。 >>274 Windows版はβ版扱いになっていますが、 インストーラがβというだけで本体に問題はないですよ。 たぶんフィルタが必要としているMS-Word等の アプリケーションが入っていないのでしょう。 こちらのフィルタを使うとよいでしょう ttp://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html そういえば2.0.12は2002年か…。 Office2003だということもあるのかな。 拡張子だけで判断してるのではないんですか。 まずは最新版をインストールしてみます。 用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。 回答ありがとうございました。 Redhat9、namazu2.012にて全文検索システムを作成しています。 ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを 作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは 検索できるのですがブラウザから http:// サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。 aaaインデックスから結果を表示するにはどのようにするのでしょうか? ページの階層 /apache/htdocs/aaa /apache/htdocs/bbb /apache/htdocs/ccc インデックスの格納場所 /apache/cgi-bin/namazu/index/all /apache/cgi-bin/namazu/index/aaa index/all内のNMZ.head.ja <input type="hidden" name="idxname" value="all"> ←allに変更 <a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加 index/aaa内のNMZ.head.ja <input type="hidden" name="idxname" value="aaa"> ←aaaに変更 <a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加 cgi-bin内にある.namazurc Index /apache/cgi-bin/namazu/index Template /apache/cgi-bin/namazu/index/all Replace /apache/htdocs/ http:// サーバIPアドレス/ ご返答ありがとうございます。mknmzの結果は下記の通りです。 mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs 合計の文書数 602 合計キーワード 5,499 わかち書き module_kakasi -ieuc -oeuc -w mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa 合計の文書数 9 合計キーワード 441 わかち書き module_kakasi -ieuc -oeuc -w よろしくお願いします。 こっちですね。 KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff すいません。間違えました。 mknmz -C 読み込んだ設定ファイル: /etc/namazu/mknmzrc システム: linux Namazu: 2.0.12 Perl: 5.008 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff >>279 Template /apache/cgi-bin/namazu/index/all としているから 常に index/all内のNMZ.head.ja が読み込まれているということでないか namazurcのTemplateの行をコメントアウトしてみたら >>279 亀レスだけど、 Namazuでは 「/cgi-bin/namazu.cgi?idxname=aaa」 みたいな直接指定はNGだったはず。 きちんとhiddenとかから送らないと。 >>285 それってどこでNGにしてるんでしょ。Namazu本体じゃなくて pnamazuとかインターフェースのところでやってるんですよね。 >>284-286 ありがとうございます。 検証が遅くなり申し訳ありませんでした。 サーバIPアドレス/cgi-bin/namazu.cgi?idxname=インデックス名&query=キーワード で検索したらうまくできました。htmlにhiddenで指定した場合もOKでした。 ご教授ありがとうございました。 しかし検索結果はOKなのですが、aaaインデックスを検索しても結果はOKなのですが ヘッダーの部分がallのもので表示されてしまいます。 (現在602 の文書がインデックス化され5,499 個のキーワード) 検索結果ページから再検索するとあるはずのページでも検索できません。 (allインデックス及びaaaインデックス両方とも。インデックスネームがうまく指定されない為?) namazurcのTemplate部分をコメントアウトするとインストール時?の古いインデックスが 表示されてしまいます。 複数インデックスがある時のTemplate指定はどのように行っているのでしょうか? >>287 Templateが選択される順序は説明書にあるとおり http://www.namazu.org/doc/manual.html#form-idxnames 再検索をする際にWebブラウザで表示ページのソースを調べて どのNMZ.headが読み込まれているか確かめてはどうですか。 会社で鯰使うらしいので、オフィとか見てみました。 日本語全文検索ってほぼGoogleでカバーできてるのでは? Winではあまり普及していないらしいし、導入に面倒がありそうだし 今、敢えてNamazuで検索を作るうまみってなんですか? Googleはイントラネット内も検索できるようになってんですかそうですか >>289 イントラの情報を検索できること 検索結果画面をカスタマイズできること カテゴリ検索ができること 文書の最終更新日をファイルスタンプから識別できること 今使うならnamazuじゃなくHyper Estraierにするな. 俺なら. >>293 そのソフト最近人気らしいけど、Namazuに比べてどの辺が優れてるの >>291-292 なるほど、イントラ内検索がGoogleにはないうまみっぽいですね。 だんだん鯰の位置づけがおぼろげながらわかってきました。 どうもありがとうございます。 Namazuだったら正規表現も使えるんじゃない? あれは便利だお。 〃∩ ∧_∧ ⊂⌒( ・ω・) はいはいわろすわろす `ヽ_っ⌒/⌒c ⌒ ⌒ namazuのなんかのバージョンで、検索指定した文が ハイライトされて、(そのページの上のほうからのテキストだけでなく) 検索された部分が表示されるというやるがあるらしいよ と先輩に言われたのですが、どこにありますか? あるいはカスタマイズで処理するもんなのですか? 教えてください。 read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる