Namazu全文検索システム
カスケードスタイルシートって、 おいしそうですねぇ。 >>181 no no no no no 調べ方悪すぎ。namazu.orgにある文章読むだけで全て分かるのに。 >>185 noってそれぞれの私の質問に対する回答ですか? いずれにしてもサンクス子 http://www.namazu.org/ いってきます。。m(。_。)m インデックスの作成 OK → Webサーバーへのアップ OK →キーワード入力 OK →検索している 検索結果は出るのですが 全く関係のないページばかりリストアップ。そのページソースを検索キーワード で探してもありません。 インデックスもエラーなくできて、アップも問題なくでき、検索もできるのですが その結果が全くあさって・・・どこに問題がありそうでしょうか???。ご意見を お願いします。 >>187 Namazuってそんなもんだよ。 といいつつ、おれもインスコしてますが、自分では一切使わない。w >>188 んっ〜それにしても結果が全く関係なさ過ぎるんですよ。 インデックスがまともに出来ていないような現象です。 ただ、作業的には問題なく進んでるんですよ・・・トホホ 。・゚(/д\)゚・。 なんどもインデックスの構築をしているといつのまにかめちゃくちゃな回答をされるときがあって そういう場合は最初から作り直しますがなんなんでしょうね。 >186 たぶん回答じゃなくて、ガイジンさんなんだよ。 ...no. no! no!! no!!! nohhh!!!!!! nanimochigaudesholtu!!! って感じだと思う。 (⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン なんだか自分は複数indexについてよくわかっていません。 複数indexを作る場合、 namazu.cgiと.namazurcのあるディレクトリの下に新しいディレクトリを作って分けて、.namazurcで制御すればいいんでしょうか? 今はindexファイルをnamazu.cgiと.namazurcのあるファイルと同じ階層に全部詰め込んでいます。 これだと、二つ以上のindexは作れないみたいです。 複数インデックスは、 インデックスのあるディレクトリ内のサブディレクトリ名が そのままインデクス名になる。使う場合は、.namzurcではなくて NMZ.head.jaで idxname="foo" とか指定してやればいい。 >>195 わかりやすいレスありがとうございます。 解決しました。 相談なんですけど、 「ホスティング依頼している鯖に namazu を入れて、メールの全文検索ができ ないもんかな?」 という相談をうけますた。 う〜ん………… おいらの使ったのは、RedHatだったんで、namazuはRPMでなんも考えずに 入れて、インデックス作って使ってたことはあるけど、ホス依頼してる鯖だと root 権限なんか貰えないだろーしなぁ…… なんかいい方法ってないでしょか? >>198 ありがとう!提案してみるよ って、これ、インデックス作成はローカルの環境でするのかぁ ま、いいや。相手がなんていうか、言うだけ言ってみよう ヒントくれてサンクス! 特定のディレクトリのみ除外する方法は何かありますか? >>200 特定のファイル(拡張子だけだったかも)を除外する という設定項目があった様な記憶があるんで、 もしかしたら、それの応用でディレクトリごと無視するとかできるかも。 #具体的にどんな設定をするかは忘れた #多分namazuの本家サイト見たらあったよ 自分のページは全て、「http://www.example/com/?cat= ★」★はページごとに違う という形式なのですが、 こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、 どうすればいいのでしょうか? >>202 replaceでがんばってどうにかできないかな? 例えば /home/apache/documentroot/test/1.txt ↓ http://www.example.com/?cat=/test/1.txt って変換だったら Replace "/home/apache/documentroot" "http://www.example.com/?cat= " とか こういうこと? >>205 ありがとうございます。 全部、/?cat=★は「★.inc」としてファイルをおいてあるので、それでなんとかいきそうです。 教えてもらいたいことがあるんですが nmz.field.**** の****を増やしたいのですが、どうしたら良いでしょうか? 具体的にはmknmz時にuriを見て wwwroot/aaa/a.html wwwroot/bbb/b.html nmz.field.locate ってファイルを作ると その中に aaa bbb って出力されてほしい で検索結果でyahooのカテゴリのように <a href="a.html">aのタイトル</a> カテゴリ TOP>>aaa(${locate}の値)とかやりたい まぁ検索結果の中でuri見て変換したら良いんだけど、 もうちっとスマートに処理させたいなと・・・ 質問です。 2chの過去ログを検索出来るようにしていますけど ファイル数17万程度でインデックス作成に取り組んでいるのですけど 3日経っても終わりません。。おかしいと思いこちらに来ました。 もっと処理を早くしたいのですが、、 一応何を書けばいいのかわかりませんが、 PCのスペック等を簡単にまず記します。 何か必要な設定項目を書けと言われればすぐ書きますので、、 CPU P3-1G@dual mem 1G namazu ver2.0.12 perl 5.6 設定ファイルの中身を弄ればいいのでしょうか。。 一応インデックス書き出しは行われ続けていますけど 遅くて遅くて、、、 何かヒント等くれる方いらっしゃいませんでしょうか、、、? OS windows2000 sp3 KAKASI使用 mknmzrc設定 $ON_MEMORY_MAX = 5000000; $FILE_SIZE_MAX = 10000000; $TEXT_SIZE_MAX = 1000000; $WORD_LENG_MAX = 128; $INVALID_LENG = 128; $MAX_FIELD_LENGTH = 200; $WAKATI = $KAKASI; とりあえずon memory maxの値が小さいのはわかったのですけど これが速さに関係するのかは理解出来ませんでした。 また、他に問題点や気づく点等がありましたら教えて欲しいです、、 処理能力にはディスクI/Oという重要なファクターもある。 一気にmknmzするのではなく、分割してmknmz→マージする。 そうすれば処理時間もだいたい想像できる。 >>212 ヒント有難う御座います! 少しそれについて調べてみます。 http://geta.ex.nii.ac.jp/ GETAのPHPインタフェイス作ろうという奇特な御仁は いらっしゃいませんか? これ誰かお願いします http://pc3.2ch.net/test/read.cgi/unix/1075033822/576 Java の API のリファレンスを Namazu でインデックス化していて Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです Namazuでインデックス化をして検索をしようと思ったら 「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。 どうしてなのでしょうか。 どなたかPHPスクリプトで動く 日本語全文検索エンジンソフトウェアを教えてください。 4/1にNamazuの新バージョン出るんじゃなかったっけ? kakasiについて質問です。 自分で作った辞書を、追加した。 # mkkanwa kanwadict (追加した辞書ファイル) 自分で追加した辞書の内容は、 上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、 現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか? kanwadictって、viで開くと文字化けして見れません。 ※環境:UNIX >>224 何かあったの? クラックされてたとか? namazu.orgサーバに不正侵入、サービス停止 全文検索システム「Namazu」を配布するNamazu Projectは5月27日、 同プロジェクトのサーバが不正侵入を受けたと発表した。 http://headlines.yahoo.co.jp/hl?a=20040527-00000016-zdn_n-sci >>229-233 今回の2ch不調で俺が見た多重で最高だw 人がいないので話題をふってみる 検索結果について質問なんですけど ttp://www.kaiho.mlit.go.jp/cgi-bin/namazu.cgi?query=%8B%DF%8AC&max=20&result=normal&sort=score ↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか? ttp://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?key=a&submit=%B8%A1%BA%F7%B3%AB%BB%CF%21&whence=0&max=20&format=long&whence=0&dbname=reiki 自分のは↑こんなふうに参照したページの上部しか表示されません。 >>240 本当だ・・・キーワードの入れ方がまずかったようです。 自分のnamazuでやり直したらちゃんと表示されました。 無知で申し訳ありません。 Perl版Namazuをレン鯖に置いてみましたが、 全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。 検索結果画面はきちんと表示されますが、検索文字列だけが化けています。 もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。 何が原因でしょうか? ↑うわ、UNIX板に書くつもりだったのに間違えた ごめんなさい、無視してください。 検索は問題なく出来るのですが、 ヒットしたファイルが日本語のファイル名だと、 ブラウザ上に表示されているファイル名を クリックしてもファイルをオープンしません。 検索対象ファイルの、 ファイル名が日本語でも対応してますか? ちなみにWindows版(2.0.12)です。 http://suwako.plala.jp/pukiwiki/index.php?%5B%5BPHP%A4%C7Namazu%5D%5D ↑ここ見てnamazuの全文検索システムのソースを入れてみたら 無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある カレントディレクトリになってしまいます。 これはどうすれば対処することが出来ますかね? namazurcの48行目にあるReplaceを参考サイトを見ながら いじってみましたがやはり結果は同じです。 一体どこがおかしいんだろう? 例えばnamazu.phpをC:\homeに置いたら 検索結果はちゃんと表示されるんですがリンクが全て namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home) 変えるべきところはnamazurcのReplaceのところとは思うんですが 何度変えても同じ結果になってしまいます。 どうすればちゃんとしたリンク先になってくれるかな? 参考にしたサイト↓ http://ponx.s5.xrea.com/hiki/ja/hiki.cgi?xrea_tdiary_namazu http://you-like.to/nekomimi/works/w2k20001110.html >>247 何でだろうね?ところで自鯖でやってるの? Replace A(インデックス作成時のパス) B(Aを置換したい文字列) だよね。ちゃんとそうなってる? pnamazu.cgiの検索結果に表示される「著者」の欄がウザイのと、 この欄の ${author} が一体何を表示するのかがわからないので ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。 sub field_init { %FieldAlias = ( 'author' => 'from' , 'title' => 'subject' , 'url' => 'uri' , ); あたりまではなんとなく分かるんですが・・・ Perlのすごい人! だれか教えて! 著者を消したいだけなら NMZ.result をいじったほうが早いよ。 著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。 .namazurcで Replace /index.html / Replace /C\|/namazu/nurupo/ http://hoehoe.ne.jp/ ~nurupo/ と、2つの置換を行いたいのですが、当然できません。 正規表現が使えるみたいなことが書いてありますが Replace /C\|/namazu/nurupo/(.+)/index.html http://hoehoe.ne.jp/ ~nurupo/$1/ では全てが http://hoehoe.ne.jp/ ~nurupo/$1/ にされてしまいます($1が展開されない) どうやればこの置換を実現できるのでしょうか? む?もしかして$1じゃなくて\1なのか・・・?そうなのか・・・? ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・ Namazuの検索結果って、 全部ドキュメントの行頭あたりしか表示しないけど Googleみたいにマッチした前後の文章を表示できんの? >>255 できない。 レスポンスを重視した結果、今の仕様になっていると思われる。 >>255 Googleっぽい動作が希望なら Estraier使ってみるとか Estraier はNamazu ほど敷居は低くないよなぁ・・・ >>255 有りものの中でなら msearch がお勧め そういや微妙に商用はいってる2ちゃん検索もmsearch使ってるっぽいな。 http://find.2ch.net/ CGIで複数の基本インデックスの指定は不可? F:\index +aaa +001 +002 +003 +bbb +001 +002 +003 aaaとbbbを指定したいのだが… ぐぐたら無理ぽいな ttp://search.luky.org/vine-users.2/msg02960.html 001とか002とかもインデックス? javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。 多分無理かな。以下のようにcccを指定する じゃダメ? F:\index +ccc +aaa +bbb >>261-262 数字のフォルダがインデックスで大まかに分けてある。 やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。 インデックスと結果表示をutf8でできないでしょうか… お聞きしたいのですが… wgetで落したHTMLファイルをNamazuで検索しています。 Namazuの検索結果の順番を自分で決めたいんですが、 NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。 どなたかいい方法知りませんか? インデックスの作成を速くする方法ないですか? namazuはcなのにmknmzはperlなのはどうして? >>267 インデックスの作成を早くするには分散して作成してからマージすればよいかも。 namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、 mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。 ちなみにpnamazuっていうPerlで書かれたnamazuもある。 たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。 質問は一個ずつにしてね。 とりあえずローカルで動かそうと思ったんですが、どうしてもインストールが うまくいきません。 インデックスを作ろうとするとNKF.pmが無いといわれます。 PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか? 一日費やして何とかNamazuをサーバーでうごかせれるようになったレベルなんですが、これでñとかóのような外国語をブラウザから検索してみると激しく文字化けしてしまいます。 なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!! namazuのwin32版をインストールしたのですが、mknmzrcの$ALLOW_FILEのところで、 2行目以下のwordなどの設定が対応メディアタイプに反映されません。 2行目以下も#は外しているのですが…。 茶筌のところ#を残しているのですが、それもちょっと変かもです。 うまくいかない原因がわかる方どなたか教えてください。 読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc システム: MSWin32 Namazu: 2.0.12 Perl: 5.006001 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: chasen -j -F '%m ' わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.SJIS 言語: ja_JP.SJIS 文字コード: sjis CONFDIR: D:/namazu/etc/namazu LIBDIR: D:/namazu/share/namazu/pl FILTERDIR: D:/namazu/share/namazu/filter TEMPLATEDIR: D:/namazu/share/namazu/template 対応メディアタイプ: application/x-gzip message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; x-type=rfc text/x-hdml >>272 まず最新の2.0.14を使いましょう。 それと D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE のところを全行はりつけてよ。 どこの#を外したのか見てみないとわからんよ。 >>273 最新って言ってもベータ版らしいので…。 とりあえずこんな感じです。 # # This pattern specifies file names which will be targeted. # NOTE: It can be specified by --allow=regex option. # Do NOT use `$' or `^' anchors. # Case-insensitive. # $ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text "|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files "|.*\\.pdf|.*\\.ps" . # PDF, PostScript "|.*\\.tex|.*\\.dvi" . # TeX, DVI "|.*\\.rpm|.*\\.deb" . # RPM, DEB "|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint "|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8 "|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man あれ?連続する半角スペースとタブが消えるのは2ちゃんの仕様でしたよね。 >>274 Windows版はβ版扱いになっていますが、 インストーラがβというだけで本体に問題はないですよ。 たぶんフィルタが必要としているMS-Word等の アプリケーションが入っていないのでしょう。 こちらのフィルタを使うとよいでしょう ttp://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html そういえば2.0.12は2002年か…。 Office2003だということもあるのかな。 拡張子だけで判断してるのではないんですか。 まずは最新版をインストールしてみます。 用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。 回答ありがとうございました。 Redhat9、namazu2.012にて全文検索システムを作成しています。 ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを 作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは 検索できるのですがブラウザから http:// サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。 aaaインデックスから結果を表示するにはどのようにするのでしょうか? ページの階層 /apache/htdocs/aaa /apache/htdocs/bbb /apache/htdocs/ccc インデックスの格納場所 /apache/cgi-bin/namazu/index/all /apache/cgi-bin/namazu/index/aaa index/all内のNMZ.head.ja <input type="hidden" name="idxname" value="all"> ←allに変更 <a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加 index/aaa内のNMZ.head.ja <input type="hidden" name="idxname" value="aaa"> ←aaaに変更 <a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加 cgi-bin内にある.namazurc Index /apache/cgi-bin/namazu/index Template /apache/cgi-bin/namazu/index/all Replace /apache/htdocs/ http:// サーバIPアドレス/ ご返答ありがとうございます。mknmzの結果は下記の通りです。 mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs 合計の文書数 602 合計キーワード 5,499 わかち書き module_kakasi -ieuc -oeuc -w mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa 合計の文書数 9 合計キーワード 441 わかち書き module_kakasi -ieuc -oeuc -w よろしくお願いします。 read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる