Namazu全文検索システム
ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・ Namazuの検索結果って、 全部ドキュメントの行頭あたりしか表示しないけど Googleみたいにマッチした前後の文章を表示できんの? >>255 できない。 レスポンスを重視した結果、今の仕様になっていると思われる。 >>255 Googleっぽい動作が希望なら Estraier使ってみるとか Estraier はNamazu ほど敷居は低くないよなぁ・・・ >>255 有りものの中でなら msearch がお勧め そういや微妙に商用はいってる2ちゃん検索もmsearch使ってるっぽいな。 http://find.2ch.net/ CGIで複数の基本インデックスの指定は不可? F:\index +aaa +001 +002 +003 +bbb +001 +002 +003 aaaとbbbを指定したいのだが… ぐぐたら無理ぽいな ttp://search.luky.org/vine-users.2/msg02960.html 001とか002とかもインデックス? javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。 多分無理かな。以下のようにcccを指定する じゃダメ? F:\index +ccc +aaa +bbb >>261-262 数字のフォルダがインデックスで大まかに分けてある。 やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。 インデックスと結果表示をutf8でできないでしょうか… お聞きしたいのですが… wgetで落したHTMLファイルをNamazuで検索しています。 Namazuの検索結果の順番を自分で決めたいんですが、 NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。 どなたかいい方法知りませんか? インデックスの作成を速くする方法ないですか? namazuはcなのにmknmzはperlなのはどうして? >>267 インデックスの作成を早くするには分散して作成してからマージすればよいかも。 namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、 mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。 ちなみにpnamazuっていうPerlで書かれたnamazuもある。 たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。 質問は一個ずつにしてね。 とりあえずローカルで動かそうと思ったんですが、どうしてもインストールが うまくいきません。 インデックスを作ろうとするとNKF.pmが無いといわれます。 PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか? 一日費やして何とかNamazuをサーバーでうごかせれるようになったレベルなんですが、これでñとかóのような外国語をブラウザから検索してみると激しく文字化けしてしまいます。 なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!! namazuのwin32版をインストールしたのですが、mknmzrcの$ALLOW_FILEのところで、 2行目以下のwordなどの設定が対応メディアタイプに反映されません。 2行目以下も#は外しているのですが…。 茶筌のところ#を残しているのですが、それもちょっと変かもです。 うまくいかない原因がわかる方どなたか教えてください。 読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc システム: MSWin32 Namazu: 2.0.12 Perl: 5.006001 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: chasen -j -F '%m ' わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.SJIS 言語: ja_JP.SJIS 文字コード: sjis CONFDIR: D:/namazu/etc/namazu LIBDIR: D:/namazu/share/namazu/pl FILTERDIR: D:/namazu/share/namazu/filter TEMPLATEDIR: D:/namazu/share/namazu/template 対応メディアタイプ: application/x-gzip message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; x-type=rfc text/x-hdml >>272 まず最新の2.0.14を使いましょう。 それと D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE のところを全行はりつけてよ。 どこの#を外したのか見てみないとわからんよ。 >>273 最新って言ってもベータ版らしいので…。 とりあえずこんな感じです。 # # This pattern specifies file names which will be targeted. # NOTE: It can be specified by --allow=regex option. # Do NOT use `$' or `^' anchors. # Case-insensitive. # $ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text "|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files "|.*\\.pdf|.*\\.ps" . # PDF, PostScript "|.*\\.tex|.*\\.dvi" . # TeX, DVI "|.*\\.rpm|.*\\.deb" . # RPM, DEB "|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint "|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8 "|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man あれ?連続する半角スペースとタブが消えるのは2ちゃんの仕様でしたよね。 >>274 Windows版はβ版扱いになっていますが、 インストーラがβというだけで本体に問題はないですよ。 たぶんフィルタが必要としているMS-Word等の アプリケーションが入っていないのでしょう。 こちらのフィルタを使うとよいでしょう ttp://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html そういえば2.0.12は2002年か…。 Office2003だということもあるのかな。 拡張子だけで判断してるのではないんですか。 まずは最新版をインストールしてみます。 用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。 回答ありがとうございました。 Redhat9、namazu2.012にて全文検索システムを作成しています。 ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを 作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは 検索できるのですがブラウザから http:// サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。 aaaインデックスから結果を表示するにはどのようにするのでしょうか? ページの階層 /apache/htdocs/aaa /apache/htdocs/bbb /apache/htdocs/ccc インデックスの格納場所 /apache/cgi-bin/namazu/index/all /apache/cgi-bin/namazu/index/aaa index/all内のNMZ.head.ja <input type="hidden" name="idxname" value="all"> ←allに変更 <a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加 index/aaa内のNMZ.head.ja <input type="hidden" name="idxname" value="aaa"> ←aaaに変更 <a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加 cgi-bin内にある.namazurc Index /apache/cgi-bin/namazu/index Template /apache/cgi-bin/namazu/index/all Replace /apache/htdocs/ http:// サーバIPアドレス/ ご返答ありがとうございます。mknmzの結果は下記の通りです。 mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs 合計の文書数 602 合計キーワード 5,499 わかち書き module_kakasi -ieuc -oeuc -w mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa 合計の文書数 9 合計キーワード 441 わかち書き module_kakasi -ieuc -oeuc -w よろしくお願いします。 こっちですね。 KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff すいません。間違えました。 mknmz -C 読み込んだ設定ファイル: /etc/namazu/mknmzrc システム: linux Namazu: 2.0.12 Perl: 5.008 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff >>279 Template /apache/cgi-bin/namazu/index/all としているから 常に index/all内のNMZ.head.ja が読み込まれているということでないか namazurcのTemplateの行をコメントアウトしてみたら >>279 亀レスだけど、 Namazuでは 「/cgi-bin/namazu.cgi?idxname=aaa」 みたいな直接指定はNGだったはず。 きちんとhiddenとかから送らないと。 >>285 それってどこでNGにしてるんでしょ。Namazu本体じゃなくて pnamazuとかインターフェースのところでやってるんですよね。 >>284-286 ありがとうございます。 検証が遅くなり申し訳ありませんでした。 サーバIPアドレス/cgi-bin/namazu.cgi?idxname=インデックス名&query=キーワード で検索したらうまくできました。htmlにhiddenで指定した場合もOKでした。 ご教授ありがとうございました。 しかし検索結果はOKなのですが、aaaインデックスを検索しても結果はOKなのですが ヘッダーの部分がallのもので表示されてしまいます。 (現在602 の文書がインデックス化され5,499 個のキーワード) 検索結果ページから再検索するとあるはずのページでも検索できません。 (allインデックス及びaaaインデックス両方とも。インデックスネームがうまく指定されない為?) namazurcのTemplate部分をコメントアウトするとインストール時?の古いインデックスが 表示されてしまいます。 複数インデックスがある時のTemplate指定はどのように行っているのでしょうか? >>287 Templateが選択される順序は説明書にあるとおり http://www.namazu.org/doc/manual.html#form-idxnames 再検索をする際にWebブラウザで表示ページのソースを調べて どのNMZ.headが読み込まれているか確かめてはどうですか。 会社で鯰使うらしいので、オフィとか見てみました。 日本語全文検索ってほぼGoogleでカバーできてるのでは? Winではあまり普及していないらしいし、導入に面倒がありそうだし 今、敢えてNamazuで検索を作るうまみってなんですか? Googleはイントラネット内も検索できるようになってんですかそうですか >>289 イントラの情報を検索できること 検索結果画面をカスタマイズできること カテゴリ検索ができること 文書の最終更新日をファイルスタンプから識別できること 今使うならnamazuじゃなくHyper Estraierにするな. 俺なら. >>293 そのソフト最近人気らしいけど、Namazuに比べてどの辺が優れてるの >>291-292 なるほど、イントラ内検索がGoogleにはないうまみっぽいですね。 だんだん鯰の位置づけがおぼろげながらわかってきました。 どうもありがとうございます。 Namazuだったら正規表現も使えるんじゃない? あれは便利だお。 〃∩ ∧_∧ ⊂⌒( ・ω・) はいはいわろすわろす `ヽ_っ⌒/⌒c ⌒ ⌒ namazuのなんかのバージョンで、検索指定した文が ハイライトされて、(そのページの上のほうからのテキストだけでなく) 検索された部分が表示されるというやるがあるらしいよ と先輩に言われたのですが、どこにありますか? あるいはカスタマイズで処理するもんなのですか? 教えてください。 >>300 EmphasisTags じゃなくて? >>301 ありがとうございます、調べてみます。(`・ω・´)ゝ やってみましたが、どうも指示されたものと違うようです。 たとえば文中にキーワードがヒットしても、プレビューで表示されるのは そのページの文頭から指定文字数分ですよね? それを、キーワードの該当部分前後をプレビューに表示させたい という話でした。 >>303 です。 指示者がEstraierと混同していた可能性大です。 自己解決しました。どうもありがとうございました。 Namazu はPerlだけでしょうか? できればPHPでサイト内検索ができるスクリプトをご存知でしたら教えてください。 >>305 Namazu自体はPerlじゃないし。 Namazuと言えばみみずんの2ちゃんねる過去ログ全文検索システムだな。 って思ったら>>30 に書いてあった・・・ 現在phpから動的にページを生成して出力しているのですが、 このPHPから出来上がるページをnamazuで検索したいと思っています。 どのような手法がありますでしょうか? その動的に出力してるやつを静的なHTMLとして書き出す。 動的なページを静的HTMLとして書き出してインデックス化するような処理をnamazuの方で出来ますか? それとも、やはりこちら側であらかじめ静的ページを作っておいて、それをインデックス化するしかないでしょうか? なんとかコマンド一発で出来ませんかね? wget -> namazu っていうシェルスクリプト書けば一発でしょ。 >>311 さん >>313 さん >>314 さん 親切にありがとうございます。 よくわかりました。とりあえずwgetの方法を試してみようと思います。 2006-01-29: Namazu 2.0.15 を公開 ISO-8859-* に関する文書の間違いを訂正 RedHat ソフトウェア namazu.spec の不必要なパッチは削除 File::MMagic 1.25 を同梱 MeCab の正式対応 mknmz に -b 及び --use-mecab オプションを追加 mknmz および namazu に --norc オプションを追加 mknmz に --decode-base64 オプションを追加 新しいフィルタ(Gnumeric, Koffice, Mainman/Pipermail, Zip, Visio)を追加 mknmzrc に MECAB, DENY_DDN を追加 ファイル名がDDN である時にスキップ。 日付フィールドによるソート機能の追加 nmzcat, nmzegrep コマンドの追加 フィルタの Windows 対応 (msword.pl, excel.pl, powerpoint.pl, postscript.pl, 等...) OLE コントロールフィルタ更新 QUERY_STRING の区切りに';' 使用可能 Perl版テストプログラム(pltests) を追加 各種バグフィックス http://www.namazu.org/ は、MacのSafariで見れないのは、なんか理由があるのかな? >>320 http://www.namazu.org/index.html.ja ならOK Content-Locationヘッダをうまく扱えてないみたい。 他所ではちゃんとリダイレクトされるんだけど、namazu.orgではNG。なんでだろう? Namazuをローカルサーバーに組み込みたいのですが 何のファイルをサーバーに送れば良いのか教えてください。 >>322 ttp://www.namazu.org/installation.html >305 PHPでnamazu検索??? こんなの?? ttp://www.c-boxs.net/PHP/NamaP/ AN HTTPDとnamazuでLAN内のファイルサーバ全文検索システムを構築しました。 この勢いでローカルにある2ちゃん専ブラのdatファイルもインデックス化したいんですけど 良い文書フィルタはありませんか? >>325 っていうか2ちゃんにどっぷりハマってるような 人間のクズは氏んだほうがいいぞ。 専ブラ+dat保存なんて、何をたくらんでいるのやら・・・おー、こわ。 >>327 単なるナレッジ・マネジメント・システムの構築を目指してるだけですよ。 「おーこわ」って・・・なにを勘繰ってんですか インディックス作成時に読み込む文字種を正規表現で指定できますか? 記号は除外するとかです こいつの検索判定明らかにおかしい。 何でもそうなのだが、部分一致ができない。 ファッキントッシュは、バカの使うOS を検索するとする 「ファッキン」で検索すると一致なし 「ファッキントッシュ バカ」 で検索しても一致せず 「ファッキントッシュはバカの使うOS」でやらないと一致しない。 まるでMSNの検索エンジンだ あれとまったく同じ >>335 HyperEstraier いれろよ。こっちの方が簡単だよ。 検索漏れもないし。 >>335 「ホントかよ」とおもったんで、試してみたけど、ヒットするよ。 プレーンテキストで「ファッキントッシュは、バカの使うOS」と書いて 最後に改行して保存。 > まるでMSNの検索エンジンだ というが同エンジンと思われる「Windowsデスクトップサーチ」でも問題なくヒットした。 Hyper Estraierでももちろんヒット。 >>335 の環境がおかしいんじゃないのか? Windows ,PHP5に対応したPHPのNamazuモジュールを使いたいのですが、 どうやってモジュールをインストールするのか良く分かりません。 よろしければ、手順を教えていただけないでしょうか? >>339 PHPライセンスとGPLライセンスが衝突するので 自分でモジュールをコンパイルするしかないです。 www.mail-archive.com/namazu-users-ja@namazu.org/msg00374.html Namazu用のWEBクローラはないの? あと、インデクサや検索エンジンの分散処理ってどうやるのですか? どっちもHyperEstraierでは標準で付属してるよね じゃメタ検索は? Namazuサーバを複数稼働させといてクライアントで検索結果をマージできるシステムとか ないの? 検索結果をマージして使っている例もあるようだ ttp://www.hpcss.is.ritsumei.ac.jp/Essay/2005/thesis/pdf/ohsaki.pdf windows版のnamazuでmknmzでイントラネット内の共有ディスクの インデックスを作ると、終了できてないと思われるwordやexcelの プロセスがガンガンできるんですけど解決方法はありますか? インデクスの中から登録キーワードの一覧を取得したいのですが ファイルを開くことすらままなりませぬ(Cの知識皆無・・・ PerlかRubyからアクセスする方法を探してるんだけど 説明のあるページなどご存知の方いませんか? >>348 www.namazu.org/doc/nmz.html.ja#w に書いてあるとおり単なるテキストファイルに 1行に1単語で書かれているだけ >>349 このページは見ていませんでした。(トップページからリンクされてない?) 片っ端からファイルを見ていって、 開くことができたファイルの内容をチェックしていたんですが見落としてました。 ありがとうございました! 100MB強のPDFをインデックス化しようとするとmknmzが動作を停止する。なんでだ。 mknmzrcには200MBまでを検索対象にするよう設定してるんだが。 メモリか。xpdfは王様プログラミングで作ってあるのか。。 read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる