Namazu全文検索システム
kakasiについて質問です。 自分で作った辞書を、追加した。 # mkkanwa kanwadict (追加した辞書ファイル) 自分で追加した辞書の内容は、 上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、 現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか? kanwadictって、viで開くと文字化けして見れません。 ※環境:UNIX >>224 何かあったの? クラックされてたとか? namazu.orgサーバに不正侵入、サービス停止 全文検索システム「Namazu」を配布するNamazu Projectは5月27日、 同プロジェクトのサーバが不正侵入を受けたと発表した。 http://headlines.yahoo.co.jp/hl?a=20040527-00000016-zdn_n-sci >>229-233 今回の2ch不調で俺が見た多重で最高だw 人がいないので話題をふってみる 検索結果について質問なんですけど ttp://www.kaiho.mlit.go.jp/cgi-bin/namazu.cgi?query=%8B%DF%8AC&max=20&result=normal&sort=score ↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか? ttp://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?key=a&submit=%B8%A1%BA%F7%B3%AB%BB%CF%21&whence=0&max=20&format=long&whence=0&dbname=reiki 自分のは↑こんなふうに参照したページの上部しか表示されません。 >>240 本当だ・・・キーワードの入れ方がまずかったようです。 自分のnamazuでやり直したらちゃんと表示されました。 無知で申し訳ありません。 Perl版Namazuをレン鯖に置いてみましたが、 全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。 検索結果画面はきちんと表示されますが、検索文字列だけが化けています。 もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。 何が原因でしょうか? ↑うわ、UNIX板に書くつもりだったのに間違えた ごめんなさい、無視してください。 検索は問題なく出来るのですが、 ヒットしたファイルが日本語のファイル名だと、 ブラウザ上に表示されているファイル名を クリックしてもファイルをオープンしません。 検索対象ファイルの、 ファイル名が日本語でも対応してますか? ちなみにWindows版(2.0.12)です。 http://suwako.plala.jp/pukiwiki/index.php?%5B%5BPHP%A4%C7Namazu%5D%5D ↑ここ見てnamazuの全文検索システムのソースを入れてみたら 無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある カレントディレクトリになってしまいます。 これはどうすれば対処することが出来ますかね? namazurcの48行目にあるReplaceを参考サイトを見ながら いじってみましたがやはり結果は同じです。 一体どこがおかしいんだろう? 例えばnamazu.phpをC:\homeに置いたら 検索結果はちゃんと表示されるんですがリンクが全て namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home) 変えるべきところはnamazurcのReplaceのところとは思うんですが 何度変えても同じ結果になってしまいます。 どうすればちゃんとしたリンク先になってくれるかな? 参考にしたサイト↓ http://ponx.s5.xrea.com/hiki/ja/hiki.cgi?xrea_tdiary_namazu http://you-like.to/nekomimi/works/w2k20001110.html >>247 何でだろうね?ところで自鯖でやってるの? Replace A(インデックス作成時のパス) B(Aを置換したい文字列) だよね。ちゃんとそうなってる? pnamazu.cgiの検索結果に表示される「著者」の欄がウザイのと、 この欄の ${author} が一体何を表示するのかがわからないので ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。 sub field_init { %FieldAlias = ( 'author' => 'from' , 'title' => 'subject' , 'url' => 'uri' , ); あたりまではなんとなく分かるんですが・・・ Perlのすごい人! だれか教えて! 著者を消したいだけなら NMZ.result をいじったほうが早いよ。 著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。 .namazurcで Replace /index.html / Replace /C\|/namazu/nurupo/ http://hoehoe.ne.jp/ ~nurupo/ と、2つの置換を行いたいのですが、当然できません。 正規表現が使えるみたいなことが書いてありますが Replace /C\|/namazu/nurupo/(.+)/index.html http://hoehoe.ne.jp/ ~nurupo/$1/ では全てが http://hoehoe.ne.jp/ ~nurupo/$1/ にされてしまいます($1が展開されない) どうやればこの置換を実現できるのでしょうか? む?もしかして$1じゃなくて\1なのか・・・?そうなのか・・・? ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・ Namazuの検索結果って、 全部ドキュメントの行頭あたりしか表示しないけど Googleみたいにマッチした前後の文章を表示できんの? >>255 できない。 レスポンスを重視した結果、今の仕様になっていると思われる。 >>255 Googleっぽい動作が希望なら Estraier使ってみるとか Estraier はNamazu ほど敷居は低くないよなぁ・・・ >>255 有りものの中でなら msearch がお勧め そういや微妙に商用はいってる2ちゃん検索もmsearch使ってるっぽいな。 http://find.2ch.net/ CGIで複数の基本インデックスの指定は不可? F:\index +aaa +001 +002 +003 +bbb +001 +002 +003 aaaとbbbを指定したいのだが… ぐぐたら無理ぽいな ttp://search.luky.org/vine-users.2/msg02960.html 001とか002とかもインデックス? javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。 多分無理かな。以下のようにcccを指定する じゃダメ? F:\index +ccc +aaa +bbb >>261-262 数字のフォルダがインデックスで大まかに分けてある。 やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。 インデックスと結果表示をutf8でできないでしょうか… お聞きしたいのですが… wgetで落したHTMLファイルをNamazuで検索しています。 Namazuの検索結果の順番を自分で決めたいんですが、 NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。 どなたかいい方法知りませんか? インデックスの作成を速くする方法ないですか? namazuはcなのにmknmzはperlなのはどうして? >>267 インデックスの作成を早くするには分散して作成してからマージすればよいかも。 namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、 mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。 ちなみにpnamazuっていうPerlで書かれたnamazuもある。 たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。 質問は一個ずつにしてね。 とりあえずローカルで動かそうと思ったんですが、どうしてもインストールが うまくいきません。 インデックスを作ろうとするとNKF.pmが無いといわれます。 PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか? 一日費やして何とかNamazuをサーバーでうごかせれるようになったレベルなんですが、これでñとかóのような外国語をブラウザから検索してみると激しく文字化けしてしまいます。 なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!! namazuのwin32版をインストールしたのですが、mknmzrcの$ALLOW_FILEのところで、 2行目以下のwordなどの設定が対応メディアタイプに反映されません。 2行目以下も#は外しているのですが…。 茶筌のところ#を残しているのですが、それもちょっと変かもです。 うまくいかない原因がわかる方どなたか教えてください。 読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc システム: MSWin32 Namazu: 2.0.12 Perl: 5.006001 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: chasen -j -F '%m ' わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.SJIS 言語: ja_JP.SJIS 文字コード: sjis CONFDIR: D:/namazu/etc/namazu LIBDIR: D:/namazu/share/namazu/pl FILTERDIR: D:/namazu/share/namazu/filter TEMPLATEDIR: D:/namazu/share/namazu/template 対応メディアタイプ: application/x-gzip message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; x-type=rfc text/x-hdml >>272 まず最新の2.0.14を使いましょう。 それと D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE のところを全行はりつけてよ。 どこの#を外したのか見てみないとわからんよ。 >>273 最新って言ってもベータ版らしいので…。 とりあえずこんな感じです。 # # This pattern specifies file names which will be targeted. # NOTE: It can be specified by --allow=regex option. # Do NOT use `$' or `^' anchors. # Case-insensitive. # $ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text "|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files "|.*\\.pdf|.*\\.ps" . # PDF, PostScript "|.*\\.tex|.*\\.dvi" . # TeX, DVI "|.*\\.rpm|.*\\.deb" . # RPM, DEB "|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint "|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8 "|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man あれ?連続する半角スペースとタブが消えるのは2ちゃんの仕様でしたよね。 >>274 Windows版はβ版扱いになっていますが、 インストーラがβというだけで本体に問題はないですよ。 たぶんフィルタが必要としているMS-Word等の アプリケーションが入っていないのでしょう。 こちらのフィルタを使うとよいでしょう ttp://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html そういえば2.0.12は2002年か…。 Office2003だということもあるのかな。 拡張子だけで判断してるのではないんですか。 まずは最新版をインストールしてみます。 用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。 回答ありがとうございました。 Redhat9、namazu2.012にて全文検索システムを作成しています。 ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを 作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは 検索できるのですがブラウザから http:// サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。 aaaインデックスから結果を表示するにはどのようにするのでしょうか? ページの階層 /apache/htdocs/aaa /apache/htdocs/bbb /apache/htdocs/ccc インデックスの格納場所 /apache/cgi-bin/namazu/index/all /apache/cgi-bin/namazu/index/aaa index/all内のNMZ.head.ja <input type="hidden" name="idxname" value="all"> ←allに変更 <a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加 index/aaa内のNMZ.head.ja <input type="hidden" name="idxname" value="aaa"> ←aaaに変更 <a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加 cgi-bin内にある.namazurc Index /apache/cgi-bin/namazu/index Template /apache/cgi-bin/namazu/index/all Replace /apache/htdocs/ http:// サーバIPアドレス/ ご返答ありがとうございます。mknmzの結果は下記の通りです。 mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs 合計の文書数 602 合計キーワード 5,499 わかち書き module_kakasi -ieuc -oeuc -w mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa 合計の文書数 9 合計キーワード 441 わかち書き module_kakasi -ieuc -oeuc -w よろしくお願いします。 こっちですね。 KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff すいません。間違えました。 mknmz -C 読み込んだ設定ファイル: /etc/namazu/mknmzrc システム: linux Namazu: 2.0.12 Perl: 5.008 NKF: module_nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucJP 言語: ja_JP.eucJP 文字コード: euc CONFDIR: /etc/namazu LIBDIR: /usr/share/namazu/pl FILTERDIR: /usr/share/namazu/filter TEMPLATEDIR: /usr/share/namazu/template 対応メディアタイプ: application/pdf application/x-bzip2 application/x-compress application/x-gzip application/x-rpm message/news message/rfc822 text/hnf text/html text/html; x-type=mhonarc text/plain text/plain; xtype=rfc text/x-hdml text/x-roff >>279 Template /apache/cgi-bin/namazu/index/all としているから 常に index/all内のNMZ.head.ja が読み込まれているということでないか namazurcのTemplateの行をコメントアウトしてみたら >>279 亀レスだけど、 Namazuでは 「/cgi-bin/namazu.cgi?idxname=aaa」 みたいな直接指定はNGだったはず。 きちんとhiddenとかから送らないと。 >>285 それってどこでNGにしてるんでしょ。Namazu本体じゃなくて pnamazuとかインターフェースのところでやってるんですよね。 >>284-286 ありがとうございます。 検証が遅くなり申し訳ありませんでした。 サーバIPアドレス/cgi-bin/namazu.cgi?idxname=インデックス名&query=キーワード で検索したらうまくできました。htmlにhiddenで指定した場合もOKでした。 ご教授ありがとうございました。 しかし検索結果はOKなのですが、aaaインデックスを検索しても結果はOKなのですが ヘッダーの部分がallのもので表示されてしまいます。 (現在602 の文書がインデックス化され5,499 個のキーワード) 検索結果ページから再検索するとあるはずのページでも検索できません。 (allインデックス及びaaaインデックス両方とも。インデックスネームがうまく指定されない為?) namazurcのTemplate部分をコメントアウトするとインストール時?の古いインデックスが 表示されてしまいます。 複数インデックスがある時のTemplate指定はどのように行っているのでしょうか? >>287 Templateが選択される順序は説明書にあるとおり http://www.namazu.org/doc/manual.html#form-idxnames 再検索をする際にWebブラウザで表示ページのソースを調べて どのNMZ.headが読み込まれているか確かめてはどうですか。 会社で鯰使うらしいので、オフィとか見てみました。 日本語全文検索ってほぼGoogleでカバーできてるのでは? Winではあまり普及していないらしいし、導入に面倒がありそうだし 今、敢えてNamazuで検索を作るうまみってなんですか? Googleはイントラネット内も検索できるようになってんですかそうですか >>289 イントラの情報を検索できること 検索結果画面をカスタマイズできること カテゴリ検索ができること 文書の最終更新日をファイルスタンプから識別できること 今使うならnamazuじゃなくHyper Estraierにするな. 俺なら. >>293 そのソフト最近人気らしいけど、Namazuに比べてどの辺が優れてるの >>291-292 なるほど、イントラ内検索がGoogleにはないうまみっぽいですね。 だんだん鯰の位置づけがおぼろげながらわかってきました。 どうもありがとうございます。 Namazuだったら正規表現も使えるんじゃない? あれは便利だお。 〃∩ ∧_∧ ⊂⌒( ・ω・) はいはいわろすわろす `ヽ_っ⌒/⌒c ⌒ ⌒ namazuのなんかのバージョンで、検索指定した文が ハイライトされて、(そのページの上のほうからのテキストだけでなく) 検索された部分が表示されるというやるがあるらしいよ と先輩に言われたのですが、どこにありますか? あるいはカスタマイズで処理するもんなのですか? 教えてください。 >>300 EmphasisTags じゃなくて? >>301 ありがとうございます、調べてみます。(`・ω・´)ゝ やってみましたが、どうも指示されたものと違うようです。 たとえば文中にキーワードがヒットしても、プレビューで表示されるのは そのページの文頭から指定文字数分ですよね? それを、キーワードの該当部分前後をプレビューに表示させたい という話でした。 >>303 です。 指示者がEstraierと混同していた可能性大です。 自己解決しました。どうもありがとうございました。 Namazu はPerlだけでしょうか? できればPHPでサイト内検索ができるスクリプトをご存知でしたら教えてください。 >>305 Namazu自体はPerlじゃないし。 Namazuと言えばみみずんの2ちゃんねる過去ログ全文検索システムだな。 って思ったら>>30 に書いてあった・・・ 現在phpから動的にページを生成して出力しているのですが、 このPHPから出来上がるページをnamazuで検索したいと思っています。 どのような手法がありますでしょうか? その動的に出力してるやつを静的なHTMLとして書き出す。 動的なページを静的HTMLとして書き出してインデックス化するような処理をnamazuの方で出来ますか? それとも、やはりこちら側であらかじめ静的ページを作っておいて、それをインデックス化するしかないでしょうか? なんとかコマンド一発で出来ませんかね? wget -> namazu っていうシェルスクリプト書けば一発でしょ。 >>311 さん >>313 さん >>314 さん 親切にありがとうございます。 よくわかりました。とりあえずwgetの方法を試してみようと思います。 2006-01-29: Namazu 2.0.15 を公開 ISO-8859-* に関する文書の間違いを訂正 RedHat ソフトウェア namazu.spec の不必要なパッチは削除 File::MMagic 1.25 を同梱 MeCab の正式対応 mknmz に -b 及び --use-mecab オプションを追加 mknmz および namazu に --norc オプションを追加 mknmz に --decode-base64 オプションを追加 新しいフィルタ(Gnumeric, Koffice, Mainman/Pipermail, Zip, Visio)を追加 mknmzrc に MECAB, DENY_DDN を追加 ファイル名がDDN である時にスキップ。 日付フィールドによるソート機能の追加 nmzcat, nmzegrep コマンドの追加 フィルタの Windows 対応 (msword.pl, excel.pl, powerpoint.pl, postscript.pl, 等...) OLE コントロールフィルタ更新 QUERY_STRING の区切りに';' 使用可能 Perl版テストプログラム(pltests) を追加 各種バグフィックス http://www.namazu.org/ は、MacのSafariで見れないのは、なんか理由があるのかな? >>320 http://www.namazu.org/index.html.ja ならOK Content-Locationヘッダをうまく扱えてないみたい。 他所ではちゃんとリダイレクトされるんだけど、namazu.orgではNG。なんでだろう? Namazuをローカルサーバーに組み込みたいのですが 何のファイルをサーバーに送れば良いのか教えてください。 read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる