Namazu全文検索システム
ところで、ウチのプロバイダはCGI使えないんだけど、全文検索(Namazuじゃなくても可)できる方法ないですかね。 >>123 あらかじめ検索用のインデックスを作っておいて、javascriptで、〜〜〜〜 よく考えたら、自分の所でCGI使えなくても、 CGIを使えるサーバーを借りたら、解決だった。 >>122 自分的にもそれは必須の機能だと思うんだけどなぁ。 頭の部分だけ静的に切り出したサマリーでずらずら検索で引っ掛かってきてもあんまサマリーの意味ない。 メーリングリストみたいにタイトルが内容の要約になってる、とかならいいんだけど。 、、、すんません 教えて下さい。 Namazu 2.0.12 for Win32をWin98で使用しています。 mknmzを実行すると、下記のエラーが出てしまいます、、、 Can't locate File/MMagic.pm in @INC (@INC contains: . C:/Perl/lib C:/Perl/site/ lib .) at C:\USR\LOCAL\NAMAZU\BIN/mknmz line 34. BEGIN failed--compilation aborted at C:namazu\bin/mknmz line 34. お分かりになる方、いらっしゃっいましたら ご教授ください。お願いします! MMagic が適切なパスにないか、インストールしていない。 >129さん 早速のレス、ありがとうございます。 MMagicのインストールを行おうとすると、エラーがでるので確かにインストール されていないようです。 namazuのパッケージに含まれてるppmは、500番台と600番台の2つなのですが 私のActivePerlのビルド番号を確認すると、804となっています、、、。 これが原因なんでしょうか? 「パソコンの仕組み」 http://pc1.moo.jp パソコン・インターネットの仕組み、パソコン自作・サーバー構築法について、動画や静止画を豊富に取り入れて、初心者向けに基礎から分かりやすく解説しています。 ガンガン、アクセスしてください!! chasen使ってる人に質問です。 やっぱりkakasiより検索精度あがりますか? とくにひらがな単語やカタカナ単語で。 おまいら、namazuで検索するファイル数ってどのくらいですか? 1ディレクトリで1000ファイルオーバーとかって、インデックス 作るのに問題ないっぽい? なんか、毎日自動でインデックス作ってるんだけど、ちゃんと インデックス作れてない(検索できない)場合が時々あるのよ。手動で 作ってやるとちゃんと動くところがまた憎らしい。 wgetの収集でたまにぜんぜん関係ないディレクトリに index.htmが格納されて困るんだけどなんでだろう。 ブラウザ動かしながらやるとミスするのかなぁ。 win2k pnamazuのほうがヒットしやすいのでしょうか? perl版でインデックス作らないとダメなのでしょうか? そのままのインデックスでpnamazu.cgiでとりこぼしが減るのでしょうか? アダルトの宣伝↑ ナマズの派生で、カバヤキっていうのでたけど使ってる人いる? 初めて Namazu 使ってみたけど、SI には使いづらい作りだな… >>142 どこら辺が? 内容によっては、回避策や運用のテクニック教えてあげられるかも。 MS-Access + ASP の like による全文検索と Namaz でインデックス 作成した全文検索ってどのくらいパフォーマンスが変わってくるかなー 検索対象レコード:1000、検索対象フィールド:3 各フィールド60,000文字ぐらいで考えてるんだけど、 MS-Access + ASP じゃ無理あるかな・・・ 2、3秒で検索結果がでてくればいいのですが・・・ インデックスの作成自体、最近気づいた愚か者ですが、 よろしくお願いいたします m(_ _)m あるファイルを処理できるフィルターが複数あるとき、 どちらを使うかはどうやって決まるのでしょうか? うちのノートPC、2chのlog数百個程度mknmzしてると CPU周り熱々になって九割方落ちる鬱 Namazuを使ってます。 ただ、データの量が多くインデックス作成に失敗する事が多々あり、 現在は分割して、インデックスを作成。 ここに追加( --no-delete オプション)しています。 (更新は週に1回でも十分なので、本当は週に1回最初からインデックスを 作り直したいのですが、時間的にも労力的に厳しいです) 質問なのですが、上記の --no-delete オプションで一部のファイルをインデックスに 追加することと逆に、なんらかの方法で「指定したファイル」のインデックスからの 削除は可能でしょうか? >>157 >データの量が多くインデックス作成に失敗する事が多々あり うちではそんなこと無いなあ。まあ10万ファイル程度だけど。 データ量が多いってどのくらい? インデックス作成失敗って、どんなメッセージが出てどんな状況になるの? >>158 共用サーバにてインデックスを作成、Namazuを利用しています。 おおよそ、1MB前後が1回あたりのインデックス作成の限度のようです。 メッセージは「Out of Memory!」です。 ローカルのマシンでインデックスを作ってアップロードじゃだめなん? >>160 それも考えたのですが、インデックスには当然ローカルのファイルのパスが含まれてますよね? 現在はReplaceで、サーバのパス/virtual/ID/→http:// 〜の絶対パスに変更しています。 ローカル(Windowsマシン)C:\〜を絶対パスhttp:// 〜に変更させる事ができるのでしょうか? >>161 だって自分でやってるって書いてんじゃん。 なんだ、結局サーバのメモリ使用量制限に引っかかってるだけじゃん。 Namazu と直接関係ないじゃん。 >>161 可能。パスを書き換えて、インデックスを再構築すればいい。rfnmz だっけ? ml の過去ログで似たような事例を見た気がする。 NamazuってリレーショナルデータベースのIndex検索できますか? Javaで書かれたLuceneってのはできますよ。 >>162 >>163 ありがとうございます。 wget>インデックス作成>検索と3段階で相当な負荷が サーバにかかっていたので、いつアカウントを止められるのか 心配していました。 wget>インデックス作成まで行えれば、 検索だけをサーバで行うので負荷も和らげられると思います。 ローカルのWindowsのNamazuと、共用サーバのLinuxのNamazuのインデックスは 互換性があるのでしょうか? >>172 ありがとうございます。 Liunxのインストールからはじめるのは辛いですし、 cgiでインデックスを作ろうとするとすぐに落ちるので 助かりました ━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━― ∧_∧ ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。 =〔~∪ ̄ ̄〕 = ◎――◎ 山崎渉 そろそろwindowsローカルのPHPマヌアルを検索できない不具合は解決してますか? >そろそろwindowsローカルのPHPマヌアルを検索できない不具合は解決してますか? PHPマヌアルにかぎらずUTF8で書いてあるページは文字化けするツー事 nkfを利用しているからじゃないかな Namazuってファイルの検索に使うんですか? 全文検索できないの? できるんだったら、指定したキーワードを含むファイルだけから全文検索するなんて使い方も可能? また、インストールしたLinuxとかのディスクに置いてあるファイルでないと検索できないのかな? Windowsマシン上にあるファイルもさがせたりしないんでしょーか。 いろいろ関連サイト見てみたけどそういったことは書いてなかったYo!って探し方悪いんでしょうか カスケードスタイルシートって、 おいしそうですねぇ。 >>181 no no no no no 調べ方悪すぎ。namazu.orgにある文章読むだけで全て分かるのに。 >>185 noってそれぞれの私の質問に対する回答ですか? いずれにしてもサンクス子 http://www.namazu.org/ いってきます。。m(。_。)m インデックスの作成 OK → Webサーバーへのアップ OK →キーワード入力 OK →検索している 検索結果は出るのですが 全く関係のないページばかりリストアップ。そのページソースを検索キーワード で探してもありません。 インデックスもエラーなくできて、アップも問題なくでき、検索もできるのですが その結果が全くあさって・・・どこに問題がありそうでしょうか???。ご意見を お願いします。 >>187 Namazuってそんなもんだよ。 といいつつ、おれもインスコしてますが、自分では一切使わない。w >>188 んっ〜それにしても結果が全く関係なさ過ぎるんですよ。 インデックスがまともに出来ていないような現象です。 ただ、作業的には問題なく進んでるんですよ・・・トホホ 。・゚(/д\)゚・。 なんどもインデックスの構築をしているといつのまにかめちゃくちゃな回答をされるときがあって そういう場合は最初から作り直しますがなんなんでしょうね。 >186 たぶん回答じゃなくて、ガイジンさんなんだよ。 ...no. no! no!! no!!! nohhh!!!!!! nanimochigaudesholtu!!! って感じだと思う。 (⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン なんだか自分は複数indexについてよくわかっていません。 複数indexを作る場合、 namazu.cgiと.namazurcのあるディレクトリの下に新しいディレクトリを作って分けて、.namazurcで制御すればいいんでしょうか? 今はindexファイルをnamazu.cgiと.namazurcのあるファイルと同じ階層に全部詰め込んでいます。 これだと、二つ以上のindexは作れないみたいです。 複数インデックスは、 インデックスのあるディレクトリ内のサブディレクトリ名が そのままインデクス名になる。使う場合は、.namzurcではなくて NMZ.head.jaで idxname="foo" とか指定してやればいい。 >>195 わかりやすいレスありがとうございます。 解決しました。 相談なんですけど、 「ホスティング依頼している鯖に namazu を入れて、メールの全文検索ができ ないもんかな?」 という相談をうけますた。 う〜ん………… おいらの使ったのは、RedHatだったんで、namazuはRPMでなんも考えずに 入れて、インデックス作って使ってたことはあるけど、ホス依頼してる鯖だと root 権限なんか貰えないだろーしなぁ…… なんかいい方法ってないでしょか? >>198 ありがとう!提案してみるよ って、これ、インデックス作成はローカルの環境でするのかぁ ま、いいや。相手がなんていうか、言うだけ言ってみよう ヒントくれてサンクス! 特定のディレクトリのみ除外する方法は何かありますか? >>200 特定のファイル(拡張子だけだったかも)を除外する という設定項目があった様な記憶があるんで、 もしかしたら、それの応用でディレクトリごと無視するとかできるかも。 #具体的にどんな設定をするかは忘れた #多分namazuの本家サイト見たらあったよ 自分のページは全て、「http://www.example/com/?cat= ★」★はページごとに違う という形式なのですが、 こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、 どうすればいいのでしょうか? >>202 replaceでがんばってどうにかできないかな? 例えば /home/apache/documentroot/test/1.txt ↓ http://www.example.com/?cat=/test/1.txt って変換だったら Replace "/home/apache/documentroot" "http://www.example.com/?cat= " とか こういうこと? >>205 ありがとうございます。 全部、/?cat=★は「★.inc」としてファイルをおいてあるので、それでなんとかいきそうです。 教えてもらいたいことがあるんですが nmz.field.**** の****を増やしたいのですが、どうしたら良いでしょうか? 具体的にはmknmz時にuriを見て wwwroot/aaa/a.html wwwroot/bbb/b.html nmz.field.locate ってファイルを作ると その中に aaa bbb って出力されてほしい で検索結果でyahooのカテゴリのように <a href="a.html">aのタイトル</a> カテゴリ TOP>>aaa(${locate}の値)とかやりたい まぁ検索結果の中でuri見て変換したら良いんだけど、 もうちっとスマートに処理させたいなと・・・ 質問です。 2chの過去ログを検索出来るようにしていますけど ファイル数17万程度でインデックス作成に取り組んでいるのですけど 3日経っても終わりません。。おかしいと思いこちらに来ました。 もっと処理を早くしたいのですが、、 一応何を書けばいいのかわかりませんが、 PCのスペック等を簡単にまず記します。 何か必要な設定項目を書けと言われればすぐ書きますので、、 CPU P3-1G@dual mem 1G namazu ver2.0.12 perl 5.6 設定ファイルの中身を弄ればいいのでしょうか。。 一応インデックス書き出しは行われ続けていますけど 遅くて遅くて、、、 何かヒント等くれる方いらっしゃいませんでしょうか、、、? OS windows2000 sp3 KAKASI使用 mknmzrc設定 $ON_MEMORY_MAX = 5000000; $FILE_SIZE_MAX = 10000000; $TEXT_SIZE_MAX = 1000000; $WORD_LENG_MAX = 128; $INVALID_LENG = 128; $MAX_FIELD_LENGTH = 200; $WAKATI = $KAKASI; とりあえずon memory maxの値が小さいのはわかったのですけど これが速さに関係するのかは理解出来ませんでした。 また、他に問題点や気づく点等がありましたら教えて欲しいです、、 処理能力にはディスクI/Oという重要なファクターもある。 一気にmknmzするのではなく、分割してmknmz→マージする。 そうすれば処理時間もだいたい想像できる。 >>212 ヒント有難う御座います! 少しそれについて調べてみます。 http://geta.ex.nii.ac.jp/ GETAのPHPインタフェイス作ろうという奇特な御仁は いらっしゃいませんか? これ誰かお願いします http://pc3.2ch.net/test/read.cgi/unix/1075033822/576 Java の API のリファレンスを Namazu でインデックス化していて Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです Namazuでインデックス化をして検索をしようと思ったら 「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。 どうしてなのでしょうか。 どなたかPHPスクリプトで動く 日本語全文検索エンジンソフトウェアを教えてください。 4/1にNamazuの新バージョン出るんじゃなかったっけ? kakasiについて質問です。 自分で作った辞書を、追加した。 # mkkanwa kanwadict (追加した辞書ファイル) 自分で追加した辞書の内容は、 上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、 現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか? kanwadictって、viで開くと文字化けして見れません。 ※環境:UNIX read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる