Namazu全文検索システム
>>54 再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑) 半年で、50位か。1000までいったら感動するな。あげ このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。 namazuの検索、なんか使いにくいんだけど。。 変に文節で区切らずに、googleみたいに普通に検索してくれたら それでいいのに。。 >>61 これのこと? >日本語がでたらめにわかち書きされてしまう >{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、 >でたらめにわかち書きされることがあります。 >これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。 >検索はあきらめましょう。 それとも、インデックス作るときの分かち書きをしないでほしい、ってこと? それって実現できるのか? googleはユーザーにあまり意識させないだけで、分けて探してるよ googleわけてるかな? 日本語は解析していないように見えるけど…。 英語はスペースでわけるだけだから楽だね。 それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。 つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。 ローカルでほしい、、 >>66 さん、ありがとうございます。 ほんとだ。分かち書きしてる、、 うむ、googleはちゃんと各言語ごとにチューンしてるんですね。 逆に言えば、分かち書きエンジンの精度さえ向上させれば、 google並みのことはできるってことだよね (もちろん、PageRank とかは抜きにして)。 いつも kakasi だけど、Chasen を使ってみようかなあ・・・。 個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。 >>68 googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ) なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。 ヒット数が少ない場合、関係ないけど。 >>70 その点は激しく同意。 ただ、分かち書きの精度を上げることで、 >>61 のやりたいことは実現できるんじゃないかな、って思った。 Namazu使ったPDFの全文検索でページしていとかできますか? Namazu使ったJPGの全文検索でページしていとかできますか? >>70 いまさらだが、NamazuへのPageRankの実装は、この論文が有名。 http://www.kusastro.kyoto-u.ac.jp/ ~baba/wais/pagerank.html >>75 まだ、このスレが生きていたとはね 興味深い文章サンクス。 改めて深入りできない、しちゃいけない分野だと再確認したよ 77ゲットオォォォォ!!  ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄ (´´ ∧∧ ) (´⌒(´ ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡  ̄ ̄ (´⌒(´⌒;; ズザーーーーーッ Namazuでmp3用のフィルタ??? わからん、俺がアフォなだけか? >>82 ID3タグでも検索するのか? そういうのは ふつー DB 使うだろ。 >>83-84 自分のホームヂレクトリをクロンで毎晩なめてるんだけど、 どうせなら、ID3も見てくれないかなと。 変かなぁ。 って、WEBプログラミングとは、違いますな。 スレ違いスマソ。 >>86 なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、 検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。 やってることは google のイメージ検索みたいな感じかな。 perl でサクッと書けそうな雰囲気。 ぜひトライしてみて。 あと、Web プログラミングとは関係ないけど、 Namazu に関係あればいいと思うよ。 いや、それをWebから使えるようにすりゃWebプログラミングと むちゃくちゃ関係あるじゃん。 > やってることは google のイメージ検索みたいな感じかな。 イメージ検索は外部から関連性を持ってくるのでちと違うような。 内部のID3だけだったらPDF検索くらいに対応するだろう。 ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら やっぱり便利かも。 検索結果で表示されるファイルの先頭部分のサイズを変更できますか? やりかたを教えて下さい。 wget でURLテキスト-iで、ディレクトリ作成-x しながらページ拾ってくると、 稀にディレクトリ作成(www.aaa.xxx)されなくて 関係ないディレクトリ(www.bbb.xxx)にページを 格納してしまいます。 このままindex作るとURLリンクが関係ないところに。 どうしてだろう。困った。 Office XPファイルは、インデキシングできないのかなぁ。 @ノハ@ ピュー( ‘ д‘) =〔~∪ ̄ ̄〕 =◎−−◎ @ハヽ@ (' д ‘)ピュー 〔~∪ ̄ ̄〕= ◎−−◎= づかれたゾイ >>99 Chasen 2.0.2 は cygwin 上で問題なくコンパイルできました。 Namazu 2.0.12 は cygwin 上で問題なくコンパイルできました。 cygwin のデフォルトの perl 関連のパッケージでは File::MMagic はインストールされないので、 CPAN http://search.cpan.org/dist/File-MMagic/ からダウンロードしてきて あらかじめ (configure の前に) インストールしておく必要があります。 namazu + chasen は cygwin で 問題なく動きました。 cygwin のコアDLLのバージョンは 1.3.14-1 です。 >>99 全部cygwinでやる方法以外無いのでは? そもそもkakasiを使う事が推奨されていて。 茶筅は結構イレギュラーな方法なわけだし。 (運用上結構問題がある) namazuを2chのdat形式に対応させようとしている人っていますか? 形式自体はレス1つが1行になっているだけなんだけど、<a name="hoge">をつけるのもなんか違う気がするし。 ファイル名と行数だけ教えてくればそれでよいんですが。 Namazuでやっているようなこと、ChaSenで分かち書きしてインデックス作ってcgiで検索っていうのも作りかけたけど、 車輪の再発明になりそうで中断してる。 >>105 dat からそのままインデックスを作りたいってこと? mknmz 用のフィルタを書けばいいだけだよね。 perl だし結構簡単そうだね。 >>106 そのとおりっす。 各行の先頭に<a name="スレ番号"></a>入れて、理由は不明ですが、先頭行に適当に<html>とか入れてあげて、 mknmz --html-split -a hogohoge.dat でインデックスは作れたし、検索もできるのは分かるのですが、 mknmzのソースのprocess_file辺りを見ると、コメントに、FIXME: Very complicated.とあるくらいなんで、めんどいなと。 html向けには分割して処理してるみたいですし。 誰か同じようなこと考えていないかなと。 >>107 read.cgi が出力する html をインデックスするよりも、 dat から直にインデックスする方がきっと速い。 いちいち dat から html 作らないから、不要なファイルを作らなくてもよい。 html として出力するのは 2ch ビューアとか、read.cgi に一任できる。 利点はこのあたりかな。みみずんとか喜びそうだよね。 結局、mknmz の仕様に則ったフィルタを作ればいい。 html.pl とか参考にして作ってみたら? http://cvs.namazu.org/namazu/filter/html.pl?rev=1.34&content-type=text/vnd.viewcvs-markup もし実現できたら、cvs にある scheme/http.pl と組み合わせて、 2ch.net の dat を直接インデックスできるかな。 あ、今 2ch.net は dat 直読みできないんだっけ? だめか。 >>108 フィルタ自体はHTMLのでも十分なんですよ。 --html-splitなしでは、mknmzってファイル単位でしかインデックス作らないじゃないですか。 datってスレ毎で、全レスが入っているから、スレごとにしか検索できないことになってマズーなのです。 p2 ( http://pc.2ch.net/test/read.cgi/mac/1034199997/ )のdatを2次利用したいなと思っていろいろ試してます。 >>107 に書いたように、mknmzのprocess_fileあたりの--html-split処理部を書き換えてみてます。 >>109 --html-split的なファイル分割を実現している人がいます。 本家には全く取り込まれていませんが… Emacsのinfoファイルの分割(X-ml-name: namazu-devel-ja X-mail-count: 02059 ) http://www.namazu.org/ml/namazu-devel-ja/msg02063.html PDFファイルをページごとに分割(X-ml-name: namazu-devel-ja X-mail-count: 01951) http://www.namazu.org/ml/namazu-devel-ja/msg01950.html つーかどちらも実装したのは僕ですが… 実現は単純だと思います。 行ごとにsplitするだけでとりあえずは実装できると思います。 見やすいようにフィールド情報を与えるためにはちょっと工夫がいるかもしれません。 ただフィールド情報が無くても十分有用だと思います。 そのページだけじゃわかりづらいと思うのでわからなかったら質問してください。 navi2chやら他の2ちゃんねるブラウザと連携すれば便利かもしれません。 ある特定のスレだけを検索対象にしてwebに公開しても便利かもしれません。 管理の都合上、 すべてのページについて、php4とpostgresを使っていて、 URLは http://domain.com/foo/?category=bar の形式で作ってるんですが (fooとbarはいろいろ変わる&postgresでページの階層構造を管理してる) これにNamazuを導入するには、どうすればいいんでしょうか・・・? >>113 そういうこと書くと逆効果。大体お正月で人いないし。 そうだなあ、来週の金曜までにレスが無かったら、私がレスするよ。 >>113 この板でたかだか9時間くらいで何をいってるんだか。 再来週の木曜日までにレスがなかったら俺がレスするよ。 とりあえず、それまでに、自学でなんとかできるかできないかなでの段階に、 ・・・いきたいな 検索にひっかからない。。。 「php namazu インデクサ」とじゃ 「php namazu シェルスクリプト」とかで検索してるんだけど、 いまいち該当しない。 検索のヒント、ください。 namazuかぁ。 ひらがなとかカタカナのもうめちゃくちゃな弱ささえ克服できればなぁ。 kakasiにひらがな単語の辞書登録さえあれば…。 もともと、そーゆープログラムではないから AQに採用されることないけど。 Googleみたいにヒットした単語の周囲の文章をサマリ表示させてほしい。 サマリは直接生成。 ところで、ウチのプロバイダはCGI使えないんだけど、全文検索(Namazuじゃなくても可)できる方法ないですかね。 >>123 あらかじめ検索用のインデックスを作っておいて、javascriptで、〜〜〜〜 よく考えたら、自分の所でCGI使えなくても、 CGIを使えるサーバーを借りたら、解決だった。 >>122 自分的にもそれは必須の機能だと思うんだけどなぁ。 頭の部分だけ静的に切り出したサマリーでずらずら検索で引っ掛かってきてもあんまサマリーの意味ない。 メーリングリストみたいにタイトルが内容の要約になってる、とかならいいんだけど。 、、、すんません 教えて下さい。 Namazu 2.0.12 for Win32をWin98で使用しています。 mknmzを実行すると、下記のエラーが出てしまいます、、、 Can't locate File/MMagic.pm in @INC (@INC contains: . C:/Perl/lib C:/Perl/site/ lib .) at C:\USR\LOCAL\NAMAZU\BIN/mknmz line 34. BEGIN failed--compilation aborted at C:namazu\bin/mknmz line 34. お分かりになる方、いらっしゃっいましたら ご教授ください。お願いします! MMagic が適切なパスにないか、インストールしていない。 >129さん 早速のレス、ありがとうございます。 MMagicのインストールを行おうとすると、エラーがでるので確かにインストール されていないようです。 namazuのパッケージに含まれてるppmは、500番台と600番台の2つなのですが 私のActivePerlのビルド番号を確認すると、804となっています、、、。 これが原因なんでしょうか? 「パソコンの仕組み」 http://pc1.moo.jp パソコン・インターネットの仕組み、パソコン自作・サーバー構築法について、動画や静止画を豊富に取り入れて、初心者向けに基礎から分かりやすく解説しています。 ガンガン、アクセスしてください!! chasen使ってる人に質問です。 やっぱりkakasiより検索精度あがりますか? とくにひらがな単語やカタカナ単語で。 おまいら、namazuで検索するファイル数ってどのくらいですか? 1ディレクトリで1000ファイルオーバーとかって、インデックス 作るのに問題ないっぽい? なんか、毎日自動でインデックス作ってるんだけど、ちゃんと インデックス作れてない(検索できない)場合が時々あるのよ。手動で 作ってやるとちゃんと動くところがまた憎らしい。 wgetの収集でたまにぜんぜん関係ないディレクトリに index.htmが格納されて困るんだけどなんでだろう。 ブラウザ動かしながらやるとミスするのかなぁ。 win2k pnamazuのほうがヒットしやすいのでしょうか? perl版でインデックス作らないとダメなのでしょうか? そのままのインデックスでpnamazu.cgiでとりこぼしが減るのでしょうか? アダルトの宣伝↑ ナマズの派生で、カバヤキっていうのでたけど使ってる人いる? 初めて Namazu 使ってみたけど、SI には使いづらい作りだな… >>142 どこら辺が? 内容によっては、回避策や運用のテクニック教えてあげられるかも。 MS-Access + ASP の like による全文検索と Namaz でインデックス 作成した全文検索ってどのくらいパフォーマンスが変わってくるかなー 検索対象レコード:1000、検索対象フィールド:3 各フィールド60,000文字ぐらいで考えてるんだけど、 MS-Access + ASP じゃ無理あるかな・・・ 2、3秒で検索結果がでてくればいいのですが・・・ インデックスの作成自体、最近気づいた愚か者ですが、 よろしくお願いいたします m(_ _)m あるファイルを処理できるフィルターが複数あるとき、 どちらを使うかはどうやって決まるのでしょうか? read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる