Namazu全文検索システム

**名無しさん＠お腹いっぱい。** · 2001/06/14(木) 09:17

全文検索システム Namazu
http://www.namazu.org/

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718

**Windows における namazu w/chasen** · 02/11/03 14:10

namazu + chasen は cygwin で問題なく動きました。
cygwin のコアDLLのバージョンは 1.3.14-1 です。

**nobodyさん** · 02/11/03 23:09

>>99
全部cygwinでやる方法以外無いのでは？
そもそもkakasiを使う事が推奨されていて。
茶筅は結構イレギュラーな方法なわけだし。
（運用上結構問題がある）

**nobodyさん** · 02/12/03 00:32

ｳﾏｰ

**nobodyさん** · 02/12/26 00:21

namazuを2chのdat形式に対応させようとしている人っていますか?
形式自体はレス1つが1行になっているだけなんだけど、<a name="hoge">をつけるのもなんか違う気がするし。
ファイル名と行数だけ教えてくればそれでよいんですが。
Namazuでやっているようなこと、ChaSenで分かち書きしてインデックス作ってcgiで検索っていうのも作りかけたけど、
車輪の再発明になりそうで中断してる。

**nobodyさん** · 02/12/26 00:41

>>105
dat からそのままインデックスを作りたいってこと?
mknmz 用のフィルタを書けばいいだけだよね。
perl だし結構簡単そうだね。

**nobodyさん** · 02/12/26 01:19

>>106
そのとおりっす。
各行の先頭に<a name="スレ番号"></a>入れて、理由は不明ですが、先頭行に適当に<html>とか入れてあげて、
mknmz --html-split -a hogohoge.dat
でインデックスは作れたし、検索もできるのは分かるのですが、
mknmzのソースのprocess_file辺りを見ると、コメントに、FIXME: Very complicated.とあるくらいなんで、めんどいなと。
html向けには分割して処理してるみたいですし。
誰か同じようなこと考えていないかなと。

**nobodyさん** · 02/12/26 01:48

>>107
read.cgi が出力する html をインデックスするよりも、
dat から直にインデックスする方がきっと速い。
いちいち dat から html 作らないから、不要なファイルを作らなくてもよい。
html として出力するのは 2ch ビューアとか、read.cgi に一任できる。
利点はこのあたりかな。みみずんとか喜びそうだよね。

結局、mknmz の仕様に則ったフィルタを作ればいい。
html.pl とか参考にして作ってみたら?
http://cvs.namazu.org/namazu/filter/html.pl?rev=1.34&content-type=text/vnd.viewcvs-markup

もし実現できたら、cvs にある scheme/http.pl と組み合わせて、
2ch.net の dat を直接インデックスできるかな。
あ、今 2ch.net は dat 直読みできないんだっけ? だめか。

**nobodyさん** · 02/12/26 02:05

>>108
フィルタ自体はHTMLのでも十分なんですよ。
--html-splitなしでは、mknmzってファイル単位でしかインデックス作らないじゃないですか。
datってスレ毎で、全レスが入っているから、スレごとにしか検索できないことになってマズーなのです。
p2 ( http://pc.2ch.net/test/read.cgi/mac/1034199997/ )のdatを2次利用したいなと思っていろいろ試してます。
>>107 に書いたように、mknmzのprocess_fileあたりの--html-split処理部を書き換えてみてます。

**nobodyさん** · 03/01/02 18:30

>>109
--html-split的なファイル分割を実現している人がいます。
本家には全く取り込まれていませんが…

Emacsのinfoファイルの分割(X-ml-name: namazu-devel-ja X-mail-count: 02059 )
http://www.namazu.org/ml/namazu-devel-ja/msg02063.html

PDFファイルをページごとに分割(X-ml-name: namazu-devel-ja X-mail-count: 01951)
http://www.namazu.org/ml/namazu-devel-ja/msg01950.html

つーかどちらも実装したのは僕ですが…

実現は単純だと思います。
行ごとにsplitするだけでとりあえずは実装できると思います。
見やすいようにフィールド情報を与えるためにはちょっと工夫がいるかもしれません。
ただフィールド情報が無くても十分有用だと思います。
そのページだけじゃわかりづらいと思うのでわからなかったら質問してください。

navi2chやら他の2ちゃんねるブラウザと連携すれば便利かもしれません。
ある特定のスレだけを検索対象にしてwebに公開しても便利かもしれません。

**nobodyさん** · 03/01/03 09:06

管理の都合上、
すべてのページについて、php4とpostgresを使っていて、
URLは http://domain.com/foo/?category=bar の形式で作ってるんですが
（fooとbarはいろいろ変わる＆postgresでページの階層構造を管理してる）
これにNamazuを導入するには、どうすればいいんでしょうか・・・？

**nobodyさん** · 03/01/03 09:29

**111** · 03/01/03 18:29

あーれー、レスがない。

**nobodyさん** · 03/01/03 18:42

>>113
そういうこと書くと逆効果。大体お正月で人いないし。
そうだなあ、来週の金曜までにレスが無かったら、私がレスするよ。

**nobodyさん** · 03/01/03 18:49

>>113
この板でたかだか９時間くらいで何をいってるんだか。
再来週の木曜日までにレスがなかったら俺がレスするよ。

**111** · 03/01/04 00:23

とりあえず、それまでに、自学でなんとかできるかできないかなでの段階に、
・・・いきたいな

**111** · 03/01/04 19:17

検索にひっかからない。。。

「php namazu インデクサ」とじゃ
「php namazu シェルスクリプト」とかで検索してるんだけど、
いまいち該当しない。

検索のヒント、ください。

**111** · 03/01/11 17:11

ｼｮﾎﾞｰﾝ

**nobodyさん** · 03/01/11 18:22

namazuかぁ。
ひらがなとかカタカナのもうめちゃくちゃな弱ささえ克服できればなぁ。
kakasiにひらがな単語の辞書登録さえあれば…。

もともと、そーゆープログラムではないから
ＡＱに採用されることないけど。

**山崎渉** · 03/01/15 13:33

（＾＾）

**nobodyさん** · 03/01/17 16:56

>>119
茶筅にしる!

**nobodyさん** · 03/01/18 02:26

Googleみたいにヒットした単語の周囲の文章をサマリ表示させてほしい。
サマリは直接生成。

**nobodyさん** · 03/01/18 07:01

ところで、ウチのプロバイダはCGI使えないんだけど、全文検索（Namazuじゃなくても可）できる方法ないですかね。

**nobodyさん** · 03/01/18 15:04

>>123
あらかじめ検索用のインデックスを作っておいて、javascriptで、～～～～

**124** · 03/01/18 15:07

よく考えたら、自分の所でCGI使えなくても、
CGIを使えるサーバーを借りたら、解決だった。

**nobodyさん** · 03/01/18 16:10

>>122
pnamazuつかえ

**nobodyさん** · 03/01/18 22:45

>>122
自分的にもそれは必須の機能だと思うんだけどなぁ。
頭の部分だけ静的に切り出したサマリーでずらずら検索で引っ掛かってきてもあんまサマリーの意味ない。
メーリングリストみたいにタイトルが内容の要約になってる、とかならいいんだけど。

**nobodyさん** · 03/01/21 15:04

、、、すんません　教えて下さい。
Namazu 2.0.12 for Win32をWin98で使用しています。
mknmzを実行すると、下記のエラーが出てしまいます、、、

Can't locate File/MMagic.pm in @INC (@INC contains: . C:/Perl/lib C:/Perl/site/
lib .) at C:\USR\LOCAL\NAMAZU\BIN/mknmz line 34.
BEGIN failed--compilation aborted at C:namazu\bin/mknmz line 34.

お分かりになる方、いらっしゃっいましたら
ご教授ください。お願いします！

**nobodyさん** · 03/01/21 23:04

MMagic が適切なパスにないか、インストールしていない。

**nobodyさん** · 03/01/22 00:18

>129さん　早速のレス、ありがとうございます。
MMagicのインストールを行おうとすると、エラーがでるので確かにインストール
されていないようです。
namazuのパッケージに含まれてるppmは、500番台と600番台の２つなのですが
私のActivePerlのビルド番号を確認すると、804となっています、、、。
これが原因なんでしょうか？

**nobodyさん** · 03/01/22 22:49

kabayaki使えYO!

**nobodyさん** · 03/01/22 22:55

「パソコンの仕組み」

http://pc1.moo.jp

パソコン・インターネットの仕組み、パソコン自作・サーバー構築法について、動画や静止画を豊富に取り入れて、初心者向けに基礎から分かりやすく解説しています。

ガンガン、アクセスしてください！！

**nobodyさん** · 03/01/22 23:06

小遣い稼ぎ
http://banana.fruitmail.net/cgi/introduce_jump2.cgi?1363289

**nobodyさん** · 03/01/23 09:19

chasen使ってる人に質問です。
やっぱりkakasiより検索精度あがりますか？
とくにひらがな単語やカタカナ単語で。

**nobodyさん** · 03/01/24 13:46

　おまいら、namazuで検索するファイル数ってどのくらいですか？
1ディレクトリで1000ファイルオーバーとかって、インデックス
作るのに問題ないっぽい？
　なんか、毎日自動でインデックス作ってるんだけど、ちゃんと
インデックス作れてない(検索できない)場合が時々あるのよ。手動で
作ってやるとちゃんと動くところがまた憎らしい。

**nobodyさん** · 03/01/24 15:43

wgetの収集でたまにぜんぜん関係ないディレクトリに
index.htmが格納されて困るんだけどなんでだろう。
ブラウザ動かしながらやるとミスするのかなぁ。

win2k

**nobodyさん** · 03/01/25 15:38

pnamazuのほうがヒットしやすいのでしょうか？

perl版でインデックス作らないとダメなのでしょうか？

そのままのインデックスでpnamazu.cgiでとりこぼしが減るのでしょうか？

**nobodyさん** · 03/02/05 04:47

保守

**nobodyさん** · 03/02/05 06:56

http://homepage3.nifty.com/digikei/ten.html
いいね～　これ♪

**nobodyさん** · 03/02/05 09:04

アダルトの宣伝↑

ナマズの派生で、カバヤキっていうのでたけど使ってる人いる？

**nobodyさん** · 03/02/05 09:11

http://www.agemasukudasai.com/bloom/

**nobodyさん** · 03/02/05 10:12

初めて Namazu 使ってみたけど、SI には使いづらい作りだな…

**nobodyさん** · 03/02/05 11:27

>>142
どこら辺が?
内容によっては、回避策や運用のテクニック教えてあげられるかも。

**nobodyさん** · 03/02/07 03:32

MS-Access + ASP の like による全文検索と Namaz でインデックス
作成した全文検索ってどのくらいパフォーマンスが変わってくるかなー

検索対象レコード：１０００、検索対象フィールド：３
各フィールド６０，０００文字ぐらいで考えてるんだけど、
MS-Access + ASP じゃ無理あるかな・・・
２、３秒で検索結果がでてくればいいのですが・・・
インデックスの作成自体、最近気づいた愚か者ですが、
よろしくお願いいたします　 m(_ _)m

**nobodyさん** · 03/02/07 06:28

http://jsweb.muvc.net/index.html
？？？？？？？？？

**nobodyさん** · 03/03/07 18:19

UNAGI

**nobodyさん** · 03/03/08 13:01

Namazuが装備されてるレン鯖なら
http://www.akira.ne.jp/index.htm

**nobodyさん** · 03/03/08 16:11

あるファイルを処理できるフィルターが複数あるとき、
どちらを使うかはどうやって決まるのでしょうか？

**山崎渉** · 03/03/13 17:05

（＾＾）

**nobodyさん** · 03/03/13 20:02

(・∀・)ｲｲ!

**nobody** · 03/03/28 00:40

(´-`).｡oO(保守……。)

**山崎渉** · 03/04/17 12:25

（＾＾）

**山崎渉** · 03/04/20 06:08

　　 ∧＿∧
　　（　　＾＾）＜ぬるぽ（＾＾）

**nobodyさん** · 03/04/23 13:38

うちのノートPC、2ｃｈのlog数百個程度mknmzしてると
CPU周り熱々になって九割方落ちる鬱

**nobodyさん** · 03/04/28 11:08

レン鯖レン鯖

**nobodyさん** · 03/05/14 16:15

（･∀･）

**nobodyさん** · 03/05/18 02:04

Namazuを使ってます。
ただ、データの量が多くインデックス作成に失敗する事が多々あり、
現在は分割して、インデックスを作成。
ここに追加（ --no-delete オプション）しています。
（更新は週に1回でも十分なので、本当は週に1回最初からインデックスを
作り直したいのですが、時間的にも労力的に厳しいです）

質問なのですが、上記の --no-delete オプションで一部のファイルをインデックスに
追加することと逆に、なんらかの方法で「指定したファイル」のインデックスからの
削除は可能でしょうか？

**nobodyさん** · 03/05/18 10:06

>>157
>データの量が多くインデックス作成に失敗する事が多々あり

うちではそんなこと無いなあ。まあ10万ファイル程度だけど。
データ量が多いってどのくらい?
インデックス作成失敗って、どんなメッセージが出てどんな状況になるの?

**nobodyさん** · 03/05/18 14:25

>>158
共用サーバにてインデックスを作成、Namazuを利用しています。

おおよそ、1MB前後が1回あたりのインデックス作成の限度のようです。
メッセージは「Out of Memory!」です。

**nobodyさん** · 03/05/18 17:53

ローカルのマシンでインデックスを作ってアップロードじゃだめなん？

**nobodyさん** · 03/05/19 02:54

>>160
それも考えたのですが、インデックスには当然ローカルのファイルのパスが含まれてますよね？

現在はReplaceで、サーバのパス/virtual/ID/→http://～の絶対パスに変更しています。
ローカル（Windowsマシン）C:\～を絶対パスhttp://～に変更させる事ができるのでしょうか？

**nobodyさん** · 03/05/19 08:52

>>161
だって自分でやってるって書いてんじゃん。

**nobodyさん** · 03/05/19 11:12

なんだ、結局サーバのメモリ使用量制限に引っかかってるだけじゃん。
Namazu と直接関係ないじゃん。

>>161
可能。パスを書き換えて、インデックスを再構築すればいい。rfnmz だっけ?
ml の過去ログで似たような事例を見た気がする。

**nobodyさん** · 03/05/19 12:36

NamazuってリレーショナルデータベースのIndex検索できますか?
Javaで書かれたLuceneってのはできますよ。

**動画直リン** · 03/05/19 13:08

http://homepage.mac.com/hitomi18/

**nobodyさん** · 03/05/19 14:26

>>162
>>163
ありがとうございます。

wget＞インデックス作成＞検索と3段階で相当な負荷が
サーバにかかっていたので、いつアカウントを止められるのか
心配していました。

wget＞インデックス作成まで行えれば、
検索だけをサーバで行うので負荷も和らげられると思います。

**nobodyさん** · 03/05/19 15:01

(；´Д`)ﾊｧﾊｧ
http://homepage3.nifty.com/coco-nut/

**bloom** · 03/05/19 15:08

http://homepage.mac.com/ayaya16/

**nobodyさん** · 03/05/21 10:19

ローカルのWindowsのNamazuと、共用サーバのLinuxのNamazuのインデックスは
互換性があるのでしょうか？

**nobodyさん** · 03/05/21 14:38

age

**bloom** · 03/05/21 15:08

http://homepage.mac.com/ayaya16/

**nobodyさん** · 03/05/22 00:10

>>169
あるよ。

**nobodyさん** · 03/05/22 01:10

>>172
ありがとうございます。

Liunxのインストールからはじめるのは辛いですし、
cgiでインデックスを作ろうとするとすぐに落ちるので
助かりました

**山崎渉** · 03/05/22 01:58

━―━―━―━―━―━―━―━―━[JR山崎駅（＾＾）]━―━―━―━―━―━―━―━―━―

**nobodyさん** · 03/05/23 00:35

（･∀･）

**山崎渉** · 03/05/28 17:21

　　　　∧＿∧
ﾋﾟｭ.ｰ　(　　＾＾）＜これからも僕を応援して下さいね（＾＾）。
　　＝〔~∪￣￣〕
　　＝ ◎――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉

**nobodyさん** · 03/05/30 16:43

（･∀･）

**nobodyさん** · 03/06/18 16:39

そろそろwindowsローカルのPHPﾏﾇｱﾙを検索できない不具合は解決してますか？

**nobodyさん** · 03/06/18 22:37

>そろそろwindowsローカルのPHPﾏﾇｱﾙを検索できない不具合は解決してますか？

PHPﾏﾇｱﾙにかぎらずUTF8で書いてあるページは文字化けするツー事
nkfを利用しているからじゃないかな

**nobodyさん** · 03/06/19 00:34

nkf使ってないよ、lvでutf8対応している

**nobodyさん** · 03/06/25 14:23

Namazuってファイルの検索に使うんですか？
全文検索できないの？
できるんだったら、指定したキーワードを含むファイルだけから全文検索するなんて使い方も可能？

また、インストールしたLinuxとかのディスクに置いてあるファイルでないと検索できないのかな？
Windowsマシン上にあるファイルもさがせたりしないんでしょーか。

いろいろ関連サイト見てみたけどそういったことは書いてなかったYo!って探し方悪いんでしょうか

**nobodyさん** · 03/06/25 15:10

☆覗いてみてください☆（閲覧無料）
http://endou.kir.jp/yuminet/link.html

_ · 03/06/25 15:12

http://homepage.mac.com/hiroyuki44/

**ミルフィーユ** · 03/06/25 15:24

カスケードスタイルシートって、
おいしそうですねぇ。

**nobodyさん** · 03/06/25 19:36

>>181

no
no
no
no
no

調べ方悪すぎ。namazu.orgにある文章読むだけで全て分かるのに。

**181** · 03/06/27 00:27

>>185
noってそれぞれの私の質問に対する回答ですか？
いずれにしてもｻﾝｸｽ子 http://www.namazu.org/ いってきます。。m(。＿。)m

**？？？** · 03/06/27 19:27

インデックスの作成　ＯＫ　→　Webサーバーへのアップ　ＯＫ
→キーワード入力　ＯＫ　→検索している　検索結果は出るのですが
全く関係のないページばかりリストアップ。そのページソースを検索キーワード
で探してもありません。

インデックスもエラーなくできて、アップも問題なくでき、検索もできるのですが
その結果が全くあさって・・・どこに問題がありそうでしょうか？？？。ご意見を
お願いします。

**nobodyさん** · 03/06/28 01:23

>>187
Namazuってそんなもんだよ。
といいつつ、おれもインスコしてますが、自分では一切使わない。w

**187** · 03/06/30 07:16

>>188
んっ～それにしても結果が全く関係なさ過ぎるんですよ。
インデックスがまともに出来ていないような現象です。
ただ、作業的には問題なく進んでるんですよ・・・ﾄﾎﾎ　　｡・ﾟ（/д＼）ﾟ・｡

◆MiMIZUNCjA · 03/07/07 03:25

なんどもインデックスの構築をしているといつのまにかめちゃくちゃな回答をされるときがあって
そういう場合は最初から作り直しますがなんなんでしょうね。

03/07/07 03:54

>186
たぶん回答じゃなくて、ｶﾞｲｼﾞﾝさんなんだよ。
...no. no! no!! no!!! nohhh!!!!!! nanimochigaudesholtu!!!
って感じだと思う。

**山崎渉** · 03/08/15 22:47

　　　 (⌒V⌒)
　　　│ ＾＾ │＜これからも僕を応援して下さいね（＾＾）。
　　⊂|　　　　|つ
　　　（＿）（＿）　　　　　　　　　　　　　　　　　　　　　　山崎パン

**nobodyさん** · 03/10/02 14:51

**nobodyさん** · 03/10/06 00:26

なんだか自分は複数indexについてよくわかっていません。
複数indexを作る場合、
namazu.cgiと.namazurcのあるディレクトリの下に新しいディレクトリを作って分けて、.namazurcで制御すればいいんでしょうか？
今はindexファイルをnamazu.cgiと.namazurcのあるファイルと同じ階層に全部詰め込んでいます。
これだと、二つ以上のindexは作れないみたいです。

**nobodyさん** · 03/10/06 00:33

複数インデックスは、インデックスのあるディレクトリ内のサブディレクトリ名が
そのままインデクス名になる。使う場合は、.namzurcではなくて
NMZ.head.jaで idxname="foo" とか指定してやればいい。

**nobodyさん** · 03/10/06 06:50

>>195
わかりやすいレスありがとうございます。
解決しました。

**nobodyさん** · 03/11/13 08:37

相談なんですけど、

「ホスティング依頼している鯖に namazu を入れて、メールの全文検索ができ
ないもんかな？」

という相談をうけますた。

う～ん…………

おいらの使ったのは、ＲｅｄＨａｔだったんで、namazuはRPMでなんも考えずに
入れて、インデックス作って使ってたことはあるけど、ホス依頼してる鯖だと
root 権限なんか貰えないだろーしなぁ……

なんかいい方法ってないでしょか？

**nobodyさん** · 03/11/14 09:37

pnamazu

**197** · 03/11/14 14:31

>>198

ありがとう！提案してみるよ

って、これ、インデックス作成はローカルの環境でするのかぁ
ま、いいや。相手がなんていうか、言うだけ言ってみよう

ヒントくれてサンクス！

**nobodyさん** · 03/12/20 12:12

特定のディレクトリのみ除外する方法は何かありますか?

**nobodyさん** · 03/12/20 14:36

>>200
特定のファイル(拡張子だけだったかも)を除外する
という設定項目があった様な記憶があるんで、
もしかしたら、それの応用でディレクトリごと無視するとかできるかも。

＃具体的にどんな設定をするかは忘れた
＃多分namazuの本家サイト見たらあったよ