検索エンジンをつくりたい
ヤフーのような検索エンジンを作って、 自力で商用化をしたいんだけれど、 開発費用っていくらぐらいかかる? 信頼のおける技術者も探しています。 >>144 だろうね。極端な話アダルトなら「AV Search」でもいいと思う。 3,4年前はこういう名称のつけ方は「ありきたりでダサい」と言われてきたけど 逆に今はわかりやすくていいと思うし。 ところで >話は違いますが、前に検索したキーワードを出したり、類似性の高いキーワードを出すサイトもありますね。 って書いているけど、具体的にはどこ?俺は知らないけど・・。 あ、もう一つ思いついたのでこのスレに書き留めとくw Yahoo!&GoogleとgooやinfoseekやMSNなどを含めて決定的に違うこと。 それは「検索エンジンだと理解されやすいデザイン」だと思う。 例えばネットに詳しくない人はフォームがあったからってそれがなんなのか? 検索って何?みたいな人が多いわけで。 それでも使っていくうちに分かるわけだが、MSNなんか特にそうだけど どの部分が検索フォームかわかりにくい。と言うより「検索以外に目が行く」 と言った方がいいかもしれないね。それだけ検索エンジンには力をいれてないのだろう。 しかし、Googleはもちろん、旧Yahoo!なんかも明らかに検索フォームが”目立つ” だから利用しやすいしわかりやすいと思うんだよね。 ちょっとプログラムとは違うけど、デザイン的な作り方もかなり重要だと思った。 類似性ってのは言い方が悪かったかも知れませんが、 合わせて検索される頻度が高いキーワードのチャックボックスやリンクが出る奴ですね。 旧Infoseekはそうでしたし、今はつながりシークだったかな名称が・・・ 米国では結構あった気がしますが、思い出せない。 アフィリエイト全盛で広告に埋没した検索サイトも多くデザインは度外視かも知れないですね。 検索サイトは圧倒的なヒット数が無いと利益を出すのは難しいですね。 こんなのがあったらいいな…。 『共通語リスト』 例えば「プログラム 言語」で検索すると 「C / Java / VB ...」みたいに検索結果の中で良く出てくるキーワードを 抽出する。それをクリックすることで検索結果から「Java」を取り除いたり 「C」でフィルタリングしたり…。 結局はAND検索になるのだけど、良く出てくるキーワードがリストで出てくると 「なぜ、検索結果がぼやけるのか」が分かるような気がする。 検索者は「プログラム言語といえばCだろ!」と思って、「プログラム 言語」で C言語の情報を探そうとしているが、予想以上にJava関連の情報が多かったりする ことが一目で分かるよね。 /* この例ではキーワードが下手すぎるがそれは置いておく */ >>148 そそ。そういうのいいよね。 自サイトにアクセス解析を置いている人なら分かると思うけど たまに「どうしてそのキーワードなの?」って人が訪れてくるからね。 キーワードの選択の仕方がわからないっていう場合が多い。 日本語って難しいからな〜 >>148 Excite が一時期やってたけど、すぐやめたね。 参考になるかわからんけど、gooラボに質問形式で検索する検索エンジンがある。 ttp://labs.nttrd.com/ >>151 一瞬いいと思ったんだが、”回答を登録できる”ってのが いたずらをされる可能性も高く、使えないね。 ただ、グラフにして表示するのはいいと思う。 検索エンジン内のデータ件数・キーワード数+特定ワードを調べて。 つーか2chこそが最高の検索エンジンだとは思わないかね? >>153 2ch内をまともに検索できれば最強… ってひろゆきが既にやってた。http://find.2ch.net/ >>156 Googleで「site:2ch.net キーワード」で検索した方がいいかもね。 >>156 , 157 どっちにしても良いとは思わないが… いや、俺は2chがそんな事をしていたのか!っとびっくりした。 機能、どうこう言う前に。 >>149 キーワードの選択って考えると、ディレクトリ登録型のほうが便利だよね。 自分から絞り込んで行けるから。 >>161 本文と投稿者を検索するとき金がかかるみたい。 スレタイ検索は無料っぽい、というか普通にできたよ。 思い出したので追記。 >>146 米Yahoo!がGoogleみたいな検索のみのページ始めたよ。 http://search.yahoo.com/ infoseekとかgooって、Googleと違ってポータルサイトってやつだから別モノなんじゃない? WEB全体を検索するのはまず自分のとこにある記事を見てからっていうか、 自分のところで一般的な(?)情報は手に入るようにしてあるような。 つーかYahooみたいに技術者いっぱい抱えてるようなところが 何故今まで自社でロボット検索エンジンを開発しなかったのか。 こんな検索エンジンがありました。 ttp://www.tkensaku.com/ 類似性検索の逆?が実装されています。 まだ荒いけど、これから面白くなるかもしれませんね。 >>167 12億ページのインデックスでこの速度は凄い 精度、鮮度は分からんが アルゴリズムを発表してほしい >> 168 12億ページもインデックスされていないのでは? google で「図書館」が約300万 tkensaku で同じキーワードで約19万 単純にいって15分の1ぐらいでしょ。 google全体でも42億ですし、 tkensaku は日本語だけだからもっと少ないはず。 >>170 ごめん、間違えた。 150万ページはインデックス化されている。 「本」に関連する1508985ページ中の第1位から第10位までを表示しています。 ttp://210.189.72.196/sclient.cgi?value=%96%7B 4年超で法人登記して150万ページか Record last updated on 02-15-2000 05:51:52 GMT Record expires on 02-15-2011 05:51:52 GMT Record created on 02-15-2000 05:51:52 GMT Database last updated 03-16-2004 21:37:12 GMT 人工無能と組み合わせて、おしゃべりしているといろんな url を紹介してくれるようなプログラムを作ってみようと 思っているのですが、どこかに先例のようなものはありませんか? まだ誰も思いついていない? >>160 金取るが、書いた30秒くらいに反映されたり、 2ch内のすべての文章から検索してくれたり、と その気になれば結構使える検索エンジンかも。 お金を払うのはちょっとつらいが。 性能はかなりよさそう。 >>172 まゆらにしゃべらせてーとか思ったものさ。 >>172 MS-Officeでイルカの消し方がFAQになることと、Googleが好ましいとされる理由に「余分なインターフェースがない」が上位に挙げられることを思うと、あまり成功しない気がするよ。 検索エンジンとつながるマスコットが昔あったような気がするな。打ち込んだキーワードを学習して、時々新しいURLを勝手に拾ってきては、飼い主に「みてみて」とせがんでくる奴。 >>177 確かにうざったいと誰も使ってくれないでしょうね。 検索をしたいときに遊びっぽいとうざったいけど、 遊びたいときにたまたまurlを発見してくれるとか。 やっぱりだめかな。 オールアバウトのリンク集を拾ってきて検索させれば精度のいい検索サイトになるかも。 要はそのサイトを誰かが評価してあればいいんだよ。 昔はNTTの新着情報からのアクセスが一番多かったものだけど、 ググルに新着情報ページがあれば結構アクセスあるかもね。 会話をキーボードでタイプするくらいなら、キーワードだけタイプしたほうがいいけど、 音声で会話できるなら、会話型インタフェースも悪くないと思うよ。 ところで、データはどやって集めるの? いずれはユーザに登録させるとしても、最初は 人力で集めるんでしょ? リンクの多そうなサイトを登録して、そこから リンクたどってって、徐々に増やしていくとか? 自分も特定の分野の検索サイトをやりたいんだけど、 エンジン作りに挑戦してみようかな。 どっかに、検索エンジンの基本部分を解説してる サイトってない? ロボット検索エンジンはどうやって 作ればいいのかわかる奴いますか? 「クローラの自動巡回でデータ集める」 ってどうやるんだよ・・・分かんねぇ。 >>185 Yahooあたりからリンクを辿っていくとかどうよ 他スレで質問しましたが、スレ違いだったようなのでこちらで質問させて下さい。 【必要な機能】 ロボット検索技術を応用した、インターネット上の販売情報を検索することができるソフト。商品名やスペック等からリアルタイムな情報を検索することができる。その得た情報をMYSQLなどのDBに落とし込みたい。 【. 目 的 】 リアルタイムに価格比較できるPC比較サイトを作りたい 【. 使用OS 】 windowsXP 【. 条 件 】 10万以内なら払いたい ■試したけど条件を満たさなかったソフト 【. 名 称 】 まったく見つからず ■これだけはやりました 【 >>1-10 、FAQ集、上手な検索の仕方 を読んだ 】 はい 【 調べたサイトの名前 】 GOOGLE YAHOO など大手検索エンジン 【検索キーワードは? ..】 ロボット型検索技術 クロール ソフト 恐らくこのようなソフトはないと思います。。 この技術の最も単純なソフト。もしくは応用が聞くような単純ソフトがあれば・・・・などと不遜にも考えています。 ちなみに下記2サイトで私がやりたいような事を行っております。 http://www.bestgate.net/ http://yasune.dokoda.jp/ このような技術の雛形などご存知の方いましたらどうかご教授下さい。 何かに特化したサーチエンジン、というかデータベースなら需要がある だろうが、でなければ意味ないわ。 価格比較にしても、まずは価格比較サイトにいくだろ。ロボットで価格を 漁るということに何の意味も見いだせない。 クローラーは単純だ。「波乗り野郎」みたいなもんだ。 ttp://www.bug.co.jp/nami-nori/ ディレクトリ型検索エンジンなんてDB使えば結構簡単に作れるんジャン? Googleみたいなロボット巡回型は相当難しそうだけど 100−200ぐらいのサイトのキャッシュをためてそこから検索する グーグルの規模を小さくしたような検索エンジン・・・ないよな ttp://www.dtm.ac/ ここオリジナルのロボットで運営してるよ ロボット型検索エンジン作りたい奴、 頼むから爆撃アクセスするようなロボットは作らないでくれな。 robot.txtやMETAタグには従うように。 どうせIPで弾くだろうけどな。 うわーすごいのびてる。 さっき書き込んだときは60くらいだったのに。 さすが2チャンネルだなぁ。 検索エンジンをつくりには、 1.Inverted File Structureを勉強すること。 2.形態素解析 3.ロボットのこと テキストだけ抜き鳥。 正直このスレでいいのか分からないのですが、 検索ロボットとオンラインブックマークの関係について教えて下さい。 (初心者用質問スレが落ちたみたいなので?こちらに書いています) 具体的には、 オンラインブクマに登録されたサイトは検索ロボに登録されてしまうのか が知りたいのです。 サイト自体は.htaccess、robot.txt、METAタグで 検索ロボを回避する様に設定しているのですが、 ・オンラインブクマもロボットの検索対象になるのか(これはなる様な気がする) もし検索対象になるのであれば、 ・オンラインブクマに登録されたURLはそのまま検索ロボに登録されるのか ・もしくは、ブクマされたURLに飛んでからロボ避けがなければロボに登録されるのか というのがぐぐっても分かりませんでした。 もしスレ違い、板違いでしたら申し訳ありません。 その際は誘導して頂けると嬉しいです。 どうぞよろしくお願い致します。 >>208 設定とロボットしだいでしょ GoogleとかYahooはrobot.txtで拒否できるから ちょっと真面目に検索エンジンについての話なんだが、 登録数100万件なら、どのぐらいのスペック(サーバー)が必要なんだ? 情報求む。 >>210 簡単なサンプルプログラムを用意してみたら? っていうか、どんなシステムよ >>211 「簡単なサンプルプログラム」とは?210じゃないけど。 というか、ロボットは別としてディレクトリ型で 大手の検索エンジン以外で数十万単位の登録ってあるんだろうか? そしてテキストだけならほぼ普通のレン鯖でも処理出来る気が するのだが、あくまでも「気がする」程度なのだろうか・・。 >>212 いきなり、実稼動するわけじゃないんだから。。。 ローカルで動くシステムを作ってみれば どのくらいの負荷がかかるとかわかるでしょ? そこに、信頼性や要求なんかを加味して そこから逆算してくださいな ってことです そう言えば、昔「ディレクトリ型はロボット型の対義語じゃない」って怒られたっけ 思い出しちゃった >>213 かなり遅レスで悪いけど、ローカルだと所詮LAN内だから 実際の処理スピードなんて測れ無くないか? それよりも”100万件”というのが、普通のディレクトリ型の 検索エンジンで可能なのだろうか?ある意味100万件 ジャンル別に集められる検索エンジンがあれば そこそこ利用してもらえる気がする。 >>214 計れないのは、通信速度であって 処理速度はLANであろうと、WANであろうと変わらない 100万件のデータを扱うなら通信速度よりも処理速度の方が重要だろうと まぁ、言い訳がましく言うと もちろん、通信速度も重要だけど >>210 がスペックの話をしていたから処理速度の話だと思った 確かに、100万件もデータがあればそこそこのもんのような気がしますね yahoo.co.jpの登録件数ってどのくらいなんだろう。。。 yahoo.co.jpでもカテゴリの登録数は100万行ってないはず。 30万ぐらいじゃなかったか? Yahoo!の検索ビジネス戦略を探る ttp://internet.watch.impress.co.jp/static/column/yst/2004/12/03/ > 今現在登録されているサイトの総数は40万件以上になっています。 よし、とりあえず真面目に話すか。 100万件がどうのという話をしているが、それは=ディレクトリ型 というわけだろ?その時点でどういう検索エンジンであったとしても 二番煎じな気がする。 けど、ネットを利用してみて「欲しい情報を手に入れたい」と 思う人は多いわけで、だからこそ検索エンジンが使われるわけだ。 YAHOO!は知名度で成り立っているから、検索機能としては凄いわけではない。 Googleは莫大な情報量で成り立っているが、逆に言うと多すぎて 色々とみないと欲しい情報を得ることが出来ない。 この2つの点を回避出来たら、システム的にはそんなに大きくなくても そこそこ利用される検索エンジンが出来ると思う。どうだろう? どんなものを必要とするか分からない以上、 回避するには更に莫大な情報が必要ですよ。 >>220 じゃ、とりあえず「何を必要とするか」を出していけば 自ずとまとまってくるんじゃないか?一人一つでも出せれば。 俺は「見づらいサイトを排除して欲しいor見やすさ重視」 色のカラーバランスや文字組みの構成を認識して それによって順位が変動する検索表示だと良いかなって思ってる。 例えば、マイナーワードで古くからあるサイトとか いくら上位表示されていても背景と文字のバランスがバラバラで 見づらいから、どこに情報があるかわからない。余計に探すのに 時間がかかってしまう。 >221のアプローチだとyahooにもgoogleの既存システムの弱点回避を 導くよりは、gooラボで研究されて、下手すると実運用してないくせに 特許だけとられてがんじがらめにされてるようなアイデアを出しそうだ。 gooラボでのテーマや成果をみていると。 検索エンジンへの欲求は情報の鮮度と、アクセシビリティにつきると思う。 あとはパーソナライズね。鮮度を保証するために、機械で膨大なサンプルを網羅して 後は統計で個人ごとに異なる要求に応えるか、検索とは違うけどallAboutみたいに 権威者にディレクトリを維持させるというアプローチ自体は合理的な手段の 2極を極めていると思う。 強いて回避する方法があるとしたら、「何をソースに」「どういう重み付けをするか」 というロジックで差別化すること。前述の2極を意識するとSNSとかblogとか すでに人が集めてディレクトリが出来ている情報から何を抽出するかだよね。 それは他の企業も取り組んでいる(需要が見越せる)けど完全な形が出ていない所。 一般的に「一次情報はどこか」に比重が置かれることが多いけど、 「次にくる」とか「以前きた」とか、情報が作り出したルートを図式化みたく マクロ的な結論をどう出すか、というのはいくらでも研究の余地はあるらしい。 成功例が少ないけどw >>222 すまん、また書くのが遅れた。 gooラボを出しているが、あれ自体が物凄く重くないか? また、何かソフト入れなきゃ駄目だったろ。確か。 だから色物扱いされて、反響無かったと思うが。 あと、君は俺の1案に対してつっこみを入れているだけで 「自分が欲しい意見」というのを出していない気がするが。 単に既存のシステムを分析して批評しているだけで 開発のアイディアを出していない。 そういうの出さないと。 それと企業的な観点からものを言いすぎる。 この板の特質上、あくまで個人のプログラマーが 検索エンジンを作る上で、どのような検索エンジンだと 反響があるのだろうか?使いやすいだろうか? と言うことを話し合うスレだと思うが。 いわば開発アイディアの検証だ。 そうじゃなくて222のような企業的思考で難しいこと言ってても 誰も「検索エンジン作ろう」と思わないって。 で、お前は批判しかしないんだな。 どうせ自覚も無いんだろ。口だけなんだから素直にバイトでも探してろ。 >>225 まんまお前に当てはまるのなw 223-224は221で意見述べてるだけお前よりはマシw バイト探しの方が100倍建設的だろうが。脳味噌膿んでんのか? >>229 オウム返しの意味もわからないで使うなよw 要はブレストの段階で議論を始めると話が進まないという事かね。 つー訳で、とりあえずドンドンと意見を出して行こうぜ。素人考えだろうが 何だろうが、まずは案を挙げまくって、それから議論という事だ。 非アダルトの情報を欲して検索をかけても、アダルトの類のページが 検索にかかる割合が高い。オプション指定するだけで、キレイに検索から アダルトを排除できる仕組みが欲しい。 逆に、アダルト検索用のオプションも欲しい。アダルトを検索にかけようと 思っても、検索にかかるアダルトサイトは殆どがクリックで目当ての小銭稼ぎ サイトなのが現状だ。 検索の精度や抽出されるページの量を落とさずに、これらを実現できれば 嬉しい。ぬるぽ。 逆に、アダルトを主体的にデータ化していき、 そこにない差分データはとりあえず非アダルトということに >>231-232 とりあえず、俺はこの板に来たらなんか書くようにするから 他のみんなもどんどん意見を出して欲しいと思う。 んで、231の方法はmetaとかページのテキストから アダルト関連のワードを拾うことで、アダルトサイトを ほぼ完全排除出来ないかな? 最近のサイト制作の傾向として、1つの検索エンジンのみを 対象とした作り方はしないし、どうせYAHOO!やGoogle相手 なんだから、アダルトサイトがアダルト関連のキーワードを はずせないし。なら、それらのキーワードを禁止指定すると 割と容易にアダルトサイトは排除出来ると思う。 それで次のアイディアだけど、よくあるかもしれないが それでいて大手検索エンジンで使われていないのだが ランダム検索と、ソート機能ってあれば面白いと思う。 ランダム検索機能はテキストボックスにキーワードを入れて 「ランダム検索」のボタンをクリックすると、ランダムな 検索結果を表示する。これで下位に埋もれるサイトを 見られる可能性が増える。 次にソート機能は主にタイトルからソートをかける機能。 タイトル以外にも登録日・更新日を昇順・降順出来ることで タイムリーな記事やサイトを表示させることが出来る。 上記の2機能はディレクトリ型の検索エンジンでも 割と容易に出来る気がする。けど、あまり見かけない。 >>233 まぁ、言っていることは妥当だと思われ ただ、問題なのはどうやってアダルト関連のキーワードを判断するかだね 人手で作ってちゃ馬鹿だし ベイジアンフィルタなんてのもあるから その応用なんだろうけど >>235 アダルト関連のワードってめちゃくちゃ細かいのも排除するの? 例えば、AV女優の名前とか。 とりあえず、「アダルト」「風俗」「AV」とかそういうおなじみの ワードを省くだけで良いと思う。管理者が入力するタイプでも。 >>236 っていうか、どこまでをアダルトと認識するかによって異なる 例えば、アダルト:アダルトチルドレンなんて様に 特定のキーワードを含む=アダルトサイト ってわけにはいかないからね 子供向けのフィルタを作る or 特定の分野に特化する なら話は違ってくるけどさ ベイジアンフィルタ=めちゃめちゃ細かいものを排除する って言うわけではないってことね >>237 そう言われればそうだよね。AVでもAV機器ってあるしな・・。 とりあえず、+で含まれるワードはどうだろ? 「ホームページ」「制作」でホームページ制作をフィルタするように 「アダルト」+「AV女優」とか加えてフィルタにするとか。 でも、なかなか難しそうだな。なんか騙しリンクとか そういうのを完全排除出来る、フィルタリング対応検索エンジン があれば、割と受けると思うんだけどな。 >>238 まぁ、その辺を考えるんなら 既存のフィルタリング技術とかアプリケーションを 調べてみても面白いかも 有害コンテンツを子供に閲覧させないためのフィルタとかね 色んなサービスなんかあるし スレが進んでるのにびっくりした。 >>223-224 企業的視点であり、自分の意見の欲しい形を言ってないとの事だが、 そうではなく企業ですでに目をつけてるものをやっても仕方ない と思う反面で、企業体が研究している分野を否定して需要がない所を 掘り込むのもどうかと思う(企業的規模で成功するためにじゃなく、 使ってもらってフィードバックしてもらうってレベルでね)から、 注目されてる一例を出しただけであって、深いとか難しいと思わなかった。 企業的視点と読み取るのは、単語に騙されやすいのではないかと。 で、そこから「何をソースに」「どういう重み付けをするか」 について特色を 出したものが欲しいなってのが俺の意見なわけで、述べてないと読み取るのは 最初から述べて欲しい意見を想定していて、プロテクトしちゃってるから 読み取れないんじゃないだろうか。まあ、俺も>1が01年のスレで一気に具体案まで 提案するのはどうかと、大ざっぱな概念から振ったのは不親切だったと思う。 >231-233で、まずはブレストって事で決着しているが、とりあえずなにやら へんな読み取られ方してると思ったので訂正しておきたい。 アダルト情報の排除か、それを極めると逆にアダルトの検索エンジンのコア としても機能しそうだね。ただ、運用したらお役所に睨まれそうだがw アダルト、アドウェアみたいなデータからNOTで弾くために、エロボットは 必要なのかも知れないな。 みんなに謝らなきゃいけないことがある。 このスレのタイトルを見たとき俺は、、、、、、、 検索ニンジンをつくりたい かと思ってしまったんだ。すまない。 read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる