検索エンジンをつくりたい
ヤフーのような検索エンジンを作って、 自力で商用化をしたいんだけれど、 開発費用っていくらぐらいかかる? 信頼のおける技術者も探しています。 http://gamble.x10.jp/ このエンジンは気持ちは分かるが、作りこみが今一かな 更新作業が楽そうで本当は手を焼いてるんじゃないかと思う お前等が作ろうとしてる検索エンジンってのはどうゆうの? カテゴリ型なのかロボット型なのか。 使用言語は何か。データはテキストで扱うのか、それともDBに格納するのか。 最大登録件数をどのくらいで見積もるかで検索速度やスクリプトの内容が大きく変わる。 yomi程度なら誰でも簡単に作れるだろうし、自分で作った方が自由度は高い。 一番の問題は登録するデータをどう増やすのか。 検索サイトを作ったは良いが、登録データが増えず放置されるケースが多い事! >>128 俺はカテゴリ型でPHP+MySQLで目標10万件を予定してます。 >>130 登録データが増えずに放置されるケースの対策はほぼ出来ている。 もちろん、Yahoo!やGoogleと対抗するのはおかしいが 中規模の検索サイト並みの情報を保てるだろう。 問題は上でも出てきたけど、+αの機能。 ようはユーザーに「迷った時にはここに来よう」と思わせるような検索エンジンであるべきだ。 そう思わせたらお気に入り登録→ホーム登録へとなりやすいだろうし 1年後・2年後には反響も出て商売としても成り立つと思う。 ところで問題の+αの機能。俺が良いと思うのは各検索ごとにRSSのような ニュース記事が表示される機能。例えば、「パソコン」で検索したら パソコンに関連したニュースが出るような。すでにどこかが行っている可能性もあるけど。 中規模の検索サイトがどこだと言われて思いつかないが分かる方、 教えて下さい。凄く気になる +αはカテゴリを絞るのが良いんじゃ無いかと思います。 間口を広げると特徴を出すのが難しく、収拾不可能に成るかも知れないです。 JOYが中堅か。確かによく見るサイトだな。 でもどんなところが検索エンジンとして良いんだろう? 正直、フリーの検索エンジンスクリプトを使ったのが大量にあるので、 検索サイトも見慣れた感じがあるのと、アクセス支援のためだけの検索エンジンが増えて、 検索サイトへの興味が薄れて来てる。 ユーザが使おうと思うのがほとんど無くて、アクセス支援の登録のためだけに存在する検索エンジンは不必要。 なんかスレッドフロートBBSを設置すれば人が集まると勘違いしてる人と同じな状況でもあるのかな? JOYは中堅なんですね。古くからあるところは老舗っぽくて存在は知ってても使わないのが寂しいkな。 検索エンジンの大手・中堅とかのセグメント分けをしたリストがあれば面白いけどね。 検索サイトの検索エンジンとかメタサーチとかも今一だし、大手ポータルには敵わないのかな。 そういえば、韓国系のWAKANAって今あるのかな? www.wakanao.co.jp WAKANOだった。WAKANAじゃないのね。 でもここ重たくて機能してないみたい。 思うんだけど、アクセス解析を付けている人なら分かると思うけど gooもinfoseekもフレッシュアイもその他の検索エンジンも Yahoo!やGoogleには到底及ばない。100:1いや、1000:1かもしれない。 なぜgooやInfoseekが出遅れた(もしくは越された)かと言うと 企業的な思惑はあるにせよ、Googleと比べて圧倒的に検索されるページと 検索時間が劣るからだ。逆に言えば、Googleはそれに特化して 現在の地位を保っていると言っても過言ではないと思う。 Yahoo!は「検索エンジン」というよりはすでにインターネット=Yaoo!になってきているから 全く別問題だと思うが。 それで、これらに対抗しようと思ってもいくら人や金があっても無理。所詮”猿真似”だからね。 では、どうすればいいのか?というとオリジナルの「何か」が必要なわけで。 検索エンジンとはとか違うけどblogなんかはかなり参考になると思う。 あともう一つ。検索ページが取りざたされているけれど、問題は やっぱり量より”質”だと思う。 SEOにも当てはまるがユーザーにとっては「知りたいページ」が見られたら それで言い訳で、知りたいページ・類似したページは多くても10ページあればいいわけで。 という事は検索した際により多くの情報が出るよりはより「ユーザーの考えにあったページ」 が検索結果に現れるといいわけだ。 こうなるともう、ブラウザにATOKのような機能を付けて 検索ワードの保護をしてやらないといけないわけで・・・M$任せになるな。。 作ってるヤシ少ないんじゃない? それなりに長期に渡って運用していかないとデータ量すくないし、 逆に、データが増えたらとてつもなく膨大になるし・・・ きょうび、そんなもん作るより、 googleのデータを何とか整理すればと思うが・・・。 ちょっと違うかもしれないけど、Amazonにアカウント登録してると、 最近チェックした商品をもとに、マイページみたいなところでタイプの似た商品なんかを上げてくれるんだけど、 検索エンジンにも、そんな風に以前の検索結果と似たタイプのものを出してくれると、 知りたいページが得られるとか思った。 ついでに、とても中規模に収まらないと思った _| ̄|○ >>142 おれも同じ事考えている。別にアカウント登録して無くても出来る見たいだし。 概念としては検索エンジンにキャッシュ機能みたいなのをつけて 検索ワードで判別して付随ページを抽出すれば。 中規模で収まる気がする >>143 かなり昔からあった機能ですね。 話は違いますが、前に検索したキーワードを出したり、類似性の高いキーワードを出すサイトもありますね。 yomiサーチを使ってるところが多すぎて、面白みが全く無い気がします。 自前の検索サイトを晒す勇気はありませんが、ブックマークで来てる人の少ない事。 137さんが言っている様にGoogle&Yahooがほとんどでgooがちょぼちょぼのアクセスです。 聞いた話ですが、某アダルト検索サイトの運営者がログを見たら、 上位キーワードが自身のコンテンツの名称だったそうです。 ブックマークをするのも面倒なのか、それとも家族でPCを共有してるのか、興味深い話でした。 サイト名称は分かり易くし、独特な名前にするのが良さそうです。 >>144 だろうね。極端な話アダルトなら「AV Search」でもいいと思う。 3,4年前はこういう名称のつけ方は「ありきたりでダサい」と言われてきたけど 逆に今はわかりやすくていいと思うし。 ところで >話は違いますが、前に検索したキーワードを出したり、類似性の高いキーワードを出すサイトもありますね。 って書いているけど、具体的にはどこ?俺は知らないけど・・。 あ、もう一つ思いついたのでこのスレに書き留めとくw Yahoo!&GoogleとgooやinfoseekやMSNなどを含めて決定的に違うこと。 それは「検索エンジンだと理解されやすいデザイン」だと思う。 例えばネットに詳しくない人はフォームがあったからってそれがなんなのか? 検索って何?みたいな人が多いわけで。 それでも使っていくうちに分かるわけだが、MSNなんか特にそうだけど どの部分が検索フォームかわかりにくい。と言うより「検索以外に目が行く」 と言った方がいいかもしれないね。それだけ検索エンジンには力をいれてないのだろう。 しかし、Googleはもちろん、旧Yahoo!なんかも明らかに検索フォームが”目立つ” だから利用しやすいしわかりやすいと思うんだよね。 ちょっとプログラムとは違うけど、デザイン的な作り方もかなり重要だと思った。 類似性ってのは言い方が悪かったかも知れませんが、 合わせて検索される頻度が高いキーワードのチャックボックスやリンクが出る奴ですね。 旧Infoseekはそうでしたし、今はつながりシークだったかな名称が・・・ 米国では結構あった気がしますが、思い出せない。 アフィリエイト全盛で広告に埋没した検索サイトも多くデザインは度外視かも知れないですね。 検索サイトは圧倒的なヒット数が無いと利益を出すのは難しいですね。 こんなのがあったらいいな…。 『共通語リスト』 例えば「プログラム 言語」で検索すると 「C / Java / VB ...」みたいに検索結果の中で良く出てくるキーワードを 抽出する。それをクリックすることで検索結果から「Java」を取り除いたり 「C」でフィルタリングしたり…。 結局はAND検索になるのだけど、良く出てくるキーワードがリストで出てくると 「なぜ、検索結果がぼやけるのか」が分かるような気がする。 検索者は「プログラム言語といえばCだろ!」と思って、「プログラム 言語」で C言語の情報を探そうとしているが、予想以上にJava関連の情報が多かったりする ことが一目で分かるよね。 /* この例ではキーワードが下手すぎるがそれは置いておく */ >>148 そそ。そういうのいいよね。 自サイトにアクセス解析を置いている人なら分かると思うけど たまに「どうしてそのキーワードなの?」って人が訪れてくるからね。 キーワードの選択の仕方がわからないっていう場合が多い。 日本語って難しいからな〜 >>148 Excite が一時期やってたけど、すぐやめたね。 参考になるかわからんけど、gooラボに質問形式で検索する検索エンジンがある。 ttp://labs.nttrd.com/ >>151 一瞬いいと思ったんだが、”回答を登録できる”ってのが いたずらをされる可能性も高く、使えないね。 ただ、グラフにして表示するのはいいと思う。 検索エンジン内のデータ件数・キーワード数+特定ワードを調べて。 つーか2chこそが最高の検索エンジンだとは思わないかね? >>153 2ch内をまともに検索できれば最強… ってひろゆきが既にやってた。http://find.2ch.net/ >>156 Googleで「site:2ch.net キーワード」で検索した方がいいかもね。 >>156 , 157 どっちにしても良いとは思わないが… いや、俺は2chがそんな事をしていたのか!っとびっくりした。 機能、どうこう言う前に。 >>149 キーワードの選択って考えると、ディレクトリ登録型のほうが便利だよね。 自分から絞り込んで行けるから。 >>161 本文と投稿者を検索するとき金がかかるみたい。 スレタイ検索は無料っぽい、というか普通にできたよ。 思い出したので追記。 >>146 米Yahoo!がGoogleみたいな検索のみのページ始めたよ。 http://search.yahoo.com/ infoseekとかgooって、Googleと違ってポータルサイトってやつだから別モノなんじゃない? WEB全体を検索するのはまず自分のとこにある記事を見てからっていうか、 自分のところで一般的な(?)情報は手に入るようにしてあるような。 つーかYahooみたいに技術者いっぱい抱えてるようなところが 何故今まで自社でロボット検索エンジンを開発しなかったのか。 こんな検索エンジンがありました。 ttp://www.tkensaku.com/ 類似性検索の逆?が実装されています。 まだ荒いけど、これから面白くなるかもしれませんね。 >>167 12億ページのインデックスでこの速度は凄い 精度、鮮度は分からんが アルゴリズムを発表してほしい >> 168 12億ページもインデックスされていないのでは? google で「図書館」が約300万 tkensaku で同じキーワードで約19万 単純にいって15分の1ぐらいでしょ。 google全体でも42億ですし、 tkensaku は日本語だけだからもっと少ないはず。 >>170 ごめん、間違えた。 150万ページはインデックス化されている。 「本」に関連する1508985ページ中の第1位から第10位までを表示しています。 ttp://210.189.72.196/sclient.cgi?value=%96%7B 4年超で法人登記して150万ページか Record last updated on 02-15-2000 05:51:52 GMT Record expires on 02-15-2011 05:51:52 GMT Record created on 02-15-2000 05:51:52 GMT Database last updated 03-16-2004 21:37:12 GMT 人工無能と組み合わせて、おしゃべりしているといろんな url を紹介してくれるようなプログラムを作ってみようと 思っているのですが、どこかに先例のようなものはありませんか? まだ誰も思いついていない? >>160 金取るが、書いた30秒くらいに反映されたり、 2ch内のすべての文章から検索してくれたり、と その気になれば結構使える検索エンジンかも。 お金を払うのはちょっとつらいが。 性能はかなりよさそう。 >>172 まゆらにしゃべらせてーとか思ったものさ。 >>172 MS-Officeでイルカの消し方がFAQになることと、Googleが好ましいとされる理由に「余分なインターフェースがない」が上位に挙げられることを思うと、あまり成功しない気がするよ。 検索エンジンとつながるマスコットが昔あったような気がするな。打ち込んだキーワードを学習して、時々新しいURLを勝手に拾ってきては、飼い主に「みてみて」とせがんでくる奴。 >>177 確かにうざったいと誰も使ってくれないでしょうね。 検索をしたいときに遊びっぽいとうざったいけど、 遊びたいときにたまたまurlを発見してくれるとか。 やっぱりだめかな。 オールアバウトのリンク集を拾ってきて検索させれば精度のいい検索サイトになるかも。 要はそのサイトを誰かが評価してあればいいんだよ。 昔はNTTの新着情報からのアクセスが一番多かったものだけど、 ググルに新着情報ページがあれば結構アクセスあるかもね。 会話をキーボードでタイプするくらいなら、キーワードだけタイプしたほうがいいけど、 音声で会話できるなら、会話型インタフェースも悪くないと思うよ。 ところで、データはどやって集めるの? いずれはユーザに登録させるとしても、最初は 人力で集めるんでしょ? リンクの多そうなサイトを登録して、そこから リンクたどってって、徐々に増やしていくとか? 自分も特定の分野の検索サイトをやりたいんだけど、 エンジン作りに挑戦してみようかな。 どっかに、検索エンジンの基本部分を解説してる サイトってない? ロボット検索エンジンはどうやって 作ればいいのかわかる奴いますか? 「クローラの自動巡回でデータ集める」 ってどうやるんだよ・・・分かんねぇ。 >>185 Yahooあたりからリンクを辿っていくとかどうよ 他スレで質問しましたが、スレ違いだったようなのでこちらで質問させて下さい。 【必要な機能】 ロボット検索技術を応用した、インターネット上の販売情報を検索することができるソフト。商品名やスペック等からリアルタイムな情報を検索することができる。その得た情報をMYSQLなどのDBに落とし込みたい。 【. 目 的 】 リアルタイムに価格比較できるPC比較サイトを作りたい 【. 使用OS 】 windowsXP 【. 条 件 】 10万以内なら払いたい ■試したけど条件を満たさなかったソフト 【. 名 称 】 まったく見つからず ■これだけはやりました 【 >>1-10 、FAQ集、上手な検索の仕方 を読んだ 】 はい 【 調べたサイトの名前 】 GOOGLE YAHOO など大手検索エンジン 【検索キーワードは? ..】 ロボット型検索技術 クロール ソフト 恐らくこのようなソフトはないと思います。。 この技術の最も単純なソフト。もしくは応用が聞くような単純ソフトがあれば・・・・などと不遜にも考えています。 ちなみに下記2サイトで私がやりたいような事を行っております。 http://www.bestgate.net/ http://yasune.dokoda.jp/ このような技術の雛形などご存知の方いましたらどうかご教授下さい。 何かに特化したサーチエンジン、というかデータベースなら需要がある だろうが、でなければ意味ないわ。 価格比較にしても、まずは価格比較サイトにいくだろ。ロボットで価格を 漁るということに何の意味も見いだせない。 クローラーは単純だ。「波乗り野郎」みたいなもんだ。 ttp://www.bug.co.jp/nami-nori/ ディレクトリ型検索エンジンなんてDB使えば結構簡単に作れるんジャン? Googleみたいなロボット巡回型は相当難しそうだけど 100−200ぐらいのサイトのキャッシュをためてそこから検索する グーグルの規模を小さくしたような検索エンジン・・・ないよな ttp://www.dtm.ac/ ここオリジナルのロボットで運営してるよ ロボット型検索エンジン作りたい奴、 頼むから爆撃アクセスするようなロボットは作らないでくれな。 robot.txtやMETAタグには従うように。 どうせIPで弾くだろうけどな。 うわーすごいのびてる。 さっき書き込んだときは60くらいだったのに。 さすが2チャンネルだなぁ。 検索エンジンをつくりには、 1.Inverted File Structureを勉強すること。 2.形態素解析 3.ロボットのこと テキストだけ抜き鳥。 正直このスレでいいのか分からないのですが、 検索ロボットとオンラインブックマークの関係について教えて下さい。 (初心者用質問スレが落ちたみたいなので?こちらに書いています) 具体的には、 オンラインブクマに登録されたサイトは検索ロボに登録されてしまうのか が知りたいのです。 サイト自体は.htaccess、robot.txt、METAタグで 検索ロボを回避する様に設定しているのですが、 ・オンラインブクマもロボットの検索対象になるのか(これはなる様な気がする) もし検索対象になるのであれば、 ・オンラインブクマに登録されたURLはそのまま検索ロボに登録されるのか ・もしくは、ブクマされたURLに飛んでからロボ避けがなければロボに登録されるのか というのがぐぐっても分かりませんでした。 もしスレ違い、板違いでしたら申し訳ありません。 その際は誘導して頂けると嬉しいです。 どうぞよろしくお願い致します。 >>208 設定とロボットしだいでしょ GoogleとかYahooはrobot.txtで拒否できるから ちょっと真面目に検索エンジンについての話なんだが、 登録数100万件なら、どのぐらいのスペック(サーバー)が必要なんだ? 情報求む。 >>210 簡単なサンプルプログラムを用意してみたら? っていうか、どんなシステムよ >>211 「簡単なサンプルプログラム」とは?210じゃないけど。 というか、ロボットは別としてディレクトリ型で 大手の検索エンジン以外で数十万単位の登録ってあるんだろうか? そしてテキストだけならほぼ普通のレン鯖でも処理出来る気が するのだが、あくまでも「気がする」程度なのだろうか・・。 >>212 いきなり、実稼動するわけじゃないんだから。。。 ローカルで動くシステムを作ってみれば どのくらいの負荷がかかるとかわかるでしょ? そこに、信頼性や要求なんかを加味して そこから逆算してくださいな ってことです そう言えば、昔「ディレクトリ型はロボット型の対義語じゃない」って怒られたっけ 思い出しちゃった >>213 かなり遅レスで悪いけど、ローカルだと所詮LAN内だから 実際の処理スピードなんて測れ無くないか? それよりも”100万件”というのが、普通のディレクトリ型の 検索エンジンで可能なのだろうか?ある意味100万件 ジャンル別に集められる検索エンジンがあれば そこそこ利用してもらえる気がする。 >>214 計れないのは、通信速度であって 処理速度はLANであろうと、WANであろうと変わらない 100万件のデータを扱うなら通信速度よりも処理速度の方が重要だろうと まぁ、言い訳がましく言うと もちろん、通信速度も重要だけど >>210 がスペックの話をしていたから処理速度の話だと思った 確かに、100万件もデータがあればそこそこのもんのような気がしますね yahoo.co.jpの登録件数ってどのくらいなんだろう。。。 yahoo.co.jpでもカテゴリの登録数は100万行ってないはず。 30万ぐらいじゃなかったか? Yahoo!の検索ビジネス戦略を探る ttp://internet.watch.impress.co.jp/static/column/yst/2004/12/03/ > 今現在登録されているサイトの総数は40万件以上になっています。 よし、とりあえず真面目に話すか。 100万件がどうのという話をしているが、それは=ディレクトリ型 というわけだろ?その時点でどういう検索エンジンであったとしても 二番煎じな気がする。 けど、ネットを利用してみて「欲しい情報を手に入れたい」と 思う人は多いわけで、だからこそ検索エンジンが使われるわけだ。 YAHOO!は知名度で成り立っているから、検索機能としては凄いわけではない。 Googleは莫大な情報量で成り立っているが、逆に言うと多すぎて 色々とみないと欲しい情報を得ることが出来ない。 この2つの点を回避出来たら、システム的にはそんなに大きくなくても そこそこ利用される検索エンジンが出来ると思う。どうだろう? どんなものを必要とするか分からない以上、 回避するには更に莫大な情報が必要ですよ。 >>220 じゃ、とりあえず「何を必要とするか」を出していけば 自ずとまとまってくるんじゃないか?一人一つでも出せれば。 俺は「見づらいサイトを排除して欲しいor見やすさ重視」 色のカラーバランスや文字組みの構成を認識して それによって順位が変動する検索表示だと良いかなって思ってる。 例えば、マイナーワードで古くからあるサイトとか いくら上位表示されていても背景と文字のバランスがバラバラで 見づらいから、どこに情報があるかわからない。余計に探すのに 時間がかかってしまう。 >221のアプローチだとyahooにもgoogleの既存システムの弱点回避を 導くよりは、gooラボで研究されて、下手すると実運用してないくせに 特許だけとられてがんじがらめにされてるようなアイデアを出しそうだ。 gooラボでのテーマや成果をみていると。 検索エンジンへの欲求は情報の鮮度と、アクセシビリティにつきると思う。 あとはパーソナライズね。鮮度を保証するために、機械で膨大なサンプルを網羅して 後は統計で個人ごとに異なる要求に応えるか、検索とは違うけどallAboutみたいに 権威者にディレクトリを維持させるというアプローチ自体は合理的な手段の 2極を極めていると思う。 強いて回避する方法があるとしたら、「何をソースに」「どういう重み付けをするか」 というロジックで差別化すること。前述の2極を意識するとSNSとかblogとか すでに人が集めてディレクトリが出来ている情報から何を抽出するかだよね。 それは他の企業も取り組んでいる(需要が見越せる)けど完全な形が出ていない所。 一般的に「一次情報はどこか」に比重が置かれることが多いけど、 「次にくる」とか「以前きた」とか、情報が作り出したルートを図式化みたく マクロ的な結論をどう出すか、というのはいくらでも研究の余地はあるらしい。 成功例が少ないけどw >>222 すまん、また書くのが遅れた。 gooラボを出しているが、あれ自体が物凄く重くないか? また、何かソフト入れなきゃ駄目だったろ。確か。 だから色物扱いされて、反響無かったと思うが。 あと、君は俺の1案に対してつっこみを入れているだけで 「自分が欲しい意見」というのを出していない気がするが。 単に既存のシステムを分析して批評しているだけで 開発のアイディアを出していない。 そういうの出さないと。 それと企業的な観点からものを言いすぎる。 この板の特質上、あくまで個人のプログラマーが 検索エンジンを作る上で、どのような検索エンジンだと 反響があるのだろうか?使いやすいだろうか? と言うことを話し合うスレだと思うが。 いわば開発アイディアの検証だ。 そうじゃなくて222のような企業的思考で難しいこと言ってても 誰も「検索エンジン作ろう」と思わないって。 で、お前は批判しかしないんだな。 どうせ自覚も無いんだろ。口だけなんだから素直にバイトでも探してろ。 >>225 まんまお前に当てはまるのなw 223-224は221で意見述べてるだけお前よりはマシw read.cgi ver 07.5.0 2024/04/24 Walang Kapalit ★ | Donguri System Team 5ちゃんねる