検索エンジンをつくりたい
ヤフーのような検索エンジンを作って、
自力で商用化をしたいんだけれど、
開発費用っていくらぐらいかかる?
信頼のおける技術者も探しています。 >>177
確かにうざったいと誰も使ってくれないでしょうね。
検索をしたいときに遊びっぽいとうざったいけど、
遊びたいときにたまたまurlを発見してくれるとか。
やっぱりだめかな。
オールアバウトのリンク集を拾ってきて検索させれば精度のいい検索サイトになるかも。
要はそのサイトを誰かが評価してあればいいんだよ。
昔はNTTの新着情報からのアクセスが一番多かったものだけど、
ググルに新着情報ページがあれば結構アクセスあるかもね。 会話をキーボードでタイプするくらいなら、キーワードだけタイプしたほうがいいけど、
音声で会話できるなら、会話型インタフェースも悪くないと思うよ。
ところで、データはどやって集めるの?
いずれはユーザに登録させるとしても、最初は
人力で集めるんでしょ?
リンクの多そうなサイトを登録して、そこから
リンクたどってって、徐々に増やしていくとか?
自分も特定の分野の検索サイトをやりたいんだけど、
エンジン作りに挑戦してみようかな。
どっかに、検索エンジンの基本部分を解説してる
サイトってない? ロボット検索エンジンはどうやって
作ればいいのかわかる奴いますか?
「クローラの自動巡回でデータ集める」
ってどうやるんだよ・・・分かんねぇ。 >>185
Yahooあたりからリンクを辿っていくとかどうよ 他スレで質問しましたが、スレ違いだったようなのでこちらで質問させて下さい。
【必要な機能】 ロボット検索技術を応用した、インターネット上の販売情報を検索することができるソフト。商品名やスペック等からリアルタイムな情報を検索することができる。その得た情報をMYSQLなどのDBに落とし込みたい。
【. 目 的 】 リアルタイムに価格比較できるPC比較サイトを作りたい
【. 使用OS 】 windowsXP
【. 条 件 】 10万以内なら払いたい
■試したけど条件を満たさなかったソフト
【. 名 称 】 まったく見つからず
■これだけはやりました
【 >>1-10、FAQ集、上手な検索の仕方 を読んだ 】 はい
【 調べたサイトの名前 】 GOOGLE YAHOO など大手検索エンジン
【検索キーワードは? ..】 ロボット型検索技術 クロール ソフト
恐らくこのようなソフトはないと思います。。
この技術の最も単純なソフト。もしくは応用が聞くような単純ソフトがあれば・・・・などと不遜にも考えています。
ちなみに下記2サイトで私がやりたいような事を行っております。
http://www.bestgate.net/
http://yasune.dokoda.jp/
このような技術の雛形などご存知の方いましたらどうかご教授下さい。 何かに特化したサーチエンジン、というかデータベースなら需要がある
だろうが、でなければ意味ないわ。
価格比較にしても、まずは価格比較サイトにいくだろ。ロボットで価格を
漁るということに何の意味も見いだせない。
クローラーは単純だ。「波乗り野郎」みたいなもんだ。
ttp://www.bug.co.jp/nami-nori/
ディレクトリ型検索エンジンなんてDB使えば結構簡単に作れるんジャン?
Googleみたいなロボット巡回型は相当難しそうだけど
100−200ぐらいのサイトのキャッシュをためてそこから検索する
グーグルの規模を小さくしたような検索エンジン・・・ないよな ttp://www.dtm.ac/
ここオリジナルのロボットで運営してるよ ロボット型検索エンジン作りたい奴、
頼むから爆撃アクセスするようなロボットは作らないでくれな。
robot.txtやMETAタグには従うように。
どうせIPで弾くだろうけどな。 うわーすごいのびてる。
さっき書き込んだときは60くらいだったのに。
さすが2チャンネルだなぁ。 検索エンジンをつくりには、
1.Inverted File Structureを勉強すること。
2.形態素解析
3.ロボットのこと テキストだけ抜き鳥。
正直このスレでいいのか分からないのですが、
検索ロボットとオンラインブックマークの関係について教えて下さい。
(初心者用質問スレが落ちたみたいなので?こちらに書いています)
具体的には、
オンラインブクマに登録されたサイトは検索ロボに登録されてしまうのか
が知りたいのです。
サイト自体は.htaccess、robot.txt、METAタグで
検索ロボを回避する様に設定しているのですが、
・オンラインブクマもロボットの検索対象になるのか(これはなる様な気がする)
もし検索対象になるのであれば、
・オンラインブクマに登録されたURLはそのまま検索ロボに登録されるのか
・もしくは、ブクマされたURLに飛んでからロボ避けがなければロボに登録されるのか
というのがぐぐっても分かりませんでした。
もしスレ違い、板違いでしたら申し訳ありません。
その際は誘導して頂けると嬉しいです。
どうぞよろしくお願い致します。
>>208
設定とロボットしだいでしょ
GoogleとかYahooはrobot.txtで拒否できるから ちょっと真面目に検索エンジンについての話なんだが、
登録数100万件なら、どのぐらいのスペック(サーバー)が必要なんだ?
情報求む。 >>210
簡単なサンプルプログラムを用意してみたら?
っていうか、どんなシステムよ >>211
「簡単なサンプルプログラム」とは?210じゃないけど。
というか、ロボットは別としてディレクトリ型で
大手の検索エンジン以外で数十万単位の登録ってあるんだろうか?
そしてテキストだけならほぼ普通のレン鯖でも処理出来る気が
するのだが、あくまでも「気がする」程度なのだろうか・・。 >>212
いきなり、実稼動するわけじゃないんだから。。。
ローカルで動くシステムを作ってみれば
どのくらいの負荷がかかるとかわかるでしょ?
そこに、信頼性や要求なんかを加味して
そこから逆算してくださいな
ってことです
そう言えば、昔「ディレクトリ型はロボット型の対義語じゃない」って怒られたっけ
思い出しちゃった >>213
かなり遅レスで悪いけど、ローカルだと所詮LAN内だから
実際の処理スピードなんて測れ無くないか?
それよりも”100万件”というのが、普通のディレクトリ型の
検索エンジンで可能なのだろうか?ある意味100万件
ジャンル別に集められる検索エンジンがあれば
そこそこ利用してもらえる気がする。 >>214
計れないのは、通信速度であって
処理速度はLANであろうと、WANであろうと変わらない
100万件のデータを扱うなら通信速度よりも処理速度の方が重要だろうと
まぁ、言い訳がましく言うと
もちろん、通信速度も重要だけど
>>210がスペックの話をしていたから処理速度の話だと思った
確かに、100万件もデータがあればそこそこのもんのような気がしますね
yahoo.co.jpの登録件数ってどのくらいなんだろう。。。 yahoo.co.jpでもカテゴリの登録数は100万行ってないはず。
30万ぐらいじゃなかったか? Yahoo!の検索ビジネス戦略を探る
ttp://internet.watch.impress.co.jp/static/column/yst/2004/12/03/
> 今現在登録されているサイトの総数は40万件以上になっています。 よし、とりあえず真面目に話すか。
100万件がどうのという話をしているが、それは=ディレクトリ型
というわけだろ?その時点でどういう検索エンジンであったとしても
二番煎じな気がする。
けど、ネットを利用してみて「欲しい情報を手に入れたい」と
思う人は多いわけで、だからこそ検索エンジンが使われるわけだ。
YAHOO!は知名度で成り立っているから、検索機能としては凄いわけではない。
Googleは莫大な情報量で成り立っているが、逆に言うと多すぎて
色々とみないと欲しい情報を得ることが出来ない。
この2つの点を回避出来たら、システム的にはそんなに大きくなくても
そこそこ利用される検索エンジンが出来ると思う。どうだろう? どんなものを必要とするか分からない以上、
回避するには更に莫大な情報が必要ですよ。 >>220
じゃ、とりあえず「何を必要とするか」を出していけば
自ずとまとまってくるんじゃないか?一人一つでも出せれば。
俺は「見づらいサイトを排除して欲しいor見やすさ重視」
色のカラーバランスや文字組みの構成を認識して
それによって順位が変動する検索表示だと良いかなって思ってる。
例えば、マイナーワードで古くからあるサイトとか
いくら上位表示されていても背景と文字のバランスがバラバラで
見づらいから、どこに情報があるかわからない。余計に探すのに
時間がかかってしまう。
>221のアプローチだとyahooにもgoogleの既存システムの弱点回避を
導くよりは、gooラボで研究されて、下手すると実運用してないくせに
特許だけとられてがんじがらめにされてるようなアイデアを出しそうだ。
gooラボでのテーマや成果をみていると。
検索エンジンへの欲求は情報の鮮度と、アクセシビリティにつきると思う。
あとはパーソナライズね。鮮度を保証するために、機械で膨大なサンプルを網羅して
後は統計で個人ごとに異なる要求に応えるか、検索とは違うけどallAboutみたいに
権威者にディレクトリを維持させるというアプローチ自体は合理的な手段の
2極を極めていると思う。
強いて回避する方法があるとしたら、「何をソースに」「どういう重み付けをするか」
というロジックで差別化すること。前述の2極を意識するとSNSとかblogとか
すでに人が集めてディレクトリが出来ている情報から何を抽出するかだよね。
それは他の企業も取り組んでいる(需要が見越せる)けど完全な形が出ていない所。
一般的に「一次情報はどこか」に比重が置かれることが多いけど、
「次にくる」とか「以前きた」とか、情報が作り出したルートを図式化みたく
マクロ的な結論をどう出すか、というのはいくらでも研究の余地はあるらしい。
成功例が少ないけどw >>222
すまん、また書くのが遅れた。
gooラボを出しているが、あれ自体が物凄く重くないか?
また、何かソフト入れなきゃ駄目だったろ。確か。
だから色物扱いされて、反響無かったと思うが。
あと、君は俺の1案に対してつっこみを入れているだけで
「自分が欲しい意見」というのを出していない気がするが。
単に既存のシステムを分析して批評しているだけで
開発のアイディアを出していない。
そういうの出さないと。 それと企業的な観点からものを言いすぎる。
この板の特質上、あくまで個人のプログラマーが
検索エンジンを作る上で、どのような検索エンジンだと
反響があるのだろうか?使いやすいだろうか?
と言うことを話し合うスレだと思うが。
いわば開発アイディアの検証だ。
そうじゃなくて222のような企業的思考で難しいこと言ってても
誰も「検索エンジン作ろう」と思わないって。 で、お前は批判しかしないんだな。
どうせ自覚も無いんだろ。口だけなんだから素直にバイトでも探してろ。 >>225まんまお前に当てはまるのなw
223-224は221で意見述べてるだけお前よりはマシw バイト探しの方が100倍建設的だろうが。脳味噌膿んでんのか? >>229
オウム返しの意味もわからないで使うなよw 要はブレストの段階で議論を始めると話が進まないという事かね。
つー訳で、とりあえずドンドンと意見を出して行こうぜ。素人考えだろうが
何だろうが、まずは案を挙げまくって、それから議論という事だ。
非アダルトの情報を欲して検索をかけても、アダルトの類のページが
検索にかかる割合が高い。オプション指定するだけで、キレイに検索から
アダルトを排除できる仕組みが欲しい。
逆に、アダルト検索用のオプションも欲しい。アダルトを検索にかけようと
思っても、検索にかかるアダルトサイトは殆どがクリックで目当ての小銭稼ぎ
サイトなのが現状だ。
検索の精度や抽出されるページの量を落とさずに、これらを実現できれば
嬉しい。ぬるぽ。 逆に、アダルトを主体的にデータ化していき、
そこにない差分データはとりあえず非アダルトということに >>231-232
とりあえず、俺はこの板に来たらなんか書くようにするから
他のみんなもどんどん意見を出して欲しいと思う。
んで、231の方法はmetaとかページのテキストから
アダルト関連のワードを拾うことで、アダルトサイトを
ほぼ完全排除出来ないかな?
最近のサイト制作の傾向として、1つの検索エンジンのみを
対象とした作り方はしないし、どうせYAHOO!やGoogle相手
なんだから、アダルトサイトがアダルト関連のキーワードを
はずせないし。なら、それらのキーワードを禁止指定すると
割と容易にアダルトサイトは排除出来ると思う。 それで次のアイディアだけど、よくあるかもしれないが
それでいて大手検索エンジンで使われていないのだが
ランダム検索と、ソート機能ってあれば面白いと思う。
ランダム検索機能はテキストボックスにキーワードを入れて
「ランダム検索」のボタンをクリックすると、ランダムな
検索結果を表示する。これで下位に埋もれるサイトを
見られる可能性が増える。
次にソート機能は主にタイトルからソートをかける機能。
タイトル以外にも登録日・更新日を昇順・降順出来ることで
タイムリーな記事やサイトを表示させることが出来る。
上記の2機能はディレクトリ型の検索エンジンでも
割と容易に出来る気がする。けど、あまり見かけない。 >>233
まぁ、言っていることは妥当だと思われ
ただ、問題なのはどうやってアダルト関連のキーワードを判断するかだね
人手で作ってちゃ馬鹿だし
ベイジアンフィルタなんてのもあるから
その応用なんだろうけど >>235
アダルト関連のワードってめちゃくちゃ細かいのも排除するの?
例えば、AV女優の名前とか。
とりあえず、「アダルト」「風俗」「AV」とかそういうおなじみの
ワードを省くだけで良いと思う。管理者が入力するタイプでも。 >>236
っていうか、どこまでをアダルトと認識するかによって異なる
例えば、アダルト:アダルトチルドレンなんて様に
特定のキーワードを含む=アダルトサイト
ってわけにはいかないからね
子供向けのフィルタを作る or 特定の分野に特化する
なら話は違ってくるけどさ
ベイジアンフィルタ=めちゃめちゃ細かいものを排除する
って言うわけではないってことね >>237
そう言われればそうだよね。AVでもAV機器ってあるしな・・。
とりあえず、+で含まれるワードはどうだろ?
「ホームページ」「制作」でホームページ制作をフィルタするように
「アダルト」+「AV女優」とか加えてフィルタにするとか。
でも、なかなか難しそうだな。なんか騙しリンクとか
そういうのを完全排除出来る、フィルタリング対応検索エンジン
があれば、割と受けると思うんだけどな。 >>238
まぁ、その辺を考えるんなら
既存のフィルタリング技術とかアプリケーションを
調べてみても面白いかも
有害コンテンツを子供に閲覧させないためのフィルタとかね
色んなサービスなんかあるし スレが進んでるのにびっくりした。
>>223-224
企業的視点であり、自分の意見の欲しい形を言ってないとの事だが、
そうではなく企業ですでに目をつけてるものをやっても仕方ない
と思う反面で、企業体が研究している分野を否定して需要がない所を
掘り込むのもどうかと思う(企業的規模で成功するためにじゃなく、
使ってもらってフィードバックしてもらうってレベルでね)から、
注目されてる一例を出しただけであって、深いとか難しいと思わなかった。
企業的視点と読み取るのは、単語に騙されやすいのではないかと。
で、そこから「何をソースに」「どういう重み付けをするか」 について特色を
出したものが欲しいなってのが俺の意見なわけで、述べてないと読み取るのは
最初から述べて欲しい意見を想定していて、プロテクトしちゃってるから
読み取れないんじゃないだろうか。まあ、俺も>1が01年のスレで一気に具体案まで
提案するのはどうかと、大ざっぱな概念から振ったのは不親切だったと思う。
>231-233で、まずはブレストって事で決着しているが、とりあえずなにやら
へんな読み取られ方してると思ったので訂正しておきたい。
アダルト情報の排除か、それを極めると逆にアダルトの検索エンジンのコア
としても機能しそうだね。ただ、運用したらお役所に睨まれそうだがw
アダルト、アドウェアみたいなデータからNOTで弾くために、エロボットは
必要なのかも知れないな。
みんなに謝らなきゃいけないことがある。
このスレのタイトルを見たとき俺は、、、、、、、
検索ニンジンをつくりたい
かと思ってしまったんだ。すまない。 検索エンジンにオークション的機能があっても面白いかも。 俺データベースが苦手で
エクセルのCSVを多様して検索システムをつくった
いまんとこ1000件データをいれてためしたが
結構早く検索する・・どれぐらいたえれるのだろうか・・・・
データベース俺のまえにたちはだかってやがる・・・
ショップサイトも検索サイトもすべてCSVで処理してる俺は首すんぜんだろうか・・・ >>247
・評価機能
・指定日時が過ぎると表示されない
・ポイントに応じて表示順位が変わる(ランキング?)
>>248
DBを使ったら恐ろしく多大なデータを処理出来るよ。
PHPとMySQLが軽くて最高だと思う。
ただし、レスポンスの問題で言えば、やはりサーバと回線の
問題によるから、それらの充実が一番だとは思う。 緊急浮上!
○_○
( ・(ェ)・) < 天然記念スレをまもれ!
/つ¶つ ¶
/ ̄ ̄ ̄ ̄ ̄ ̄ヽ //
人人 / ● ●、 ザバァ!!
/ 〇 ▼ l 人人人
/ = , 、_ _人_ノヾ
人人 ノ 人人
人人人 人人
Googleの検索コマンドを使いこなせば、
このスレに出てるほとんどのアイディアが実現できる気がする。
検索エンジンのPHPスクリプトを配布しているところを探しています。
どなたかご存じでしょうか??
宜しくお願い致します。
おま・・いくらなんでも2001年の>>1にレスするのは・・・。 おまえらquery文字のパースってDBと連携してどうやってる?
googleライクに
"unko unko" -hogehoge (aaaa or "cc cc")
みたいなの 実験でbisonで作ったパーサをモジュールの形でPHPに組み込んだことあるよ。
...めんどくさいけどね。でもPHPでパーサを書く場合でも.yの書き方は参考になる。
RubyならRacc
ロボット検索自体を避けるように仕込んでなければ片っ端からサイトを拾ってくれるような
お行儀の悪い検索エンジンを使いたいです。 ファイルを読み込んだ時にJavwScriptのコードを除外するいい方法はないですか?
フィルターとかあれば良いんですけど・・
s/\<script.*\/script\>//gi;
携帯検索エンジン
携帯サイトおもちの方必見!
携帯で登録できるよ
http://search-k.net/jcom/ eltg33.no-ip.info
anonymouse:0123456789
Search script配布 検索結果にサムネを出すってアイデアも前スレにありましたが・・・
どうでしょう? 東京大学うぜーよ!!!!
てめーの研究室がクロールされろ!!!
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/ 池■田大■作の本名はソン・テチャク。小泉純一郎、小沢一朗は朝鮮人。
911では小型の水爆が使用されている。
http://ri■ch■ardkosh■im■izu.at.webry.info/
創価の保険金殺人事件。
オウム事件は、統一・創価.北朝鮮の共同犯行である。CIAが監修している。
http://www15.ocn.ne.jp/~oy■ako■don/kok_web■site/ir■iguc■hi.htm
与党も野党もメディアも全部朝鮮人だった。
http://jb■bs.li■vedo■or.jp/b■bs/read.cgi/news/20■92/115794■1306/
2ちゃんねるは統一■教会が個人情報を集めるための道具。運営には統一■教会がいる。
駅前で「手相を見せてください」と勧誘してるのが統一教■会。(カルト宗教)
カルト宗教の下にいる人と上にいる奴を分けて考えないといけない。下にいる利用される人は上がどんなことをしてるか知らない。
ユダヤ権力の子分→2ちゃん運営=統一協会上層部=層化上層部=自民党清和会=野党の朝鮮人ハーフの政治家=
与党の朝鮮人ハーフの政治家=金 正日(キム・ジョンイル )=読売サンケイ=小沢十朗
ユダヤ人=ロックフェラー=ブッシュ=クリントン=ヒラリー=アドルフ・ヒトラー=オサマ・ビンラディン
毎日新聞スレを荒らしてる奴らも統■一教会の可能性が高い。
荒らしは洗脳するために「ネトウヨ」などのレッテル付けレスを何千回もする。
現実には「ネトウヨ」などは存在しない。
http://changi.2ch.net/test/read.cgi/ms/1230363385/ | | ガガガッ
| |
人
∧_∧ < >_∧∩
( ・∀・) 人`Д´)/ ←>>53
と ) < >_∧∩
Y /ノ .人`Д´)/ ←>>59
/ ) < >_∧∩
_/し' //. V`Д´)/ ←>>231
(_フ彡 / 誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。
グーグル検索⇒『半藤のブブイウイウレレ』
V50O6JDAJX