人工無脳
■ このスレッドは過去ログ倉庫に格納されています
>>403
話そうと思ったがIRCの方法分からない >>404
IRCなどオタクと廃人の集まりだ
やめとけ Googleのもしかして機能ってどういう仕組みなのだろうか?
形態素解析? スペースや検索非対象の有り触れた単語で区切られた単語ごとに
現実味のある検索結果を導き出す差分を持っている候補を挙げる機能はあるだろうが
それ以外に区切りのやりかたはないだろうな。 >>406形態素解析使うのは結構いいかもしれない
ただ、単語ごとだと大雑把過ぎる気もする。
だから、2文字ずつというのはどうだろう。
例:人工無能 うずら → 人工無能 うずる
解析結果:
人工
無能
うず
る
上三段からうずとうずらを連想させれば、できる可能性はある。
ただ、Googleの場合膨大な検索データがあるので、確実にそのデータを参照している。 そもそももしかしてじゃなくて普通の検索でも多少長いワードは解析されてそれぞれ検索ワードとして使われてるよね
そしてもしかしては連続したクエリから選んでるんじゃ無いだろうか
例えばシュミレーションと検索すると当然ヒット数は少ないので(ま、誤記にしてはかなり多いが)シミュレーションと入れ直すだろう
こういったユーザ動きを解析してもしかしてってやってるんだと思う
あとは単純なタイポなんかは結果のページに多く使われてる似たワードを表示するとかしてると思う え?レーベンシュタイン距離とか測ってるだけでしょ? 人間らしさっていうかシステマティックな統計の観点から考えると有限の手続きしかできない計算機飽くまでも結果に向けて近似する事しかできないんじゃない? 意味があるようでない言葉を繰り返すことしかできないのが正に人工無能です 害獣探索で間違えて「戻る」ボタン押してしまったらクールタイム消えてしまった・・。
ゲーム開始してからフラグ立てればいいのに。 /⌒~~~⌒\
/ ( ゚>t≡ )y─┛~~
(_ ノγ U ∩_∩) THANK YOU 2ch ┌───────┐
α___J _J and (|● ● |
/ ̄ ̄ ̄ ̄\ GOOD-BYE 2ch WORLD! /.| ┌▽▽▽▽┐ |
/ ● ● ( ┤ | | |
|Y Y \ またどこかで会おうね \. └△△△△┘ \
| | | ▼ | | \あ\ |\ \
| \/ _人| ∧∧∩゛ ∧_∧ | \り\ | (_)
| _/)/)/( ゚Д゚)/ (´∀` ) __ n \が\. |
\ / 〔/\〕 U / ∩∩ ( )o/ \ ヽ \と\ |
| | | c(*・_・) | |ヽ(´ー`)ノ_| | | (__丿 |. /\ \う | (-_-)
(__)_) UUUU /∪∪ (___)(_(__) ⊆_ ヽ_┘ └──┘(∩∩)
無名なものでもなんでもいいから人工無能の一覧を作ろう
このスレにあるだけでも結構ありそう(今存在しているかどうかは別)
うずら
ロイディ
なまこ
とぼっち
マスオ
カツオ
なまねこ
酢鶏
エクサ
よみうさ
うし
うなぎ
羽生くん
ちんぷん館
ゆいぼっと
ししゃも
伺か
ARISA
葵
他追加頼む! ししゃもをIRCで導入するのにわかりやすいページとか誰か知らない?
俺のぐぐる力だと見つけられなかったorz 失業中なので無能を作り始めた
文法解析型 を 作ろうと思うが
モレの使う日本語変なので日本語の文法がわからん orz
とりあえず 文節に分けるとこからはじめた 茶筅 は 昔使ってみたけど いまいちだったので 自分で作ってみている
形態素解析しながら辞書登録していくように作ろうかと思っている
原文
内閣支持続落、19%=普天間で49%「首相退陣を」
内閣支持続落 漢字
、 句読点
19%=普天間 値
で ひらがな
49%「首相退陣 値
を ひらがな
」- 記号
いま 数字 + 単位 と 名詞 を分けてる
三宅雪子が数値扱いになってしまうがな 自分のボキャブラリーの低さにびっくりするな
例文が浮かばない
〜に の "〜"は名詞になるのか? 内閣支持続落 漢字
、 句読点
19% 値 単位
= 記号
普天間 名詞
で ひらがな
49% 値 単位
「 記号 S
首相退陣 名詞
を ひらがな
」 記号 E
一日でここまで やってることは、文字操作なのでどんな言語でも難しくはないんだが
体系的に分類するのが難しい
すもももももももものうち
をどう切るかだ
原文
甘利氏が民主党の三宅雪子議員らを突き飛ばし、けがをさせたとしている。
甘利氏 名詞
が 助詞
民主党 名詞
の 助詞 名
三宅雪子議員 名詞
らを ひらがな
突 漢字
き ひらがな
飛 漢字
ばし ひらがな
、 句読点
けがをさせたとしている ひらがな
。 句読点
漢字カナひら英数字とか区切りが明確なのはまあ楽だわな。
ひらがなの集まりをどう切るかってのが面倒だから無脳作るなら
そのへんは既存のに任せて本体作る方に手間さくほうがいいかもしれない。
形態素解析も全部やらないと気がすまないならそれでもよかろうが。 昔、茶筅使ってみたけど 辞書参照型なので遅すぎ(マシンパワーもあるけど 骨折入院中だったのでセレロンの1Gクラス)しかもファイル介しているので 遅い
正確な必要はないんだ たて読みぐらいの精度で十分だと思う 名詞・形容詞・動詞が判断できる程度で あとは定文として扱う
環境だけさらしてみると 開発環境 エクセルVBA
解析文字数 256文字(65535文字にすればよかったと思う)今解析プロセスを表示させながら解析してるが 256文字 10秒かからない
まだまだ、途中だけどね(一日しかたってないし) 名詞・助詞は結構な確立で分離できるようになった
今はおくりがな処理して 動詞・形容詞処理をしてるよ
5段活用とか小学校に習ったことぐらいしか思いだせん・・・orz
原文
甘利氏が民主党の三宅雪子議員らを突き飛ばし、けがをさせたとしている。
甘利氏 名詞
が 助詞
民主党 名詞
の 助詞 名
三宅雪子議員 名詞
ら 名詞
を 助詞
突 漢字
き 形容詞 連
飛 漢字
ばし ひらがな
、 句読点
けが 名詞
を 助詞
させたとしている ひらがな
。 句読点 php初心者ですが
phpで書かれた人工無脳でphpの勉強がしたいのですが
ソースってないですかね?
もちろん作りたいのは人工無脳
html覚えた時も、色んなページのソース見ながらやってたんで
他にいい覚え方というか練習方法あったら教えてください >>438
そもそも今活動している無脳があるのか不明
>>439
ツイッターのボットは結構あるよ
まぁ、無脳とも言えないようなのも有るけど >>436
MeCabの方が全然早い
品詞も活用も出してくれる mecabも使ってみたよ中間ファイルを介するのでそれをまた正規表現しないといけないだろ
それに正確な必要はないと思うんだ
普通の技術者は正確に
認識さ/れた or れない
って考えるけど
認識/された or されない
と認識すれば、形態素解析もそんなに難しいものじゃなくなるだろ(早いし)
あまり厳密にマルコフ連鎖させると日本語らしくない日本語ができてしまうので
辞書型とのハイブリッドが最終目的 とりあえずよそのHPから
例
http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C
から
文字抜き取り形態素解析におくるところ作ってた
まだ完成してないけど 動詞・形容詞の使い方パターンを作るのがめんどくさくなってきた何とか自動化できないか
と書くと形態素解析ソフトを薦められるがmecabを内部で起動できるようにして辞書登録しようと思って半日ぐらい遊んだが
使ってみたけどそのめんどくささは今の100倍になるよということが今日一日わかった
今の自作のアルゴリズムだと
原文
2ちゃんねるは面白い
自作
2 数字
ちゃんねる 名詞
は 助詞
面白 漢字
い ひらがな
(助詞はそんなに多くないので文末にくればめんどくさくない まだ作ってないけど)
名詞は高確率で分離されるが
mecabを使うと
2 名詞
ちゃん 名詞
ねる 動詞
は 助詞
面白い 形容詞
名詞も動詞もぐずぐずになる
たぶん"2ちゃんねる"は自動では名詞にできない
mecabの辞書から抽出してみるか >>444
MeCabの辞書にwikipediaの項目やらはてなワードやらを
全部名詞で追加してやると良いと思うよ
まぁ中には動詞あるのかもしれないけど大抵名詞だから
あと、名詞は新しい言葉が増えてくけど動詞は大して増えないから気にしなくてもあんま問題無い
(まぁググるとかはかなり浸透してるけど) あと
"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
"興味が有るから"自作するなら好きにすれば良いが >>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる
アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000
その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる
原文
まぁググるとかはかなり浸透してるけど
自作
まぁ/ググ/るとかはかなり/浸透/してるけど
まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど
にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない >>447
なんかなぁ
そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
自分も(無脳では無いが)MeCab使った事あるけど精度・速度・使い勝手どれもまぁ満足できるレベルだ
もちろん、用途に合わせて辞書は若干チューンしたが
ちなみにMeCabは
>アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
これ+スコア付けを、あのスピードでやってる ちなみに"めんど臭いから"
は
行き当たりばったりでif分を書いてるので
文書を読む解析する成り立ってないものを
プログラムをとめてif分にして活用形も考える
デバッグ
とやっているので機械的作業にだんだん飽きてきた
助詞は数10しかないので一気にできたけど
一時的に辞書参照型に改造しよう
多少は楽になるだろう
二次生成物をうpした
mecabで遊んでくれ
http://uploader.moe.hm/cgi-bin/upload.cgi?mode=dl&file=1996 >>そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
使ったことがあるんだろうが
〜って何?
とか
成り立たない文章とか生成しないかい?
最終的にこれを防ぐ方法を考えてるんだ >>450
>〜って何?
>とか
>
>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ 多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので
あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ
辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに
半分定分にしたい
原文
こんにちは今日も良い天気ですね
解析後
こんにちは/今日も/良い/天気/ですね
このくらいの分解がほしい
mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ
とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな
ほかの言語に移植したら死ぬほど遅くなるかもしれないが 品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る
しかしお前さんには何を言っても無駄なようなのでもう諦める 説得いわれはないと思うんだが
普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない
ほかの手法を模索してるだけ
格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ
5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ 説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが
あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど) めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる
モレのやってるのは、半分辞書型、半分解析方
例
すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ
いま、分活用の辞書を作ってるが
たとえば
〜れるような〜
分割せず
れるようなで半分定分に
焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い
下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない
現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる もう少し書くと単純にひらがな・漢字ではなく
原文
もう少し登録しながらいろんな文を読ませてみる
この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要 原文
まりあさんじゅうなささい
解析
まりあさん/じゅうなささい
まりあ/さんじゅうなささい
難しい
品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中
オーソドックスなのは
名詞 + ”は” だけど
会話だと
名詞 + ”wwwww”
とか使いやがる
漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん
ちょっと頭に上って改造しよう 回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン
無脳作ってると多分はまるパターンなんだが
みゆきちかわいいよみゆきち
元ねたを知ってるから
みゆきち/かわいいよ/みゆきち
に分割できるが
初めて登場するとうまく分割できない
解析器では
みゆき 名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ 動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ 名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ 名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち 名詞,サ変接続,*,*,*,*,きち,キチ,キチ
どうやって解析しよう? かわいいよ もしくは みゆきち
を辞書にいれれば終了 わかってないな
かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない
それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ
〜ってなに?と聞く人工無脳 そこはコスト付けでどうとでもなる
例えばみゆきちって言葉を優先的に使っで欲しいなら
そのコストを小さく登録すれば良いし
又は何らかの方法でみゆきちは絶対一つの形態素と分かるなら制限付き解析してやれば良い
あと
>それは、辞書未登録言語 が着たら
>その発言に対して 無反応ってことだよ
ここは形態素解析とは無関係
未知語の処理はデフォルトでは文字種(ひらがな、数字、漢字等)
でわかつようだけどそこも設定出来るから
未知語を未知語として出力させる事も出来る
後はその出力をどう調理するかは作者の腕の見せ所
〜って何?
って方法しか思いつか無いならそれだけの腕って事だ なぜ考え方が違うって考えないんだろうか
文法の自己学習を目指しているんだから
未知語が名詞なのか形容詞なのか動詞なのかを分けないといけない
単純に
未知語=名詞ではない
たとえ名詞だとしても
固有名詞なのか地名なのか一般名詞なのかによっても
次につながる助詞は違う >>465
わから無い、分けれ無いから未知語な訳で
そこからはもう形態素解析の範囲外、限界なんだよ
例えば今スワヒリ語の単語聞かされてそれがどんな品詞かなんてわかる訳がないだろ?
そう言う事だ
ただ、MeCabデフォ辞書で日本語を解析した場合
未知語は名詞と考えてほぼ間違いない
動詞、助詞等などは数は限られてるから辞書に乗ってるのでかなりカバー出来る
それに比べ名詞はそれこそ無限にあるようなもんだから未知語は大抵名詞だと言える
ただ地名、固有名詞、普通名詞で分ける事はむずかしいだろう
一つの方法としてはすでに何名詞かわかってる名詞と助詞等の繋がりを文から学習させて同じ繋がりならそれと同じ名詞とする
等があるが絶対的に分けるのはむり
だけどそれは(あなたの考える無脳は違うかもしれ無いけど)文法的に正しい文を作る上で必要な情報じゃない
もちろん意味的に正しい文作りたいなら
この情報が必要だけど
これは人間にも無理だからしょうがない
例えば
明治のチョコ
って言った場合
この明治は会社名なのか、時代のことなのか、はたまた明治村の事かもしれ無い
これは人でも正確に形態素解析でき無い
でも大して問題では無いでしょ すべて未知語=名詞にしてはいけない 日本語は文面からその言葉を探ってるって言うことをお忘れなく
〜 の 〜 は 名詞 の 名詞 〜な 〜 は 形容詞 + 名詞
未知語であったググる だって 〜る とつくから 動詞として扱われている
ケバい ナウい(死語)もそう
言葉尻で動詞なのか形容詞なのか名詞なのかは区別つくよ
明治のチョコ なら 明治=名詞 チョコ=名詞だ
明治 には ほかにも会社名 時代名 など属性が着くがその明治がなにを指しているのかは物面から判別できるだろ
明治近辺につく動詞 形容詞は 学習できるから
明治のチョコはおいしい
という 文面があれば 明治 チョコ おいしい を関連付けて辞書に登録すればいい 明治 チョコ
チョコ 明治 おいしい
おいしい チョコ
そして、〜の〜の場合 終わりの名詞の方が重要になってくるからチョコのほうが話が持っていきやすい
名詞につながる一文字の品詞は
明治か 明治が 明治さ 明治だ 明治で 明治と 明治に
明治ね 明治の 明治は 明治へ 明治も 明治や 明治を
二文字は(80文字^2=6400語 その中で日本語の助詞として成り立っているものは)
そんなにない、今は143語登録済みまだ出るかもしれないが
明治る と 日本語は今は存在しないが
もし文面出てこれば 明治を動詞として扱えばいい
ただ、この場合名詞の明治と動詞の明治は別物だが 日本語としては成り立つはず
現在そこは作っている(辞書の完成度がまだまだだが80%は解析できる)
ひらがなにだけ分けたときの 接頭 接尾の判定はできる(現在は接頭だけ) 例
かわいいよみゆきち これはすでに判定できる
みゆきちかわいいよ これも多分判定できる
接頭を一文字ずつ削って 8回辞書を舐めればいい
みゆきちかわいいよみゆきち
これが判定できなくて困ってるんだ
辞書のほうから舐めるのが一番簡単だが総当りになるので時間がかかりそう >>467-469
反論しようと思ったが結局堂々巡りになりそうなので辞める
そこら辺自分の考えで突き進むならブログに書いてね
ここに書くって事は他の人の意見が欲しいのかと思ったが
どうやら俺の考え凄いだろ!った言いたいだけの様だから 関連スレ
・【Twitter】 BOT製作支援スレ part2
http://pc11.2ch.net/test/read.cgi/php/1263824322/
・Twitterボット板
Twitter Bot BBS
http://jbbs.livedoor.jp/internet/6629/
Twitterボットを見て思ったが、無脳でもネタ的に面白いものもあるし、
認証を得た他人に自動投稿させるようのものもある。
面白いという観点から見ると、AI的なものは必ずしも必要ないと思った さらに輪をかけてくだらない事で盛り上がる笑える通り越して悲しくなる 誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。
グーグル検索⇒『半藤のブブイウイウレレ』
HP8TANCSZQ ☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆ Siriみたいにネットの先に居るんじゃなくて
ローカルで動かせるアシスタントあるの? ■ このスレッドは過去ログ倉庫に格納されています