人工無脳
■ このスレッドは過去ログ倉庫に格納されています
辞書登録型だからなに?もっとアルゴリズムで工夫しろよ。
今まで散々使われてきた誰にでも分かるような技術で「作りましたー」とか言われても何も面白くない。
自己顕示欲が強い人だね。 ※ナンバーが3の倍数の書き込みはボットによっておこなわれています ついったーで知能っぽいのを積んだbotを作っている物です。
基本的には返事ベースなので、"意識?"は一分しか持続しませんが。
@windymeltanです。(出来ればフォローを)まださっぱり辞書に入っていないのでろくに返事も出来ませんが、外部ツールとの連携が可能なしくみになっています。
現在、chasenの読み仮名と、maximaの連携が出来ています。
他の人工無能とは一味違いますが、「忠実なツンデレ」みたいになっています。 >>371
mecabに載せ替えました。
文章を受け取って形態素解析をしたあとで、逆文献頻度と出現頻度を算出し単語の重要性を判定する、
と言うアルゴリズムを書いているところですが,人工無脳の言葉の辞書に有用でしょうか。
出現頻度=log((特定単語数)/(全単語数))
逆文献頻度=log(単語数?/単語が出現する文章数)
辞書を共有する試みを行ってみたいですね。
人格によらない部分のみを。単語帳のように。 > 文章を受け取って形態素解析をしたあとで、逆文献頻度と出現頻度を算出し単語の重要性を判定
うーん、エキスパートシステム向けなんじゃない?
文献によって偏りが出そう(*´〜`) >>373
文献を「発言者」になぞらえれば,ある特定人物が良く発現する言葉,その人しか使わない言葉が重要と認識できると思うんだけど。 人工無能に「相手の情報をストックする」機能を付けない限りは、
永遠に会話が成り立っているように見えるというレベルを超えることはできないよ。
発言に対する反応から好みを判断したり、人工無能から質問ふっかけて話者の情報を集めたりして、
そこから人工無能の発言内容を変えていくようなアルゴリズムの人工無能が未だに出てこないのが不思議。
人間の対話っていうのは、根本に「相手のことを知る」という動作が含まれているんだからね。 >>375
MySQLで記憶は実現できるのではないかと思うんだが、どう思う?
ただ、常に正確に意味を判定できる記憶のフォーマットを考えなくてはならないわけだが。 >>382
あいにく、自分はあまりプログラミングに詳しくない者でデータベースはよく分からない。
相手のことを記憶するのに意味の判定までは必要ないだろうよ。
ベーシックな自己紹介情報フォーマット以外は、
IF-THANルールで「その人がその事項を好きか嫌いか」だけ記録していけばいい。
辞書書いて遊んだことしかない俺が言うのも何だが、
辞書型作ってる人が居るくらいなんだから「好意単語」「嫌意単語」リストくらいなら作れるだろうよ。
相手ごとに管理云々ほざいてる奴に言わせてもらうが、
大量のログの中から適切なものを選ぶだけでも大変。
第一相手ごとに発言を変えたらそれこそ単調なものが出来上がりそうだ
うずらを少しは見習えカスども 何もしない奴が偉そうなのは良くある事
もしくはBOTなのかもしれない 人間の感情は技術だけでは生まれないのかもしれません >>390
プログラミングできない癖に偉そうに言うな、と言いたい気持ちは分かるが、
俺はとりあえず「人間側の情報を取得すべき」というベクトルを示したかっただけなんだ。
ただ、自分で示しておきながらなんだけれど
現状の人工無能では「好」判別機能を実装できそうなのって辞書型だけかもね。
まあ好意嫌意判断もベースのフォーマットも全部手打ちって時点でこのスレ的には論外か。
>>394
辞書型は発言に開発者の人間性が出るので人間っぽくなります
完全学習型で、もし「好き」「嫌い」の概念自体も学習するとすれば人間とは違った価値観になるはずです。多分、人間では理解出来ない概念を話す、新種の生物になります。
「好き」「嫌い」の判定を人間が教えるとなると、名詞(もしくはジャンル分けされた名詞群)ごとに設定する事になるので結局辞書型になります。難しいところですね… >>394
伺かがそれの方向性で進んではいるからこっちよりはあっち見たほうがいいのかもしれんよ。 390です
けんか腰ですみません 理想ばかり言われて開発者として腹を立ててしまいました 子供ですよね
>>394
「好き」「嫌い」の概念を理解させるには形態素解析を応用した仕組みを使えばできるかもしれません
人間が一つ一つ登録していくのにはやはり限界があります >>384
を開発している
>>395
です
>>397
さん、もし開発中のものが拝見できるのであれば教えていただけませんか?
(差し支えなければですが)
その他の方もそうですが、開発者同士のコミュニケーションが取れればお互い有意義かと思い。ただでさえ開発者が少ない世界なので。 アマゾンのおすすめ商品とかグーグルのもしかして機能を応用して
単語を連想して会話するようなことが出来ればなぁとか >>398
明らかに>>397が本当に開発しているのか確かめたかっただけだろw
誰から見ても普通に分かるw >>400はいはいわろすわろす
確かに分かることは分かるが うなぎとかいう人工無脳がいるらしいが試していない。
ttp://axol.web.fc2.com/unagi/
ググって見ると作成者中学生。乙 >>403
話そうと思ったがIRCの方法分からない >>404
IRCなどオタクと廃人の集まりだ
やめとけ Googleのもしかして機能ってどういう仕組みなのだろうか?
形態素解析? スペースや検索非対象の有り触れた単語で区切られた単語ごとに
現実味のある検索結果を導き出す差分を持っている候補を挙げる機能はあるだろうが
それ以外に区切りのやりかたはないだろうな。 >>406形態素解析使うのは結構いいかもしれない
ただ、単語ごとだと大雑把過ぎる気もする。
だから、2文字ずつというのはどうだろう。
例:人工無能 うずら → 人工無能 うずる
解析結果:
人工
無能
うず
る
上三段からうずとうずらを連想させれば、できる可能性はある。
ただ、Googleの場合膨大な検索データがあるので、確実にそのデータを参照している。 そもそももしかしてじゃなくて普通の検索でも多少長いワードは解析されてそれぞれ検索ワードとして使われてるよね
そしてもしかしては連続したクエリから選んでるんじゃ無いだろうか
例えばシュミレーションと検索すると当然ヒット数は少ないので(ま、誤記にしてはかなり多いが)シミュレーションと入れ直すだろう
こういったユーザ動きを解析してもしかしてってやってるんだと思う
あとは単純なタイポなんかは結果のページに多く使われてる似たワードを表示するとかしてると思う え?レーベンシュタイン距離とか測ってるだけでしょ? 人間らしさっていうかシステマティックな統計の観点から考えると有限の手続きしかできない計算機飽くまでも結果に向けて近似する事しかできないんじゃない? 意味があるようでない言葉を繰り返すことしかできないのが正に人工無能です 害獣探索で間違えて「戻る」ボタン押してしまったらクールタイム消えてしまった・・。
ゲーム開始してからフラグ立てればいいのに。 /⌒~~~⌒\
/ ( ゚>t≡ )y─┛~~
(_ ノγ U ∩_∩) THANK YOU 2ch ┌───────┐
α___J _J and (|● ● |
/ ̄ ̄ ̄ ̄\ GOOD-BYE 2ch WORLD! /.| ┌▽▽▽▽┐ |
/ ● ● ( ┤ | | |
|Y Y \ またどこかで会おうね \. └△△△△┘ \
| | | ▼ | | \あ\ |\ \
| \/ _人| ∧∧∩゛ ∧_∧ | \り\ | (_)
| _/)/)/( ゚Д゚)/ (´∀` ) __ n \が\. |
\ / 〔/\〕 U / ∩∩ ( )o/ \ ヽ \と\ |
| | | c(*・_・) | |ヽ(´ー`)ノ_| | | (__丿 |. /\ \う | (-_-)
(__)_) UUUU /∪∪ (___)(_(__) ⊆_ ヽ_┘ └──┘(∩∩)
無名なものでもなんでもいいから人工無能の一覧を作ろう
このスレにあるだけでも結構ありそう(今存在しているかどうかは別)
うずら
ロイディ
なまこ
とぼっち
マスオ
カツオ
なまねこ
酢鶏
エクサ
よみうさ
うし
うなぎ
羽生くん
ちんぷん館
ゆいぼっと
ししゃも
伺か
ARISA
葵
他追加頼む! ししゃもをIRCで導入するのにわかりやすいページとか誰か知らない?
俺のぐぐる力だと見つけられなかったorz 失業中なので無能を作り始めた
文法解析型 を 作ろうと思うが
モレの使う日本語変なので日本語の文法がわからん orz
とりあえず 文節に分けるとこからはじめた 茶筅 は 昔使ってみたけど いまいちだったので 自分で作ってみている
形態素解析しながら辞書登録していくように作ろうかと思っている
原文
内閣支持続落、19%=普天間で49%「首相退陣を」
内閣支持続落 漢字
、 句読点
19%=普天間 値
で ひらがな
49%「首相退陣 値
を ひらがな
」- 記号
いま 数字 + 単位 と 名詞 を分けてる
三宅雪子が数値扱いになってしまうがな 自分のボキャブラリーの低さにびっくりするな
例文が浮かばない
〜に の "〜"は名詞になるのか? 内閣支持続落 漢字
、 句読点
19% 値 単位
= 記号
普天間 名詞
で ひらがな
49% 値 単位
「 記号 S
首相退陣 名詞
を ひらがな
」 記号 E
一日でここまで やってることは、文字操作なのでどんな言語でも難しくはないんだが
体系的に分類するのが難しい
すもももももももものうち
をどう切るかだ
原文
甘利氏が民主党の三宅雪子議員らを突き飛ばし、けがをさせたとしている。
甘利氏 名詞
が 助詞
民主党 名詞
の 助詞 名
三宅雪子議員 名詞
らを ひらがな
突 漢字
き ひらがな
飛 漢字
ばし ひらがな
、 句読点
けがをさせたとしている ひらがな
。 句読点
漢字カナひら英数字とか区切りが明確なのはまあ楽だわな。
ひらがなの集まりをどう切るかってのが面倒だから無脳作るなら
そのへんは既存のに任せて本体作る方に手間さくほうがいいかもしれない。
形態素解析も全部やらないと気がすまないならそれでもよかろうが。 昔、茶筅使ってみたけど 辞書参照型なので遅すぎ(マシンパワーもあるけど 骨折入院中だったのでセレロンの1Gクラス)しかもファイル介しているので 遅い
正確な必要はないんだ たて読みぐらいの精度で十分だと思う 名詞・形容詞・動詞が判断できる程度で あとは定文として扱う
環境だけさらしてみると 開発環境 エクセルVBA
解析文字数 256文字(65535文字にすればよかったと思う)今解析プロセスを表示させながら解析してるが 256文字 10秒かからない
まだまだ、途中だけどね(一日しかたってないし) 名詞・助詞は結構な確立で分離できるようになった
今はおくりがな処理して 動詞・形容詞処理をしてるよ
5段活用とか小学校に習ったことぐらいしか思いだせん・・・orz
原文
甘利氏が民主党の三宅雪子議員らを突き飛ばし、けがをさせたとしている。
甘利氏 名詞
が 助詞
民主党 名詞
の 助詞 名
三宅雪子議員 名詞
ら 名詞
を 助詞
突 漢字
き 形容詞 連
飛 漢字
ばし ひらがな
、 句読点
けが 名詞
を 助詞
させたとしている ひらがな
。 句読点 php初心者ですが
phpで書かれた人工無脳でphpの勉強がしたいのですが
ソースってないですかね?
もちろん作りたいのは人工無脳
html覚えた時も、色んなページのソース見ながらやってたんで
他にいい覚え方というか練習方法あったら教えてください >>438
そもそも今活動している無脳があるのか不明
>>439
ツイッターのボットは結構あるよ
まぁ、無脳とも言えないようなのも有るけど >>436
MeCabの方が全然早い
品詞も活用も出してくれる mecabも使ってみたよ中間ファイルを介するのでそれをまた正規表現しないといけないだろ
それに正確な必要はないと思うんだ
普通の技術者は正確に
認識さ/れた or れない
って考えるけど
認識/された or されない
と認識すれば、形態素解析もそんなに難しいものじゃなくなるだろ(早いし)
あまり厳密にマルコフ連鎖させると日本語らしくない日本語ができてしまうので
辞書型とのハイブリッドが最終目的 とりあえずよそのHPから
例
http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C
から
文字抜き取り形態素解析におくるところ作ってた
まだ完成してないけど 動詞・形容詞の使い方パターンを作るのがめんどくさくなってきた何とか自動化できないか
と書くと形態素解析ソフトを薦められるがmecabを内部で起動できるようにして辞書登録しようと思って半日ぐらい遊んだが
使ってみたけどそのめんどくささは今の100倍になるよということが今日一日わかった
今の自作のアルゴリズムだと
原文
2ちゃんねるは面白い
自作
2 数字
ちゃんねる 名詞
は 助詞
面白 漢字
い ひらがな
(助詞はそんなに多くないので文末にくればめんどくさくない まだ作ってないけど)
名詞は高確率で分離されるが
mecabを使うと
2 名詞
ちゃん 名詞
ねる 動詞
は 助詞
面白い 形容詞
名詞も動詞もぐずぐずになる
たぶん"2ちゃんねる"は自動では名詞にできない
mecabの辞書から抽出してみるか >>444
MeCabの辞書にwikipediaの項目やらはてなワードやらを
全部名詞で追加してやると良いと思うよ
まぁ中には動詞あるのかもしれないけど大抵名詞だから
あと、名詞は新しい言葉が増えてくけど動詞は大して増えないから気にしなくてもあんま問題無い
(まぁググるとかはかなり浸透してるけど) あと
"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
"興味が有るから"自作するなら好きにすれば良いが >>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる
アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000
その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる
原文
まぁググるとかはかなり浸透してるけど
自作
まぁ/ググ/るとかはかなり/浸透/してるけど
まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど
にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない >>447
なんかなぁ
そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
自分も(無脳では無いが)MeCab使った事あるけど精度・速度・使い勝手どれもまぁ満足できるレベルだ
もちろん、用途に合わせて辞書は若干チューンしたが
ちなみにMeCabは
>アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
これ+スコア付けを、あのスピードでやってる ちなみに"めんど臭いから"
は
行き当たりばったりでif分を書いてるので
文書を読む解析する成り立ってないものを
プログラムをとめてif分にして活用形も考える
デバッグ
とやっているので機械的作業にだんだん飽きてきた
助詞は数10しかないので一気にできたけど
一時的に辞書参照型に改造しよう
多少は楽になるだろう
二次生成物をうpした
mecabで遊んでくれ
http://uploader.moe.hm/cgi-bin/upload.cgi?mode=dl&file=1996 >>そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
使ったことがあるんだろうが
〜って何?
とか
成り立たない文章とか生成しないかい?
最終的にこれを防ぐ方法を考えてるんだ >>450
>〜って何?
>とか
>
>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ 多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので
あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ
辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに
半分定分にしたい
原文
こんにちは今日も良い天気ですね
解析後
こんにちは/今日も/良い/天気/ですね
このくらいの分解がほしい
mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ
とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな
ほかの言語に移植したら死ぬほど遅くなるかもしれないが 品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る
しかしお前さんには何を言っても無駄なようなのでもう諦める 説得いわれはないと思うんだが
普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない
ほかの手法を模索してるだけ
格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ
5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ 説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが
あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど) めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる
モレのやってるのは、半分辞書型、半分解析方
例
すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ
いま、分活用の辞書を作ってるが
たとえば
〜れるような〜
分割せず
れるようなで半分定分に
焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い
下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない
現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる もう少し書くと単純にひらがな・漢字ではなく
原文
もう少し登録しながらいろんな文を読ませてみる
この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要 原文
まりあさんじゅうなささい
解析
まりあさん/じゅうなささい
まりあ/さんじゅうなささい
難しい
品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中
オーソドックスなのは
名詞 + ”は” だけど
会話だと
名詞 + ”wwwww”
とか使いやがる
漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん
ちょっと頭に上って改造しよう 回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン
無脳作ってると多分はまるパターンなんだが
みゆきちかわいいよみゆきち
元ねたを知ってるから
みゆきち/かわいいよ/みゆきち
に分割できるが
初めて登場するとうまく分割できない
解析器では
みゆき 名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ 動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ 名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ 名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち 名詞,サ変接続,*,*,*,*,きち,キチ,キチ
どうやって解析しよう? かわいいよ もしくは みゆきち
を辞書にいれれば終了 わかってないな
かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない
それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ
〜ってなに?と聞く人工無脳 ■ このスレッドは過去ログ倉庫に格納されています