人工無脳

1102/05/07 05:55ID:JxGSPxBK
いい人工無脳ありませんか?

439nobodyさん2010/05/16(日) 16:19:33ID:???
>>438
そもそも今活動している無脳があるのか不明

440nobodyさん2010/05/16(日) 16:28:39ID:???
>>439
ツイッターのボットは結構あるよ
まぁ、無脳とも言えないようなのも有るけど

441nobodyさん2010/05/16(日) 16:34:14ID:???
>>436
MeCabの方が全然早い
品詞も活用も出してくれる

442nobodyさん2010/05/16(日) 21:26:03ID:???
mecabも使ってみたよ中間ファイルを介するのでそれをまた正規表現しないといけないだろ
それに正確な必要はないと思うんだ

普通の技術者は正確に

認識さ/れた or れない
って考えるけど
認識/された or されない

と認識すれば、形態素解析もそんなに難しいものじゃなくなるだろ(早いし)

あまり厳密にマルコフ連鎖させると日本語らしくない日本語ができてしまうので
辞書型とのハイブリッドが最終目的

443nobodyさん2010/05/16(日) 21:51:43ID:???
とりあえずよそのHPから


http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C
から
文字抜き取り形態素解析におくるところ作ってた
まだ完成してないけど

444nobodyさん2010/05/17(月) 23:55:42ID:Tr+nzFXD
動詞・形容詞の使い方パターンを作るのがめんどくさくなってきた何とか自動化できないか
と書くと形態素解析ソフトを薦められるがmecabを内部で起動できるようにして辞書登録しようと思って半日ぐらい遊んだが
使ってみたけどそのめんどくささは今の100倍になるよということが今日一日わかった

今の自作のアルゴリズムだと

原文
2ちゃんねるは面白い

自作
2      数字
ちゃんねる  名詞
は      助詞
面白     漢字
い      ひらがな

(助詞はそんなに多くないので文末にくればめんどくさくない まだ作ってないけど)
名詞は高確率で分離されるが

mecabを使うと
2    名詞
ちゃん 名詞
ねる  動詞
は   助詞
面白い 形容詞

名詞も動詞もぐずぐずになる
たぶん"2ちゃんねる"は自動では名詞にできない

mecabの辞書から抽出してみるか

445nobodyさん2010/05/18(火) 00:55:08ID:???
>>444
MeCabの辞書にwikipediaの項目やらはてなワードやらを
全部名詞で追加してやると良いと思うよ
まぁ中には動詞あるのかもしれないけど大抵名詞だから

あと、名詞は新しい言葉が増えてくけど動詞は大して増えないから気にしなくてもあんま問題無い
(まぁググるとかはかなり浸透してるけど)

446nobodyさん2010/05/18(火) 00:59:24ID:???
あと
"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
"興味が有るから"自作するなら好きにすれば良いが

447nobodyさん2010/05/18(火) 12:39:22ID:ZcBPV0UE
>>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる

アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから

第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000

その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる

原文
まぁググるとかはかなり浸透してるけど

自作
まぁ/ググ/るとかはかなり/浸透/してるけど

まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど

にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない

448nobodyさん2010/05/18(火) 13:07:12ID:???
>>447
なんかなぁ
そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
自分も(無脳では無いが)MeCab使った事あるけど精度・速度・使い勝手どれもまぁ満足できるレベルだ
もちろん、用途に合わせて辞書は若干チューンしたが

ちなみにMeCabは
>アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
これ+スコア付けを、あのスピードでやってる

449nobodyさん2010/05/18(火) 14:20:49ID:ZcBPV0UE
ちなみに"めんど臭いから"

行き当たりばったりでif分を書いてるので

文書を読む解析する成り立ってないものを

プログラムをとめてif分にして活用形も考える
デバッグ
とやっているので機械的作業にだんだん飽きてきた
助詞は数10しかないので一気にできたけど
一時的に辞書参照型に改造しよう
多少は楽になるだろう

二次生成物をうpした
mecabで遊んでくれ
http://uploader.moe.hm/cgi-bin/upload.cgi?mode=dl&file=1996

450nobodyさん2010/05/18(火) 14:26:13ID:???
>>そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
使ったことがあるんだろうが

〜って何?
とか

成り立たない文章とか生成しないかい?

最終的にこれを防ぐ方法を考えてるんだ

451nobodyさん2010/05/18(火) 15:19:22ID:???
>>450
>〜って何?
>とか

>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ

452nobodyさん2010/05/19(水) 01:00:01ID:???
多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので

あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ

辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに

半分定分にしたい

原文
こんにちは今日も良い天気ですね

解析後
こんにちは/今日も/良い/天気/ですね

このくらいの分解がほしい

mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ

とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな

ほかの言語に移植したら死ぬほど遅くなるかもしれないが

453nobodyさん2010/05/19(水) 02:55:41ID:???
品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る

しかしお前さんには何を言っても無駄なようなのでもう諦める

454nobodyさん2010/05/20(木) 00:13:15ID:???
説得いわれはないと思うんだが

普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない

ほかの手法を模索してるだけ

格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ

5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ

455nobodyさん2010/05/20(木) 04:46:00ID:???
説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが

あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど)

456nobodyさん2010/05/21(金) 00:12:29ID:???
めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる

モレのやってるのは、半分辞書型、半分解析方


すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ

いま、分活用の辞書を作ってるが
たとえば

〜れるような〜

分割せず
れるようなで半分定分に

焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い

下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない

現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる

457nobodyさん2010/05/21(金) 00:17:45ID:???
もう少し書くと単純にひらがな・漢字ではなく

原文
もう少し登録しながらいろんな文を読ませてみる

この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要

458nobodyさん2010/05/21(金) 13:42:49ID:???
原文
まりあさんじゅうなささい

解析
まりあさん/じゅうなささい

まりあ/さんじゅうなささい

難しい




459nobodyさん2010/05/22(土) 00:44:26ID:???
品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中

オーソドックスなのは
名詞 + ”は” だけど

会話だと
名詞 + ”wwwww”
とか使いやがる

漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん

ちょっと頭に上って改造しよう

460nobodyさん2010/05/22(土) 00:56:01ID:???
ブログに書け

461nobodyさん2010/05/22(土) 13:13:41ID:???
回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン



無脳作ってると多分はまるパターンなんだが

みゆきちかわいいよみゆきち

元ねたを知ってるから

みゆきち/かわいいよ/みゆきち
に分割できるが

初めて登場するとうまく分割できない

解析器では
みゆき  名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ  動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい   形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ   名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ    名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち   名詞,サ変接続,*,*,*,*,きち,キチ,キチ

どうやって解析しよう?

462nobodyさん2010/05/22(土) 17:11:27ID:???
かわいいよ もしくは みゆきち
を辞書にいれれば終了

463nobodyさん2010/05/23(日) 00:41:57ID:???
わかってないな

かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない

それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ

〜ってなに?と聞く人工無脳

464nobodyさん2010/05/23(日) 10:09:49ID:???
そこはコスト付けでどうとでもなる
例えばみゆきちって言葉を優先的に使っで欲しいなら
そのコストを小さく登録すれば良いし
又は何らかの方法でみゆきちは絶対一つの形態素と分かるなら制限付き解析してやれば良い

あと
>それは、辞書未登録言語 が着たら
>その発言に対して 無反応ってことだよ
ここは形態素解析とは無関係
未知語の処理はデフォルトでは文字種(ひらがな、数字、漢字等)
でわかつようだけどそこも設定出来るから
未知語を未知語として出力させる事も出来る
後はその出力をどう調理するかは作者の腕の見せ所

〜って何?
って方法しか思いつか無いならそれだけの腕って事だ

465nobodyさん2010/05/23(日) 14:23:42ID:???
なぜ考え方が違うって考えないんだろうか

文法の自己学習を目指しているんだから
未知語が名詞なのか形容詞なのか動詞なのかを分けないといけない

単純に
未知語=名詞ではない

たとえ名詞だとしても
固有名詞なのか地名なのか一般名詞なのかによっても
次につながる助詞は違う

466nobodyさん2010/05/23(日) 15:39:51ID:???
>>465
わから無い、分けれ無いから未知語な訳で
そこからはもう形態素解析の範囲外、限界なんだよ
例えば今スワヒリ語の単語聞かされてそれがどんな品詞かなんてわかる訳がないだろ?
そう言う事だ

ただ、MeCabデフォ辞書で日本語を解析した場合
未知語は名詞と考えてほぼ間違いない
動詞、助詞等などは数は限られてるから辞書に乗ってるのでかなりカバー出来る
それに比べ名詞はそれこそ無限にあるようなもんだから未知語は大抵名詞だと言える

ただ地名、固有名詞、普通名詞で分ける事はむずかしいだろう
一つの方法としてはすでに何名詞かわかってる名詞と助詞等の繋がりを文から学習させて同じ繋がりならそれと同じ名詞とする
等があるが絶対的に分けるのはむり

だけどそれは(あなたの考える無脳は違うかもしれ無いけど)文法的に正しい文を作る上で必要な情報じゃない
もちろん意味的に正しい文作りたいなら
この情報が必要だけど
これは人間にも無理だからしょうがない

例えば
明治のチョコ
って言った場合
この明治は会社名なのか、時代のことなのか、はたまた明治村の事かもしれ無い
これは人でも正確に形態素解析でき無い
でも大して問題では無いでしょ

467nobodyさん2010/05/24(月) 21:43:25ID:???
すべて未知語=名詞にしてはいけない 日本語は文面からその言葉を探ってるって言うことをお忘れなく
〜 の 〜 は 名詞 の 名詞 〜な 〜 は 形容詞 + 名詞
未知語であったググる だって 〜る とつくから 動詞として扱われている
ケバい ナウい(死語)もそう

言葉尻で動詞なのか形容詞なのか名詞なのかは区別つくよ 
明治のチョコ なら 明治=名詞 チョコ=名詞だ
明治 には ほかにも会社名 時代名 など属性が着くがその明治がなにを指しているのかは物面から判別できるだろ
明治近辺につく動詞 形容詞は 学習できるから
明治のチョコはおいしい
という 文面があれば 明治 チョコ おいしい を関連付けて辞書に登録すればいい

468nobodyさん2010/05/24(月) 21:52:45ID:???
明治 チョコ
チョコ 明治 おいしい
おいしい チョコ
そして、〜の〜の場合 終わりの名詞の方が重要になってくるからチョコのほうが話が持っていきやすい
名詞につながる一文字の品詞は

明治か 明治が 明治さ 明治だ 明治で 明治と 明治に
明治ね 明治の 明治は 明治へ 明治も 明治や 明治を
二文字は(80文字^2=6400語 その中で日本語の助詞として成り立っているものは)
そんなにない、今は143語登録済みまだ出るかもしれないが

明治る と 日本語は今は存在しないが
もし文面出てこれば 明治を動詞として扱えばいい
ただ、この場合名詞の明治と動詞の明治は別物だが 日本語としては成り立つはず
現在そこは作っている(辞書の完成度がまだまだだが80%は解析できる)
ひらがなにだけ分けたときの 接頭 接尾の判定はできる(現在は接頭だけ)

469nobodyさん2010/05/24(月) 21:57:36ID:???

かわいいよみゆきち これはすでに判定できる
みゆきちかわいいよ これも多分判定できる
接頭を一文字ずつ削って 8回辞書を舐めればいい

みゆきちかわいいよみゆきち
これが判定できなくて困ってるんだ
辞書のほうから舐めるのが一番簡単だが総当りになるので時間がかかりそう

470nobodyさん2010/05/25(火) 00:37:42ID:???
>>467-469
反論しようと思ったが結局堂々巡りになりそうなので辞める
そこら辺自分の考えで突き進むならブログに書いてね
ここに書くって事は他の人の意見が欲しいのかと思ったが
どうやら俺の考え凄いだろ!った言いたいだけの様だから

471名無しさん@そうだ選挙に行こう2010/07/10(土) 20:09:17ID:???
関連スレ

・【Twitter】 BOT製作支援スレ part2
http://pc11.2ch.net/test/read.cgi/php/1263824322/

・Twitterボット板
Twitter Bot BBS
http://jbbs.livedoor.jp/internet/6629/


Twitterボットを見て思ったが、無脳でもネタ的に面白いものもあるし、
認証を得た他人に自動投稿させるようのものもある。
面白いという観点から見ると、AI的なものは必ずしも必要ないと思った

472nobodyさん2011/10/28(金) 04:12:49.68ID:???
保守

ねーよ

474nobodyさん2013/02/14(木) 11:54:52.35ID:ealeoysC
保守

475nobodyさん2013/06/08(土) 16:19:04.95ID:Jp1wTRZq
保守

476nobodyさん2014/06/14(土) 10:29:37.53ID:???
こんにちは 赤ちゃん

477nobodyさん2015/12/01(火) 22:04:24.32ID:???
保守

478nobodyさん2017/07/04(火) 04:45:52.51ID:???
暇ねーとか嘘つくんじゃねーよ糞が

479nobodyさん2017/07/19(水) 22:35:04.09ID:???
くっだらねーホント頭悪いなアホくさ

480nobodyさん2017/07/19(水) 22:56:52.94ID:???
さらに輪をかけてくだらない事で盛り上がる笑える通り越して悲しくなる

481nobodyさん2017/07/23(日) 22:23:55.00ID:???
糞みてーな人生だわ

482nobodyさん2017/07/24(月) 00:09:35.37ID:???
なんだこの女頭おかしいな狂ってるわ

483nobodyさん2017/07/24(月) 00:13:10.40ID:???
適当にやって捨てるに限るなこういう女は

484nobodyさん2017/07/24(月) 00:37:55.91ID:???
こえーわこの女めんどくさそう

485nobodyさん2017/07/28(金) 17:19:18.32ID:???
ウンコしてくる

486nobodyさん2017/07/29(土) 13:24:26.34ID:???
あーだるめんどくせー

487nobodyさん2017/12/30(土) 12:38:35.37ID:YhlYw6jg
誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。

グーグル検索⇒『半藤のブブイウイウレレ』

HP8TANCSZQ

488nobodyさん2018/02/20(火) 05:04:35.52ID:???
☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

489nobodyさん2018/03/07(水) 17:59:32.28ID:K5y5GX4e
このスレ人いる?

新着レスの表示
レスを投稿する