>>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる

アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから

第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000

その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる

原文
まぁググるとかはかなり浸透してるけど

自作
まぁ/ググ/るとかはかなり/浸透/してるけど

まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど

にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない