一般会話の理解、特に意図の理解はまだまだ難しいようです。ディープラーニングもデータが大量にないとうまくいかず、文とその中の言葉の用法や文の構造の答えとがセットになったデータを大量に用意すること自体が大変だったりして、いくつものブレークスルーが必要なことがわかりました。私は主要な感覚を備えて動き回れる体を持った人工知能ならいけるのかなと思っていたのですが、そんなに簡単なものではないようです。
ところで、この間からやっている手書き数字の認識ですが、正答率が98.5%あたりで止まってしまい、なかなかそこからの向上ができません。ヒントを得ようと間違ったパターンだけを50個選んで出力してみました。
これはおかしいだろうという無理筋も半分ぐらいはありますが、もう半分は異字体のせいのように思えます。異字体は異字体として分類されたトレーニングデータがあればもっと正答率が上がりそうですが、6万パターンの入力画像を人力で全部チェックして異字体を分類するなど、全く本末転倒です。そう言えば、上記の本のイタチたちもそんな目にあっていました。。。