乗車日記

自転車ときのこ

読了 強化学習

強化学習の数学的基礎を学習した。普段、割と適当にニューラルネットワークに放り込んで処理してしまっているが、方策関数の収束性などがきちんと証明できることを知った。なんだか最小固有値の反復解法と似ている。

結局の所、やはり未知の状況の探索が肝で、様々な方法が試みられているようだ。