強化学習の数学的基礎を学習した。普段、割と適当にニューラルネットワークに放り込んで処理してしまっているが、方策関数の収束性などがきちんと証明できることを知った。なんだか最小固有値の反復解法と似ている。
結局の所、やはり未知の状況の探索が肝で、様々な方法が試みられているようだ。
強化学習の数学的基礎を学習した。普段、割と適当にニューラルネットワークに放り込んで処理してしまっているが、方策関数の収束性などがきちんと証明できることを知った。なんだか最小固有値の反復解法と似ている。
結局の所、やはり未知の状況の探索が肝で、様々な方法が試みられているようだ。