AIの実行領域は、大きく3つに分けられますが、その1つが強化学習です。強化学習と聞いてもイメージできないかもしれませんが、「囲碁や将棋のソフト」と聞けば思い当たる人もいらっしゃるでしょう。まるで人間のように答えを導き出すソフトとして人口に膾炙しています。「人間のように」と言われる理由は単純です。何とこのソフトは棋譜が予めインプットされていなくても、プロの棋士を相手に勝利を収めることが出来るからです。強化学習の仕組みはそれほど難しくありません。正解の棋譜がインプットされていないのですから、試行錯誤を繰り返して答えに辿り着く他ありません。最初はランダムに挑戦しますが、当然評価は高いものが与えられません。減点されればすぐに初めからトライするのです。そして何度も挑戦し、最後に最短距離を見つけ出します。最短距離とは、最も望ましい結果を導けるパラメータを指します。このように説明すると、まるで魔法だと思われるかもしれませんが、実際は魔法でも何でもありません。考えてもみて下さい。強化学習の対象となるのは、他の領域とは異なり、明確な正解が存在しないものです。つまり唯一の答えに辿り着く必要はないのです。なるべく距離が近いパラメータを探すことに徹するだけですから、他の領域の研究と比較しても魔法とは言えません。実際難点も指摘されています。例えば、囲碁のようなゲームは完全情報ゲームですが、ポーカーのようなゲームは運によるところも大きく、不完全情報ゲームと言えるものです。不完全情報ゲームを対象として強化学習するのは困難なのです。