強化学習

強化学習の生物学的背景は、オペラント条件付けと報酬で見ることができる。

強化学習（Renforcement Learning: RL）とは、ソフトウェア・エージェントにある環境での振る舞いを教え、それがいかに良いものであるかを伝えることである。強化学習は、行動主義心理学に影響を受けた機械学習の一分野である。

強化学習は教師あり学習と異なり、正しい入力と出力が示されることはない。また，強化学習は教師あり学習と異なり，通常，その都度学習する（オンライン学習）．つまり、エージェントは、探索を行うか、自分が最も良く知っていることに固執するかを選択しなければならないのです。

はじめに

強化学習システムは、政策( π {displaystyle \pi } $\pi$ )、報酬関数( R {displaystyle R} $R$ )、価値関数( v {displaystyle v} $v$ )、および任意の環境モデルから構成されます。

ポリシーは、ある状況下で何をすべきかをエージェントに伝えるものです。それは単純なルールの表であったり，正しい行動のための複雑な探索であったりする．ポリシーは，ルールの代わりに各アクションに確率を割り当てる確率論的なものであることもある．ポリシーはそれ自体でエージェントに何かをさせることはできるが、それ自体で学習することはできない。

報酬関数は、エージェントの目標を定義する。状態（あるいは状態とその状態での行動）を受け取り，報酬と呼ばれる数値を返す．これは，その状態にあることがエージェントにとってどれだけ良いことかを示す．エージェントの仕事は、長い目で見て最大の報酬を得ることである。もし、ある行動が低い報酬をもたらすなら、エージェントはおそらく将来、より良い行動をとるでしょう。生物学では、生物が繁殖のために生き続けるために、喜びや痛みのような報酬シグナルを用いる。報酬のシグナルは、カジノのスロットマシンのように、確率的な場合もある。

価値関数は、エージェントが状態s {displaystyle s} $s$ から始まる政策π {displaystyle \pi } $\pi$ に従ってどれだけの報酬を得るかを示す。これは、ある状態になることがどれだけ望ましいかを表している。価値関数はエージェントに直接与えられないので、エージェントはこれまで得た報酬に基づいて良い推測または推定を思い付く必要があります。価値関数の推定は、ほとんどの強化学習アルゴリズムで最も重要な部分である。

モデルとは、エージェントの環境に対する精神的なコピーです。将来の行動を計画するために使用されます。

これを知っていれば、強化学習エピソードのメインループについて話すことができる。エージェントは環境と離散的な時間ステップで相互作用する。時計の「チクタク音」のようなものだと考えてください。離散時間では，物事は「チック」と「トック」の間だけ起こり，その間には起こらない．各時間t = 0 , 1 , 2 , 3 , ....{displaystyle t=0,1,2,3,...} $t=0,1,2,3,...$ このとき，エージェントは環境の状態S t {displaystyle S_{t}} $S_{t}$ を観測し，ポリシーπ {displaystyle \pi } に基づいて行動A t {displaystyle A_{t}} を選択する． $A_{t}$ $\pi$ .次のタイムステップでは、エージェントは報酬信号R t + 1 {displaystyle R_{t+1}} $R_{t+1}$ と新しい観測値S t + 1 {displaystyle S_{t+1}} を受信する。 $S_{t+1}$ .報酬を用いて価値関数 v ( S t ) {displaystyle v(S_{t})} $v(S_{t})$ が更新される。これは、終端状態 S T {displaystyle S_{T}} $S_{T}$ に到達するまで継続される。

強化学習

はじめに

文字で検索