Support of The Dataset
Offline Reinforcement Learning
πΉ Supportμ μλ―Έ
- νλ₯ λΆν¬μμμ βμ§μ§ μ§ν© (support)β
- μμμ νλ₯ λ³μ \(x\)μ λνμ¬ μμμ νλ₯ λΆν¬ \(P(x)\)κ° μλ€κ³ ν λ, \(P(x) > 0\)μΈ λͺ¨λ \(x\)λ€μ μ§ν©μ μ§μ§ μ§ν©(support set)μ΄λΌκ³ νλ€.
- μ¦, νλ₯ μ μΌλ‘ λνλ κ°λ₯μ±μ΄ μλ κ°λ€μ λ²μλ₯Ό μλ―Ένλ€.
- λ°μ΄ν°μ
μμμ βμ§μ§(support) 곡κ°β
- RLμμλ λ°μ΄ν°μ μ΄ ν¬ν¨νλ (μν, νλ)μ $(s, a)$ μ λΆν¬λ₯Ό κ³ λ €ν λ λ°μ΄ν°μ μ μ‘΄μ¬νλ κ·Έλ¬ν μλ€μ΄ \(P(a \vert s) > 0\)μ λ§μ‘±νλ κ²λ€μ μ§ν©μ βsupport of the datasetβλΌκ³ μ μνλ€.
- λ°λλ‘, λ°μ΄ν°μ μμ κ΄μΈ‘λ μ μλ μλ€μ \(P(a \vert s) = 0\)μ΄λ―λ‘, λ°μ΄ν°μ μ§μ§ μ§ν© λ°κΉ₯(out-of-support)μ μ‘΄μ¬νλ μλ€μ΄ λλ€.
πΉ λ¬Έμ₯ μ μλ―Έ
- βTo avoid extrapolation error, we need to constrain the policy to select actions within the support of the dataset.β
- μ¦, βμΆλ‘ μ€λ₯(Extrapolation error)λ₯Ό λ°©μ§νκΈ° μν΄, μ μ± μ΄ λ°μ΄ν°μ μ ν¬ν¨λ νλμ λΆν¬ λ΄μμλ§ νλμ μ ννλλ‘ μ νν΄μΌ νλ€.β
- μ μ± (policy)μ΄ νμ΅ λ°μ΄ν°μ μμ κ΄μ°°λμ§ μμ νλμ μ ννμ§ μλλ‘ μ μ½ν΄μΌ νλ€λ μλ―Έλ€.
πΉ μ€μ μ μ© μμ
- μ€νλΌμΈ κ°ννμ΅μμλ μ μ± μ΄ λ°μ΄ν°μ μ μ‘΄μ¬νμ§ μλ νλμ μ ννλ©΄ μ λ’°ν μ μλ Q-valueκ° κ³μ°λ μ μλ€.
- μ΄λ₯Ό λ°©μ§νκΈ° μν΄, λ€μκ³Ό κ°μ λ°©λ²μ μ¬μ©νμ¬ μ μ±
μ λ°μ΄ν°μ
μ μ§μ§ μ§ν© μμ μ μ§νλ€:
- 1) Behavior Cloning (BC, νλ 볡μ )
- μ μ± μ΄ νλμ λ°μ΄ν°μ μμ μΆμΆλ νλκ³Ό κ°κΉλλ‘ μ λ.
- 2) KL-divergence λλ MMD(Maximum Mean Discrepancy) κΈ°λ° μ κ·ν
- μ μ± μ΄ λ°μ΄ν°μ κ³Ό λ€λ₯Έ νλμ μ ννλ € ν λ ν¨λν°λ₯Ό λΆκ³Ό.
- 3) Latent Action Space νμ© (μ: PLAS κΈ°λ²)
- νλμ μ§μ λͺ¨λΈλ§νμ§ μκ³ , λ°μ΄ν°μ λ΄μ νλ λΆν¬λ₯Ό μ μ§νλλ‘ μ μ¬ κ³΅κ°μμ μνλ§.
- 1) Behavior Cloning (BC, νλ 볡μ )
- μ¦, βsupport of the datasetβμ μ μ± μ΄ μ νν μ μλ βμμ ν νλ μ§ν©βμ΄λΌκ³ λ³Ό μ μλ€.