Support of The Dataset

Offline Reinforcement Learning

πŸ”Ή Support의 의미

  • ν™•λ₯  λΆ„ν¬μ—μ„œμ˜ β€œμ§€μ§€ μ§‘ν•© (support)”
    • μž„μ˜μ˜ ν™•λ₯  λ³€μˆ˜ \(x\)에 λŒ€ν•˜μ—¬ μž„μ˜μ˜ ν™•λ₯  뢄포 \(P(x)\)κ°€ μžˆλ‹€κ³  ν•  λ•Œ, \(P(x) > 0\)인 λͺ¨λ“  \(x\)λ“€μ˜ 집합을 μ§€μ§€ μ§‘ν•©(support set)이라고 ν•œλ‹€.
    • 즉, ν™•λ₯ μ μœΌλ‘œ λ‚˜νƒ€λ‚  κ°€λŠ₯성이 μžˆλŠ” κ°’λ“€μ˜ λ²”μœ„λ₯Ό μ˜λ―Έν•œλ‹€.
  • λ°μ΄ν„°μ…‹μ—μ„œμ˜ β€œμ§€μ§€(support) 곡간”
    • RLμ—μ„œλŠ” 데이터셋이 ν¬ν•¨ν•˜λŠ” (μƒνƒœ, 행동)의 $(s, a)$ 쌍 뢄포λ₯Ό κ³ λ €ν•  λ•Œ 데이터셋에 μ‘΄μž¬ν•˜λŠ” κ·ΈλŸ¬ν•œ μŒλ“€μ΄ \(P(a \vert s) > 0\)을 λ§Œμ‘±ν•˜λŠ” κ²ƒλ“€μ˜ 집합을 β€œsupport of the dataset”라고 μ •μ˜ν•œλ‹€.
    • λ°˜λŒ€λ‘œ, λ°μ΄ν„°μ…‹μ—μ„œ κ΄€μΈ‘λœ 적 μ—†λŠ” μŒλ“€μ€ \(P(a \vert s) = 0\)μ΄λ―€λ‘œ, λ°μ΄ν„°μ˜ μ§€μ§€ μ§‘ν•© λ°”κΉ₯(out-of-support)에 μ‘΄μž¬ν•˜λŠ” μŒλ“€μ΄ λœλ‹€.

πŸ”Ή λ¬Έμž₯ 속 의미

  • β€œTo avoid extrapolation error, we need to constrain the policy to select actions within the support of the dataset.”
    • 즉, β€œμΆ”λ‘  였λ₯˜(Extrapolation error)λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄, 정책이 데이터셋에 ν¬ν•¨λœ ν–‰λ™μ˜ 뢄포 λ‚΄μ—μ„œλ§Œ 행동을 μ„ νƒν•˜λ„λ‘ μ œν•œν•΄μ•Ό ν•œλ‹€.”
  • μ •μ±…(policy)이 ν•™μŠ΅ λ°μ΄ν„°μ…‹μ—μ„œ κ΄€μ°°λ˜μ§€ μ•Šμ€ 행동을 μ„ νƒν•˜μ§€ μ•Šλ„λ‘ μ œμ•½ν•΄μ•Ό ν•œλ‹€λŠ” μ˜λ―Έλ‹€.

πŸ”Ή μ‹€μ œ 적용 μ˜ˆμ‹œ

  • μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅μ—μ„œλŠ” 정책이 데이터셋에 μ‘΄μž¬ν•˜μ§€ μ•ŠλŠ” 행동을 μ„ νƒν•˜λ©΄ μ‹ λ’°ν•  수 μ—†λŠ” Q-valueκ°€ 계산될 수 μžˆλ‹€.
  • 이λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄, λ‹€μŒκ³Ό 같은 방법을 μ‚¬μš©ν•˜μ—¬ 정책을 λ°μ΄ν„°μ…‹μ˜ μ§€μ§€ μ§‘ν•© μ•ˆμ— μœ μ§€ν•œλ‹€:
    • 1) Behavior Cloning (BC, 행동 볡제)
      • 정책이 행동을 λ°μ΄ν„°μ…‹μ—μ„œ μΆ”μΆœλœ 행동과 가깝도둝 μœ λ„.
    • 2) KL-divergence λ˜λŠ” MMD(Maximum Mean Discrepancy) 기반 μ •κ·œν™”
      • 정책이 데이터셋과 λ‹€λ₯Έ 행동을 μ„ νƒν•˜λ € ν•  λ•Œ νŒ¨λ„ν‹°λ₯Ό λΆ€κ³Ό.
    • 3) Latent Action Space ν™œμš© (예: PLAS 기법)
      • 행동을 직접 λͺ¨λΈλ§ν•˜μ§€ μ•Šκ³ , 데이터셋 λ‚΄μ˜ 행동 뢄포λ₯Ό μœ μ§€ν•˜λ„λ‘ 잠재 κ³΅κ°„μ—μ„œ μƒ˜ν”Œλ§.
  • 즉, β€œsupport of the dataset”은 정책이 선택할 수 μžˆλŠ” β€œμ•ˆμ „ν•œ 행동 집합”이라고 λ³Ό 수 μžˆλ‹€.