Copycat 문제 | Optreal

Copycat 문제란?

Copycat 문제는 “속임수 학습” 문제라고 볼 수 있다.

어떤 학생이 선생님의 설명을 듣고 따라 해야 하는 숙제가 있다고 가정하자. 이 학생이 선생님의 말을 진정으로 이해하고 따라 하는 것이 아니라, 단순히 직전에 한 말을 그대로 따라 하기만 한다면 어떨까?
이러한 방식은 즉각적인 반응을 보일 수는 있지만, 왜 그렇게 말해야 하는지, 어떤 상황에서 그 말을 해야 하는지는 전혀 학습되지 않는다.
Copycat 문제는 모방 학습(Imitation Learning, IL)에서 발생하는 대표적인 인과적 혼동(Causal Confusion)문제 중 하나이다.
에이전트는 환경의 동역학(dynamics)을 이해하려 하지 않고, 단순히 전문가의 과거 행동을 복사하는 방식으로 학습할 가능성이 높아진다.
이러한 문제는 복잡한 환경에서 일반화 성능을 저하시킬 뿐만 아니라, 안전에 영향을 미치는 중요한 작업에서도 오류를 유발할 수 있다.

예제 1: 수학 문제 풀기

선생님이 칠판에 수학 문제를 풀면서 “3 + 5 = 8”이라고 설명했다고 가정하자.
만약 학생이 진정으로 수학의 원리를 이해했다면, 같은 방법을 활용하여 4 + 6과 같은 새로운 문제도 해결할 수 있어야 한다.
그러나 학생이 단순히 칠판에 적힌 답만을 외워서 “3 + 5는 무조건 8”이라고만 기억한다면, 새로운 문제가 제시되었을 때 해결할 수 없게 된다.

이것이 바로 Copycat 문제이다.

즉, 원리를 이해하지 않고 단순히 따라 하기만 하면, 새로운 상황에서 이를 적용할 수 없다는 점이 문제로 작용한다.

예제 2: 자율주행 자동차

자율주행 자동차가 운전자의 행동을 모방 학습한다고 가정해보자.

운전자가 항상 신호등이 초록색일 때만 출발했다고 하자.
그러나 자율주행 자동차가 신호등의 색을 인식하는 것이 아니라, 단순히 “운전자가 언제 출발했는지”만 학습했다면?
이러한 방식으로 학습된 자동차는 새로운 도로 상황이나 다른 신호등 앞에서는 올바르게 출발해야 할지 여부를 판단하지 못할 가능성이 높다.
또한 다른 예제로서, 자율 주행 차량에서 전문가가 이전에 좌회전을 했고, 현재도 좌회전할 가능성이 높은 경우, 에이전트는 주변 환경 정보를 고려하지 않고 그저 이전 행동을 따라하는 방식으로 정책을 학습할 수 있다.

이것도 Copycat 문제이다.

즉, 상황을 보고 스스로 판단하는 것이 아니라, 단순히 과거 행동을 기계적으로 따라 하기 때문에 발생하는 문제이다.

Copycat 문제를 해결하는 방법의 기본 아이디어

Copycat 문제를 해결하기 위해서는 단순히 따라 하는 것이 아니라, 행동의 원인을 이해하는 학습 방식이 필요하다.

1. 잘못된 학습 습관을 제거하기

단순히 따라 하는 것이 아니라, 왜 해당 행동이 필요한지에 대한 분석이 이루어져야 한다.

2. 필요한 정보만 학습하기

자율주행 자동차의 예시에서 단순히 “운전자가 출발했다”는 정보를 학습하는 것이 아니라,
“신호등이 초록색일 때 출발해야 한다”는 규칙을 학습하도록 유도해야 한다.

3. 실제 환경에서 연습하기

다양한 상황에서 직접 경험하도록 하여, 새로운 문제에서도 스스로 판단할 수 있도록 학습을 유도해야 한다.

Copycat 문제를 해결하는 전문적인 방법

Copycat 문제를 해결하기 위해, 연구자들은 전문가 행동을 단순 복사하지 않고, 환경을 이해하는 방식으로 학습할 수 있도록 유도하는 기법을 개발했다.

1. 적대적 학습 기반 피처 학습 (Adversarial Feature Learning)

Wen et al. [1]은 Copycat 문제를 해결하기 위해 적대적 학습(adversarial learning)을 활용하였다.
핵심 아이디어:
- 특정 특징(feature representation)을 학습할 때, 전문가의 과거 행동(previous actions)에 대한 정보를 제거하고,
- 올바른 다음 행동(next action)을 예측하는 데 필요한 정보만 유지하도록 함.
이를 통해, 에이전트가 환경을 직접 분석하고 판단하는 능력을 가지도록 유도하였다.

2. 메모리 기반 인과 구조 학습 (Memory-based Causal Structure Learning)

Chuang et al. [2]은 Copycat 문제 해결 방법을 고차원 이미지 관찰(high-dimensional image observations)으로 확장하였다.
메모리 추출 모듈(memory extraction module)을 사용하여:
- 과거 관찰(observation history)에서 필요한 정보만 추출하고,
- 이전 행동(previous actions)과 관련된 불필요한 정보(nuisance correlates)를 제거하였다.
이를 통해, 에이전트가 단순한 복사가 아닌, 실제로 환경을 이해하는 방식으로 정책을 학습하도록 유도하였다.

3. 환경 동역학 모델 활용 (Dynamics Model-Based Training)

Copycat 문제를 방지하려면 에이전트가 환경의 동역학을 학습하는 과정이 포함되어야 한다.
이를 위해:
- 강화 학습(Reinforcement Learning, RL) 기반 접근법을 적용하여 환경과 상호작용하면서 학습하도록 함.
- 보상 함수 설계(Reward Function Design)를 통해, 전문가 행동을 단순히 따라 하는 것이 아니라, 환경에 적응하는 행동을 장려하는 방식으로 유도할 수 있음.

결론

Copycat 문제는 진정한 원리를 학습하지 않고, 과거 행동을 단순히 복사하는 과정에서 발생하는 문제이다.
이를 해결하기 위해서는 과거 행동을 그대로 따라 하는 것이 아니라, 행동의 원인과 결과(인과 관계)를 학습하는 방식이 필요하다.