다양한 지형에서 Legged Robot이 이동하는 것은 어려운 문제이며, 이때 proprioception과 vision를 통한 정확한 환경 인지가 필수적이다. 그러나 고차원 시각 정보에서 직접 학습하는 것은 데이터 효율성이 낮고 복잡한 과정이 요구된다.
이를 해결하기 위해, 기존 연구에서는 privileged information를 활용한 teacher policy를 먼저 학습한 후, student policy가 시각 정보를 기반으로 teacher의 행동을 모방하는 방식을 사용. 하지만 이러한 imitation framework은 입력 간 정보 차이로 인해 student policy가 최적의 성능을 달성하지 못하는 문제가 있음
실제 동물들은 priviledged information을 알지 못한 상태에서도, 세계를 이해하는 능력을 바탕으로 다양한 지형을 직관적으로 이동하는 방법을 배움. 이러한 자연적 학습 방식에서 영감을 받아, World Model-based Perception 방법을 제안. WMP는 환경의 월드 모델을 구축하고, 이를 바탕으로 policy를 학습.
강화 학습은 최근 다양한 지형에서 Legged Robot의 이동을 학습하는 데 있어 큰 서오가를 거두었으며, 물리적 시뮬레이션에서 policy를 학습한 후 실제 환경으로 전이(sim to real transfer)하는 방식을 널리 사용한다. 이때 proprioception과 visual 정보를 입력으로 받아 각 관절에 필요한 Position이나 Effort 제어 값을 출력한다.
그러나 고해상도 픽셀 입력을 직접 사용하여, Reward Signal만으로 정책을 학습하는 것은 데이터 효율성이 매우 낮다. 또한 로봇이 전방 카메라를 사용할 경우, 앞으로 이동할 지형을 예측하기 위해 과거의 시각 정보를 기억해야 하는 추가적인 학습 난제가 발생한다. 이를 해결하기 위해, Priviledged Learning이 제안되었으며, Teacher Policy와 Student Policy로 분리된다.
하지만, Privileged Learning은 Student Policy의 Generalization Error로 인해 Teacher Policy의 행동을 완벽하게 복제하지 못하며, Privileged Information과 Visual Information의 gap이 클수록 성능 차이가 심화된다. 또한, Extra Information 필요하다. Teacher Policy는 학습 괒어에서 다양한 추가 정보를 필요로 하므로, 데이터 설계가 어렵고 노동집약적이다.
반면, 동물은 비정형 지형을 직관적으로 학습하며, 제한된 감각 정보만으로도 익숙하지 않은 환경에서 적절한 결정을내릴 수 있다. 인간을 포함한 동물들이 세계를 이해하는 Mental Model을 구축하여 환경을 예측한 능력을 갖추고 있기 때문
동물들은 행동을 수행할 때, 과거 정보를 활용하여 현재를 인지하고, 미ㅐ 감각 데이터를 예측하는 능력을 가지고 있다. 이러한 개념에서 영감을 받아, Model-based Reinforcement Learning이 제안되었다. MBRL 기법 기반의 Legged Locomotion은 거의 이뤄지지 않음
이 논문에서는 World Model Learning이 vision based legged robot locomotion에 도움이 될 수 있을지를 탐구한다. WMP라는 새로운 end-to-end 프레임워크를 제안한다.
WMP를 기존 최신 기법과 비교하여 다양한 지형에서 평가함. Teacher Policy는 유사한 최적 보상을 달성하였으며, Student Pilicy는 높은 성능을 기록하였다. Unitree A1 로봇 기반으로 진행. WMP는 World Model을 활용한 최초의 vision based legged robot locomotion으로 기존의 privileged learning이 가진 한계를 극복할 수 있는 패러다임을 제시
Legged Locomotion을 Partially observable markov Decision Process, POMDP)로 정의하며, 이과정을 다음과 같은 튜플로 표현
S: 상태 공간(State Space)
O: 관측 공간(Observation Space)
A: 행동 공간(Action Space)
T(st+1 | st, at): 상태 전이 확률(Transition Density)
시간 t에서 상태 st와 행동 at가 주어졌을 때, 다음 상태 st+1로 전이될 확률 분포
r(st, at): 보상 함수(Reward Function)
γ ∈ (0, 1): 할인 계수(Discount Factor)
RL의 목표는 Expected Return을 극대화하는 Optimal Policy n*을 찾는 것. 할인된 보상의 합을 최대로 만드는 정책을 학습하는 것을 목적
강화 학습에서는 일반적으로 전태 상태 st를 직접 관측할 수 있다고 가정하지만, 실제 환경에서는 센서의 한계로 인해 Partial Observation만 획득이 가능하다. 즉 로봇은 특정 시점 t에서 완전한 상태 st를 알 수 없으며, 오직 부분 관측값만을 활용할 수 있다.
자기 수용 감각 & Depth Image만 사용
반면, 시뮬레이션은 추가적인 Priviledged Information를 포함한 완전한 상태 st를 얻을 수 있다.
해당 섹션에서는 WMP(World Model-based Perception)을 소개한다. WMP는 고차원 센서 입력에서 유용한 정보를 추출하기 위해 World Model을 활용하는 End-to-End 프레임워크이다. 기존의 priviledged learning과 다르게, 단일 학습 단계에서 world model과 policy를 동시에 학습한다.
기존 연구에 따라, 이 논문에서는 Recurrent State-Space Model,RSSM 변형을 월드 모델 구조로 채택하였다. 하지만 시뮬레이션에서 depth image를 얻는 데 걸리는 계산 비용과, 실제 로봇에서 RSSM을 실행하는 데 걸리는 Time Cost를 고려하여 기존 RSSM 모델을 수정하여 정책보다 낮은 빈도로 월드 모델을 업데이트하도록 설계하였다.
RSSM은 매 k스텝마다 순환 상태 ht를 업데이트한다. 4가지 주요 컴포넌트로 구성된다.
순환 모델은 GRU 네트워크를 사용하여 구현되었으며, 깊이 이미지는 CNN, 자기수용 감각은 MLP을 활용하여 인코딩 및 디코딩을 수행
RSSM의 손실함수는 다음과 같으며, 재구성 손실항과 KL 정규화 항으로 구성된다.
재구성 손실항 : 후방 상태가 현재 관측값의 충분한 정보를 포함하도록 유도, 원래의 고차원 데이터를 잘 복원할 수 있도록 함
KL 정규화 : 후방 상태와 사전 상태 간의 KL Divergence를 최소화하여, 관측값이 없어도 미래 상태를 예측할 수 있도록 모델을 규제
Vision Based Locomotion에서 정책 학습은 Partial Observability 문제로 인해 어려움이 존재, 그러나 잘 학습된 월드 모델의 순환 상태는 충분한 정보를 포함하고 있어 미래 상태를 예측할 수 있다. 이는 실제 마르코프 상태에 가까운 정보를 제공한다는 점에서 중요한 의미를 가진다.
Legged Gym 코드 베이스 기반으로 실험 수행, IsaacGYM 시뮬레이터를 사용. 4096대의 Unitree A1 로봇 사용
6가지 지형에서 실험을 수행 (Slope, Stair, Gap, Climb, Crawl, Tilt)
난이도(Curriculum Learning)은 가장 쉬운 난이도에서 시작하며, 로봇이 지형을 통과하면 더 어려운 지형으로 이동, 목표 속도의 절반 이하로 이동하면 더 쉬운 지형으로 이동,
로봇의 행동 주기는 50hz / Depth image는 k 타임스텝마다 계산되며, 100ms 지연을 추가하여 sim-to-real 전이를 용이하게 함
물리적 파라미터 랜덤화를 통해 policy의 강건성을 높임
로봇의 관측값은 Proprioception과 depth image로 구성된다.
Proprioception은 총 45차원 (기본 속성 - 기본 각속도, 중력 벡터, 제어 명령, 관절 정보, 이전 행동)
Priviliged Information (시뮬레이터에서만) - Scandots, 발 접촉력, 랜덤화된 물리적 파라미터
Depth image - 로봇자기 중심 시야에서 촬영된 깊이 영상, 시야각 58 x 58
액션에서는 각 관절의 목표 위치를 지정한다.
로봇은 3차원의 속도 명령을 추적하도록 학습된다. 기존 연구에서는 경로를 따라 수동으로 웨이포인트를 설정해야하는 반면, 이 논문은 단순화된 속도 추적 보상을 사용하여 웨이포인트 설정을 최소화하였다.
AMP을 활용하여 로봇이 보다 자연스러운 움직임을 학습하도록 유도
이 논문에서는 다음 세가지 질문을 검증하는 것을 목표로 한다.
WMP의 성능을 검증하기 위해, RL 반환값과 속도 추적 오차(MSE)를 다양한 지형에서 측정
WMP의 월드 모델이 정책 학습에 기여하는 방식을 분석하기 위한 추가 실험 진행
WMP 및 기존 방법을 실제 A1 로봇에 적용하여 실험 수행
WMP는 Student Policy보다 훨씬 더 어려운 지형을 성공적으로 이동하며, Sim-to-Real 차이를 최소화하는 강력한 성능을 보임
conda create --name wmp python=3.8 -y
conda activate wmp
https://github.com/bytedance/WMP
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda create --name wmp python=3.8 -y
apt-get install build-essential --fix-missing
apt-get install ninja-build
pip install setuptools==59.5.0
pip install ruamel_yaml==0.17.4
apt install libgl1-mesa-glx -y
pip install opencv-contrib-python
git clone https://github.com/bytedance/WMP.git
pip install -r requirements.txt
# Train
python legged_gym/scripts/train.py --task=a1_amp --headless --sim_device=cuda:0
# Test
python legged_gym/scripts/play.py --task=a1_amp --sim_device=cuda:0 --terrain=climb
DWA(Dynamic Window Approach) 기법 정리 (0) | 2025.03.07 |
---|---|
Elevation Mapping Manual (1) | 2025.03.06 |
IsaacGYM - 22.04 설치 및 테스트 (0) | 2025.02.19 |
Isaac Gym & Isaac Lab 강화학습 관련 Survey (진행중) (1) | 2025.02.18 |
Isaac GYM 기반 Extreme Parkour with Legged Robots (0) | 2025.02.18 |