[RL] Offline Meta Reinforcement-Learning이란?

카테고리 없음

[RL] Offline Meta Reinforcement-Learning이란?

Prcnsi 2023. 7. 1. 21:49

728x90

이번 포스트에서는 최신 AI 논문에서 자주 등장하는 Offline Meta-Reinforcement-Learning에 대해 정리해 보았다.

이 Offline Meta-RL을 이해하기 위해서는 Meta-Learning, Online-Offline Learning에 대해서 이해가 필요해서 이를 정리하고, 추가적으로 Offline Meta-RL과 함께 자주 언급되는 Online Self-Supervision에 대해서도 정리해 보았다.

1. Meta-Learning

- Meta는 한 단계 더 위에 있는 것을 가리킬 때 사용한다. 예를 들어, meta-data는 데이터에 대한 정보이고, meta 인지는 스스로에 대해 인지하는 것을 뜻한다. 그래서, Meta-Learning은 학습하는 방법을 학습하는 것입니다.

즉 Task A에 대한 내용을 훈련시키고, 이 훈련시키는 과정을 학습해서 (Meta-Learning) Task B에 대해서도 별도의 학습 없이 구분할 수 있는 모델을 만들 수 있다. 이를 통해 범용 인공지능을 만드는데 더 가까이 다가갈 수 있다.

2. Online Learning vs Offline Learning

오프라인 학습은 대량의 훈련 데이터셋 전체를 활용해 모델을 학습시킨 뒤 배포하고 새로운 데이터가 생성되면 다시 전체 모델을 새롭게 학습해야 한다. 따라서 많은 시간과 자원이 소모될 수 있지만 정확도가 높다.

온라인 학습은 미니 배치 단위의 데이터로 모델을 학습시킨 뒤 배포하고 새로운 데이터가 생성되면 배포된 모델에 지속적으로 개선하여 학습하는 방식이다. 이는 주식투자와 같이 실시간 반영이 중요한 시스템에서 주로 쓰이며 주기적인 모니터링이 필요하다.

=> 가장 중요한 것은 앞으로 앞에 오프라인 학습이 붙으면, 전체 단위로 학습하여, 전체를 업데이트하는 방식이고, 온라인 학습이 붙으면 실시간 배치 단위로 데이터를 학습시키는 것을 의미하구나~ 를 아는 게 가장 중요합니다.

왜냐하면 앞으로도 계속 Online, Offline에서 Learning이 생략된 Online Self-Sueprvision과 같은 내용이 나오기 때문이죠.

이 Online Self Supervision도 Online (Learning)의 의미를 안다면 실시간으로 계속 업데이하는 방식으로 Self-Supervision을 수행하는구나를 알 수 있습니다.

3. Online Meta-Learning vs Offline Meta-Learning

온라인 메타학습이나, 오프라인 메타 학습이나 모델이 과제에 대한 최적의 알고리즘과 하이퍼파라미터를 예측하는 것은 동일합니다. 그러나, 이때 학습하는 방식이 전체를 한 번에 학습하느냐, 배치 단위로 계속 학습하느냐에 따라 온라인 메타학습과, 오프라인 메타학습이 나뉩니다.

온라인 메타학습은 메타 모델이 실시간으로 학습을 진행하여 새로운 학습 과제에 대한 최적의 알고리즘과 하이퍼파라미터 설정을 동적으로 업데이트하는 방식입니다. 이는 실시간으로 메타 모델을 개선할 수 있기 때문에, 유연성과 적응성이 높다.

메타 학습 시에, 메타 모델은 이전 학습 결과와 새로운 데이터를 조합하여 최적의 모델을 찾는 방법을 학습한다.

=> 실시간 메타 모델의 지속적인 개선, 제한된 데이터로 정확성 검토 필요

오프라인 메타학습은 사전에 수집된 대규모의 데이터를 기반으로 메타 모델을 훈련하는 방식이다. 이는 메타 모델을 학습하여 새로운 학습 과제에 대한 최적의 알고리즘과 하이퍼파라미터 설정을 예측한다. 오프라인 메타학습은 다양한 분야에서 일반화된 초기 설정을 제공하여 학습 과정의 시작점을 향상할 수 있다.

=> 대량의 사전 수집 데이터를 기반으로 초기 설정의 다양성과 정확성이 향상되지만, 실시간 적용이 어려울 수 있음

4. Offline Meta Reinforcement-Learning (RL)

일반적인 강화학습은 초기 Policy(정책)이 존재하지 않고, 에이전트가 환경과 상호작용하면서, 경험을 통해 최적의 정책을 학습한다. 그런데 이를 위해서는 비용이 많이 들거나 시간이 오래 든다. 이러한 문제를 해결하기 위해, 오프라인 메타 강화학습을 활용해, 새로운 학습과제에 대한 초기 정책(Policy)을 개선하고, 강화학습을 수행하면 학습 효율을 높일 수 있다.

앞서 오프라인 메타 학습은, 대량의 사전 수집 데이터를 기반으로 초기 설정의 다양성과 정확성을 향상시키는 것이라고 확인하였다. 그래서 오프라인 메타 강화학습이란, 대량의 사전 수집된 강화학습 데이터를 사용해 메타 모델의 정책을 학습(Meta-Train Policy) 하면서 이를 통해 과제에 대한 초기 Policy를 개선하는 방법이다.

이 오프라인 메타 강화학습의 순서는 아래 그림1과 같이 메타학습을 통해 초기 정책을 생성하고, 그 초기 정책을 기반으로 실제 RL를 수행해서, 성능을 향상시키는 것이 오프라인 메타 강화학습이 되고, 이 내용이 논문 제목에서 나온 오프라인 메타 강화학습의 의미이다.

5. Online Self-Supervision

Online Self-Supervision에서 Online은 Online Leaning이 생략된 것으로 실시간으로 데이터를 학습해서 모델을 업데이트하는 방식을 뜻합니다. 그렇다면 Self-Supervision이란 무엇일까요? Self-Supervision이란 자기 지도 학습으로 Label이 없는 Untagged data를 기반으로 학습데이터에 대해서 스스로 분류를 수행하는 비지도 학습의 일종입니다.

이러한 Self-Suprvision은 적은 Taggedd data로도 학습이 가능해서 학습 데이터 확보가 쉽고 모델의 정확도를 더 높일 수 있다. 이는 데이터 자체에서 자동으로 지도 신호를 생성하고 모델을 학습한다.

이 자기 지도 학습의 절차는 아래와 같다.

1) 비지도 표현 학습: 레이블되지 않은 대규모 데이터를 이용해 모델을 사전 훈련한다. 이 단계에서는 주로 자기 지도나 비지도 학습 알고리즘을 이용해 데이터의 구조와 특징을 학습한다. ex) GAN, 오토 인코더
2) 지도 신호(레이블) 생성: 사전 훈련 모델을 사용해서 입력 데이터의 관계, 유사성, 다른 특징을 나타내는 레이블을 생성함.
3) 모델 업데이트: 생성한 레이블을 사용해 사전 모델을 업데이트해서 학습 과정에서 사용됨.
4) 반복: 위 단계를 반복해 모델을 계속 업데이트하고 개선해서, 모델을 더욱 정교하게 학습해 성능을 향상함

감사합니다:)

728x90