로보틱스 연구일지

[Robotics] SO(2)/SO(3) 회전행렬, 왜 이렇게 생겼을까? — 기저 벡터 하나로 전부 유도하기

Prcnsi — Sat, 11 Apr 2026 19:47:04 +0900

들어가기에 앞서, 회전의 양은 각도 θ 하나로 표현할 수 있는데 왜 굳이 회전행렬을 쓸까?

그 이유는 θ는 "얼마나 돌렸는지"만 알려줄 뿐, 벡터를 실제로 회전시키는 연산 자체를 담고 있지 않기 때문이다.

벡터 v를 θ만큼 회전시킨 결과 v'을 구하려면, θ만으로는 매번 원래 각도를 구하고 삼각함수를 다시 풀어야 한다.

하지만 회전행렬이 있으면 $v' = R \cdot v$, 행렬곱 한 번이면 끝이다. 더 중요한 강점은 합성(composition)이다. 회전 A를 한 다음 회전 B를 하고 싶으면 $B \cdot A$로 합성된다. 역변환은 $R^T$이다. 이 연산 규칙이 2D든 3D든, 심지어 더 높은 차원이든 동일한 문법으로 동작한다.

반면 각도(θ) 기반 표현은 차원이 올라가면 합성 연산이 깨진다. SO(2)에서는 $\theta_1 + \theta_2$로 두 회전의 합성이 되지만, SO(3)에서는 Euler angle 세 개끼리 단순 덧셈으로 합성할 수가 없다. Euler angle 합성 공식 자체가 매우 복잡해지고, gimbal lock이라는 특이점 문제까지 발생하기 때문이다.

하지만 행렬 표현은 차원에 무관하게 동일하게 적용이 가능하기 때문에 이런 문제가 없다.

회전행렬이란?

회전행렬(Rotation Matrix)은 3차원 공간에서 물체나 좌표계의 회전을 표현하는 데 사용되는 직교행렬이다.
회전행렬 R은 기준 좌표계에서 회전된 좌표계로의 벡터 변환 역할을 하며, 행렬의 행과 열은 이 두 좌표계의 축들이 서로 어떻게 정렬되어 있는지를 나타낸다.

1. 행과 열의 의미

열(column)의 의미: 회전행렬의 각 열은 "새로운 좌표계의 단위 축 벡터가 기준 좌표계에서 어떻게 보이는지"를 나타낸다. 즉, 각 기저 벡터가 회전 후 어디로 가는지를 직접 보여준다.
행(row)의 의미: 회전행렬의 각 행은 "기준 좌표계의 단위 축벡터가 새로운 좌표계에서 어떻게 보이는지"를 나타낸다. 즉, 출력의 각 성분이 입력 좌표의 어떤 선형결합으로 만들어지는지를 보여준다.

실무에서는 열로 읽는 것이 훨씬 직관적이다. "이 회전이 각 축을 어디로 보내는가"가 바로 보이기 때문이다.

Special Orthogonal Group — SO(2)

1. 정의

SO(2)는 2D 평면에서 원점을 중심으로 한 모든 회전의 집합으로, 자유도(DOF) = 1. 각도 θ 하나로 완전히 결정된다.

$$SO(2) = \{ R \in \mathbb{R}^{2 \times 2} \mid R^T R = I, \; \det(R) = 1 \}$$

2. 기하학적 유도

회전행렬의 각 원소를 외울 필요 없이, 하나의 원리로 전부 유도할 수 있다:
> 행렬의 각 열 = 해당 기저 벡터가 회전 후 도착하는 위치

첫째 열 — $e_1 = [1, 0]$을 θ만큼 반시계 회전하면, $e_1$은 단위원 위의 0° 위치에 있다. θ만큼 반시계로 회전하면 단위원 위에서 θ 위치로 이동한다. 삼각함수의 정의에 의해, 그 좌표는 다음과 같다: 이것이 행렬의 첫째 열이 된다.
$$e_1 \rightarrow (\cos\theta, \; \sin\theta)$$

둘째 열 — $e_2 = [0, 1]$을 θ만큼 반시계 회전하면, $e_2$는 단위원 위의 90° 위치에 있다. θ만큼 더 회전하면 (90° + θ) 위치로 이동하며, 그 좌표는 다음과 같다: 이것이 행렬의 둘째 열이 된다.
$$e_2 \rightarrow (\cos(90°+\theta), \; \sin(90°+\theta)) = (-\sin\theta, \; \cos\theta)$$

그래서 결과적으로, 두 열벡터를 나란히 세우면 SO(2) 회전행렬이 완성된다: 각 원소는 단위원 위에서 기저 벡터를 θ만큼 돌렸을 때의 좌표, 즉 삼각함수의 정의 그 자체에서 나온 것이다.
$$R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}$$

3. 주요 성질

합성: $R(\alpha) \cdot R(\beta) = R(\alpha + \beta)$. 두 회전의 합성은 행렬곱이다.
역변환: $R(\theta)^{-1} = R(-\theta) = R(\theta)^T$. 직교행렬이므로 전치가 곧 역행렬이다.
교환법칙 성립: $R(\alpha) \cdot R(\beta) = R(\beta) \cdot R(\alpha)$. SO(2)는 commutative하다 — 이는 SO(3)와의 중요한 차이다.

Special Orthogonal Group — SO(3)

1. 정의
SO(3)는 3D 공간에서 원점을 중심으로 한 모든 회전의 집합으로, 3×3 행렬의 파라미터 9개에서 $R^T R = I$ 조건이 6개의 독립 제약을 주므로, DOF = 9 − 6 = **3**이다.
$$SO(3) = \{ R \in \mathbb{R}^{3 \times 3} \mid R^T R = I, \; \det(R) = 1 \}$$

2. SO(2)와의 핵심 차이
SO(2)는 θ 하나로 유일하게 결정되는 단일 표준형이 존재했다. 그러나 SO(3)는 DOF = 3이기 때문에, "어떤 축을 중심으로 얼마나 회전하느냐"를 지정해야 한다. 따라서 **단일 θ 하나로 쓸 수 있는 보편적인 3×3 행렬 형태가 존재하지 않으며**, 대신 세 가지 기본 축 회전($R_x, R_y, R_z$)이 빌딩 블록이 된다.

또한 SO(3)는 **non-commutative(비가환)**이다. x축 90° 회전 후 z축 90° 회전 ≠ z축 90° 회전 후 x축 90° 회전이다. 이는 로봇 제어에서 회전 순서가 결과를 바꾼다는 실질적 의미를 가진다.

3. 기본 축 회전행렬 유도
SO(2)와 동일한 원리를 적용한다: 각 열 = 해당 기저 벡터가 회전 후 도착하는 위치.

$R_z(\theta)$ — z축 회전: xy 평면에서 회전, z축이 고정되고, x축과 y축이 xy 평면에서 회전한다. 양의 회전 방향은 x → y이다.

$$R_z(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta & 0 \\ \sin\theta & \cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix}$$

$R_x(\theta)$ — x축 회전: yz 평면에서 회전, x축이 고정되고, y축과 z축이 yz 평면에서 회전한다. 양의 회전 방향은 y → z이다.

$$R_x(\theta) = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix}$$

$R_y(\theta)$ — y축 회전: xz 평면에서 회전, y축이 고정되고, x축과 z축이 xz 평면에서 회전한다. 양의 회전 방향은 z → x이다.

$$R_y(\theta) = \begin{bmatrix} \cos\theta & 0 & \sin\theta \\ 0 & 1 & 0 \\ -\sin\theta & 0 & \cos\theta \end{bmatrix}$$

Jetson orin nx 다운그레이드하는 방법, Recovery mode 진입 방법

Prcnsi — Thu, 4 Dec 2025 09:48:37 +0900

nvidia daneLLL씨의 답변에 따라 우선 저 핀들을 찾아줍니다.

https://forums.developer.nvidia.com/t/unable-to-enter-recovery-mode-on-jetson-orin-nx/322718

Jetson orin nx를 다운그레이드하기 위해서는 먼저 뚜껑을 열고 요부분을 찾아줍니다.

여기서 위에서 두번째 세번째 핀 을 누르면 된다네요. 저는 저 Force Recovery (FC REC) 글씨가 안보여서 쿨링팬도 따봤는데 굳이 안 따도 됩니다.

다운그레이드 순서

Jetson 전원을 빼줍니다
저 두핀(GND, REC)을 동시에 누른 상태로 전원을 연결하고 3초정도 계속 눌러줍니다.
(option) 연결된 모니터에서 화면이 안 나오고, 쿨링팬이 멈춘다면 성공적으로 recovery 모드에 들어간 것입니다.
20.04 이하 버전의 우분투가 설치된 호스트 pc에 jetson을 연결해줍니다. (이때 사진에 보이는 jetson의 c포트와, usb 3.0을 호스트 pc에 연결하는 것을 권장드립니다)
host pc에서 lsusb에서 Nvidia corp가 인식되면 거의 다왔습니다
host pc에서 nvidia sdk manager에 들어가 연결한 jetson과 다운그레이드할 버전을 선택하고 step2로 넘어갑니다
step2에서 오른쪽 아래 체크박스(Download now Install later)를 꼭 선택 해제해줍니다.
그리고 새 ubuntu의 계정명과 비번을 입력하고, flash를 누르면 다운그레이드가 시작됩니다.

이상입니다:)

모델 학습용 데이터셋 vs 벤치마크 데이터셋

Prcnsi — Sun, 11 May 2025 20:20:30 +0900

결론 요약

모델 학습용 데이터셋: 모델을 새롭게 학습시키기 위한 다양한 센서, 레이블을 포함한 데이터셋
벤치마크 데이터셋: 기존 여러 모델들의 성능을 공정하게 평가하기 위한 표준 실험 환경을 제공하기 위한 데이터셋

네비게이션 task에서는 다음과 같이 해석 가능:

모델 학습용 데이터셋:

목적: 모델을 처음부터 학습시키기 위한 데이터셋, 로봇이나 AI 에이전트가 스스로 목표를 찾고, 경로를 탐색할 수 있도록 훈련
특징:
- 다양한 센서 입력(RGB 이미지, LiDAR 등)과 정답 레이블(예: 목표 객체의 위치, 경로)을 제공, 이렇게 센서 데이터와 정답이 동기화(synced)되어 있어서 모델이 정확히 무엇을 해야 하는지 학습 가능.
- 예를 들어, Object Goal Navigation 데이터셋이면, 목표 객체의 위치를 정확히 알아야 하므로, RGB 이미지와 정답 경로를 함께 제공하여 모델이 목표 객체를 찾는 경로를 학습 가능.
- 데이터의 다양성(예: 다양한 환경, 다양한 출발 위치 등)과 정답 경로가 중요함. 모델이 어떤 환경에서든 잘 동작할 수 있도록 많은 variation을 포함한 데이터가 필요.

벤치마크 평가용 데이터셋:

목적: 이미 학습된 모델의 성능을 비교하거나 성능을 평가하기 위한 데이터셋
특징:
- 고정된 시나리오와 표준화된 실험 환경을 제공, 여러 연구자가 동일한 조건에서 모델을 테스트하고 성능 비교 가능
- 시뮬레이션 기반으로 제공되는 경우가 많음.
- 테스트 케이스가 다양하게 준비되어 있으며, 연구자는 기존 모델이 어떤 환경에서도 잘 동작하는지 성능을 평가 가능

차이점:

학습용 데이터셋은 모델이 처음부터 학습할 수 있도록, 센서 입력과 정답이 잘 정리된 대용량 데이터를 제공
반면 벤치마크 평가용 데이터셋은 이미 학습된 모델의 성능을 비교하고 성능 평가를 위한 표준화된 환경을 제공, 이 경우, 모델이 어떤 환경에서든 잘 동작하는지 비교할 수 있도록 고정된 환경에서 테스트가 이루어짐.

감사합니다.

Object Goal Navigation 연구의 주요 목적과 데이터셋 (Gibson, MP3D, HM3D)

Prcnsi — Sun, 11 May 2025 20:09:57 +0900

Object Goal Navigation(OGN) 연구의 주요 목적

OGN의 최근 연구들은 모두 1) 어떻게 프론티어를 선정할 것인지와, 2) 어떻게 목표 위치를 예측할 것인지에 초점을 두고 있다.

목적지까지 경로를 찾기 위해 우선적으로 이동할 프론티어(frontier)를 선정
목표 위치를 예측

Object Goal Navigation(OGN) 최신 연구 동향

크게 지도 기반 프론티어 탐색, 시맨틱 지도 예측 및 추론, 학습 기반(RL/representation learning), 계층적/장면-그래프 탐색으로 나누어진다.

분류	내용
지도 기반 프론티어 탐색	▪️에이전트가 지역 지도를 구축하여 미지 영역의 경계(frontier)를 탐색 ▪️시맨틱 정보를 이용해 프론티어(목표 객체)가 있을 법한 위치를 추론하여 이동
시맨틱 지도 예측 및 추론	▪️ 환경에 대한 사전 지식과 과거 탐색으로 얻은 관측으로, 목표 객체가 있을 법한 위치를 예측 예시) 현재까지 관측된 내용을 기반으로 나머지 지도의 영역을 예측 => 목적지로 이동
학습 기반 (강화학습/표현학습)	▪️ 강화학습 기반: 명시적인 지도 구축 대신 reward/penalty를 통해 경험을 통한 학습 ▪️ 표현학습 기반: 시맨틱 정보를 활용하여 목적지/프론티어를 예측
계층적/장면-그래프(scene-graph)	▪️공간적 객체의 관계를 장면 그래프(scene-graph)로 표현해, 탐색 범위를 좁히고, 효율 높임 예시) "보통 침대는 침실에 있다"와 같은 지식을 활용해, 목표 객체가 있는 방의 확률을 추론

Object Goal Navigation(OGN) 연구에 주로 쓰이는 데이터셋

모두 실제 실내 환경을 3D로 스캔한 시뮬레이션 데이터셋으로, 시뮬레이션 환경, 시맨틱 레이블, 객체 위치가 주어져서 연구자들이 출발위치와 목표 객체를 설정 흐, 그에 맞게 다양한 연구를 수행 가능.

데이터셋명	정보
Gibson	물리 기반 시뮬레이션 실험 가능(충돌 처리, 동적 물체 상호작용), 시맨틱 맵, 정답 레이블(객체 위치) (+PyBullet 실험)
MP3D	각 환경에 대한 RGB 이미지, 시맨틱 맵, 정답 레이블(객체 위치)
HM3D	다양한 객체 포함, 시맨틱 맵, 정답 레이블(객체 위치)

Gibson dataset 예

Downstream task에서 Pretraining model의 Fine-tuning이란? (vs. frozen)

Prcnsi — Sun, 27 Apr 2025 20:19:44 +0900

Fine-tuning은 Pretraining 이후, 기존 backbone(encoder) weight를 그대로 가져와서, downstream task를 학습할 때 weight를 계속 업데이트하는 과정이다.

그래서 Pretraining method를 제안하는 논문은, 그 방법론의 우수함을 입증하기 위해, 그 방법에 따라 생성한 pretrained weight를 backbone으로 다른 모델의 성능 개선 정도를 평가한다.

Pretrained model을 사용한 frozen, fine-tuning 실험이란 무엇인가..

Downstream task란 이렇게 학습한 모델 파라미터를 통해 다른 작업(e.g., navigation, classification)을 수행하는 것을 뜻한다.

이러한 Downstream task에서 간혹 pretrained weight를 backbone으로 받은 다른 모델에서 frozen, fine-tuning 실험을 한다.

Mohammad et al, VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training, arXiv

Downstream task에서 Frozen과 Fine-tuned 실험이란?

Frozen: backbone weight를 고정, 해당 task data로 추가 가중치 업데이트 안 함
Fine-tuned: backbone weight를 초기값으로 설정 후, 해당 task data로 지속적인 가중치 업데이트를 통해 해당 task에 fine-tuning 된 모델을 생성 (== base model을 기반으로 깔되, 해당 task에 더 적합하도록 추가 학습시킨 모델을 생성)

예시 테이블에서, VANP extracted feature z_past는 downstream task에서 weight를 frozen 했을 때만 그대로 사용되고, fine-tuning시에는 weight가 업데이트되어서 pretraining 단계에서 뽑힌 context token z_past와는 다른 값임.

+backbone 모델과 downstream 모델 학습 시 적절한 learning rate

Navigation에서 context token(ctx)만으로 trajectory를 예측하는 이유 (+ pretext task)

Prcnsi — Sun, 27 Apr 2025 16:36:09 +0900

최근 VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training라는 논문을 읽었다.

간략하게는 Navigation시 어디를 집중해서 볼지 제안한 논문이다.

https://arxiv.org/abs/2403.08109

VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training

Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models pre-trained on vision tasks, which prioritiz

arxiv.org

Navigation에서 context token(ctx)만으로 trajectory를 예측하는 이유

다음 framework는 왼쪽 부분에서 navigation relevant feature를 추출하고, 오른쪽 CNN(ResNet50) 블록에서 아까 추출한 feature를 pretrained weight로 받아와서 transformer 인코더에 입력으로 넣는다. 마지막으로 transformer를 통과한 마지막 context token(ctx)만을 이용하여 최종 trajectory를 예측한다.

(참고로 저 CNN - ResNet50에서 마지막 layer는 flatten해서 transformer에 인코더로 들어감 => 이때 flatten 해서 공간적 정보를 일부 잃지만, transformer의 positional encoding으로 어느 정도 보완 가능)

ctx는 BERT에서 나온 개념으로 "전체 시퀀스에 대한 요약 정보"이다.

BERT에서 ctx는

BERT에서는 입력 문장 앞에 [CLS] token을 추가
이 [CLS] token은 처음에는 랜덤한 임베딩
Transformer 층을 거치는 동안 [CLS] token은 다른 모든 단어들과 attention하면서 → 문장의 전체 의미를 요약하게 학습

VANP에서 context token은 이 [CLS] token 개념을 그대로 가져와서 Transformer에 image patch token을 입력하기 전에 ctx 토큰을 맨 앞에 추가해서 학습시킴.

하지만 각 이미지 patch token들도 각각 전체 시퀀스에 대한 요약 정보를 담고 있는데, ctx을 추가하는 이유는?

Transformer 안의 각 patch token은 "자기 자신의 지역적 의미 + 주변 context" 만을 반영
반면, ctx는 "내가 전체를 바라보는 대표자"로서 학습되기 때문에, → 전 범위의 요약된 의미를 집중적으로 가지게 됨
전체 입력 정보를 요약한 벡터로 간단하고 효율적으로 downstream task(분류, 경로 예측 등)를 처리하기 위해
- MLP는 여러 feature를 일일이 입력받는 것보다 하나의 통합 벡터(ctx)만 받아서 출력하는 게 더 효율적

이러한 이유로 transformer에서 하나의 context token (CLS token)만 사용해서, 예측을 하는 구조는 다른 모델에서도 종종 사용됨.

Self-supervised learning에서 Pretext task란?

Self-supervised learning에서 pretext task란 본래 최종 목적과는 다른 보조 task를 설정 후 이를 푸는 과정에서 유용한 feature를 뽑아내도록 학습시킴.

VANP 논문에서 pretext task: past observation, future action, goal image를 활용해서 서로 정보량이 최대(mutual informatio maximization)가 되도록 학습시키는 것

감사합니다.

[일상] 비프 부르기뇽같은 사람

Prcnsi — Sat, 19 Apr 2025 14:54:15 +0900

얼마 전 혼자 유럽여행을 다녀왔다.

일주일 만에 비행기티켓 끊고 떠난 여행이라 P의 여행 그 자체였따

하지만, 그때 깨달은 몇 가지 점들이 저에게 꽤나 긍정적인 영향을 끼쳤던 것 같다.

그중 가장 크게 느낀 점은 제목 그대로이다.

뷔프 부르기뇽은 프랑스 버간디 지역에서 나오는 레드와인으로 만들어진 비프스튜이다.

사진으로는 커 보이지만 실제로는 성인 여성 손바닥 하나 정도의 크기로 굉장히 작다.

처음에는 작다고 생각했지만 먹고 나서 생각은 온전히 바뀌었습니다.

작지만 알차다..!

알차다라 함은, 제가 먹어본 것 중 가장 부드러웠던 감자와 당근부터, 생각보다 많았고 부드러웠던 고기, 그리고 그것들의 조화가 군더더기 없이 완벽했다.

이 비프 부르기뇽 한 그릇에는 양을 불리기 위한 군더더기 재료는 하나도 없고, 그에 준하는 양의 고기가 들어 있었다.

그래서 크기는 작지만, 제가 먹어본 것 중 가장 완벽한 비프스튜였다.

이건 같이 먹었던 양파 수프다.

여기도 감동이 있었다.

제가 먹은 치즈 중 가장 찐하고 풍미가 가득한 모짜렐라 치즈, 따뜻한 양파 수프 안에 반쯤은 절여지고, 반쯤은 아직 바삭함이 남아 있는 바게트 조각, 완벽했다.

그래서 느낀 점이 저도 비프 부르기뇽 같이 군더더기 없고, 겉모습은 화려하지 않더라도 알찬 그런 사람이 되고 싶다는 생각이 들었다. 조금 더 나아가서 앞으로 제가 하게 될 research도 이렇게 알찬 work를 만들어내는 사람이 되고 싶어 졌다.

한 입에 감동이 있던 비프 부르기뇽처럼, 제가 앞으로 쓰게 될 논문도 어디 좋은 학회에 논문을 몇 편 냈고 하는 그런 피상적인 얘기보단, 사람들이 제 논문을 읽었을 때 그들에게 울림을 줄 수 있는 그런 논문이 쓰고 싶다는 생각이 더 굳어졌다.

강화학습 개념과 Markov Decision Process란? (Feat. 강화학습 스터디)

Prcnsi — Fri, 4 Aug 2023 17:56:36 +0900

안녕하세요~. 다들 잘 지내고 계신가요? 블로그로 찾아뵙는 것은 오랜만이네요:)

새내기의 개발일지로 시작한 블로그가 어느덧 3년차에 접어들고 있네요:)

한동안 바쁘다는 핑계로 포스팅하지 못한 글들이 수두룩한데, 앞으로는 더 열심히 블로그로 정보를 공유하려고 합니다.

모르는 점 있으면 댓글 달아주세요 !!

저는 이번 방학에 강화학습 스터디를 개최해서 일주일에 한 번씩 진행하고 있는데, 제가 스터디하면서 정리했던 내용을 같이 공유드립니다. 참고서적으로 사용한 강화학습 책과 책 소개에 대해서는 게시글 제일 아래에 기재해 두었으니 궁금하신 분들은 참고 바랍니다. 자세한 내용은 다음 깃허브 레포에서 확인해 주세요!

https://github.com/Prcnsi/Reinforcement-Study

GitHub - Prcnsi/Reinforcement-Study: Study of the Reinforement theory and practice Study

Study of the Reinforement theory and practice Study - Prcnsi/Reinforcement-Study

github.com

강화학습(Reinforcement Learning)이란?

강화학습이란 AI의 분류 중 머신러닝(기계 학습)에 속하는 방법으로, 강화학습의 강화(Reinforment)는 시행착오를 통해 학습하는 방법입니다. 이는 행동심리학에서 영향을 받아서, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식해서 선택 가능한 행동들 중 누적 보상을 최대화하는 방향으로 학습하는 방법입니다. 아래 그림과 같이 머신러닝 안의 한 카테고리가 강화학습입니다.

가장 대표적인 예시로는 DeepMind에서도 강화학습을 사용하여 학습한 것으로 유명하죠? 또한 ChatGPT 또한 인간 피드백형 강화학습 (RLHF)를 중심으로 학습시켰다고 합니다. 이 외에도 강화학습은 로보틱스, 자율주행, 주식투자 (퀀트 투자) 다방면에서 활발히 사용되고, 연구되고 있다.

Google Deepmind AlphGo

강화학습의 목표

강화학습의 목표는 최종 누적 보상(Reward)의 합을 최대화하는 것을 목표로 합니다. 실제 현실세계에서도 행동 주체인 우리 사람(Agent)도 여러 가지 선택을 하고, 목표를 세우고 그에 맞게 행동을 합니다. 이때 중요한 것은 단기 보상을 최대화하는 것이 아닌 최종 누적 합, 즉 마지막 시점에서 목표에 대한 보상의 최종합을 최대화하는 것이 목표입니다.

예시로 시험기간에 한 학생이, 시험을 잘 치는 것이 목표인데, 이 학생이 단기 보상을 최대화하기 위해, 공부를 하지 않고 잠을 자고 Youtube을 보는 등의 행동(Action)을 하면 단기 보상(Reward)은 최대화되겠지만 결국 "시험을 잘 친다"는 목표를 이루는 데 있어서는 결국 보상(피드백, Reward)의 누적 합은 줄어드는 것과 같이 강화학습은 여러 가지 연속적인 선택에 대한 보상의 최종 누적 합을 최대로 하는 것을 목표로 한다.

그래서 강화학습은 "순차적인 행동 결정 문제"라고도 한다. 즉, 순차적으로 행동 주체가 할 행동을 선택해야 하는 것이다.

이러한 순차적인 행동 결정 문제를 수학적으로 모델링한 것을 마르코프 결정 프로세스(Markov Decision Process, MDP)라고 부른다!

https://kr.mathworks.com/discovery/reinforcement-learning.html

강화학습 기본 용어

강화학습 용어는 매우 많지만, 가장 기본적인 용어는 아래와 같다.

모두 알아야 하는 용어이지만 이때 더 중요한 것은 Agent, Action, Reward, State, Policy가 있다.

우리가 일반적으로 어떤 행동을 말할 때는, '밥을 먹었다', '공부를 했다'와 같이 동작(Action)에 대해서만 말하지만 강화학습에서는 상태(State)와 행동(Action)을 같이 기억하고 표현하는 것이 중요하다. "배고픈 상태에서 밥을 먹었다", "배부른 상태에서 밥을 먹었다"와 같이 강화학습에서는 어떤 State에서 어떤 Action을 했는지가 매우 중요하기 때문에 이런 State, Action을 붙여서 기억할 필요가 있다.

Agent: 의사결정자, 행동하는 주체
Action: Agent가 하는 행동
Reward: 행동에 대해 받는 보상
State: 환경의 변화를 표현하는 상태
Observation: State를 관찰하는 것
Environment: 시스템을 Agent의 환경이라고 함.
Policy: 최선의 행동을 선택하기 위한 규칙/방법, 선택의 기준이 되는 것
Episode: 시작에서 끝까지 상태, 행동, 보상의 기록
Trajectory: 에이전트가 행동한 경로

아래 책 두 권은 제가 블로그를 쓰는 데 사용한 주 교재입니다.

<그림 1>의 책 중에 우측에 강아지 책은 강화학습 공부하시는 분들은 알법한 굉장히 유명한 RL 책입니다.

저희 학교 강화학습 교수님도 이 책을 추천해 주시더군요. 이 강아지 책은 수식이 아닌 코드 위주로 되어 있고 수식에 대한 설명이 상세히 되어 있어 입문하기에 좋은 책 같습니다.

그리고 왼쪽 악어책은 거의 수식 위주로 되어 있고, 수식에 대해 설명이 많이 없는 편이기 때문에 난이도가 있지만, 그만큼 필수 RL 기본기가 다 들어 있어 얻어갈 수 있는 게 굉장히 많은 책입니다.

수학으로 풀어보는 강화학습 원리와 알고리즘 (위키북스)
파이썬과 케라스로 배우는 강화학습 (위키북스)

그림1. 스터디에 사용한 교재

[RL] Offline Meta Reinforcement-Learning이란?

Prcnsi — Sat, 1 Jul 2023 21:49:19 +0900

이번 포스트에서는 최신 AI 논문에서 자주 등장하는 Offline Meta-Reinforcement-Learning에 대해 정리해 보았다.

이 Offline Meta-RL을 이해하기 위해서는 Meta-Learning, Online-Offline Learning에 대해서 이해가 필요해서 이를 정리하고, 추가적으로 Offline Meta-RL과 함께 자주 언급되는 Online Self-Supervision에 대해서도 정리해 보았다.

1. Meta-Learning

- Meta는 한 단계 더 위에 있는 것을 가리킬 때 사용한다. 예를 들어, meta-data는 데이터에 대한 정보이고, meta 인지는 스스로에 대해 인지하는 것을 뜻한다. 그래서, Meta-Learning은 학습하는 방법을 학습하는 것입니다.

즉 Task A에 대한 내용을 훈련시키고, 이 훈련시키는 과정을 학습해서 (Meta-Learning) Task B에 대해서도 별도의 학습 없이 구분할 수 있는 모델을 만들 수 있다. 이를 통해 범용 인공지능을 만드는데 더 가까이 다가갈 수 있다.

2. Online Learning vs Offline Learning

오프라인 학습은 대량의 훈련 데이터셋 전체를 활용해 모델을 학습시킨 뒤 배포하고 새로운 데이터가 생성되면 다시 전체 모델을 새롭게 학습해야 한다. 따라서 많은 시간과 자원이 소모될 수 있지만 정확도가 높다.

온라인 학습은 미니 배치 단위의 데이터로 모델을 학습시킨 뒤 배포하고 새로운 데이터가 생성되면 배포된 모델에 지속적으로 개선하여 학습하는 방식이다. 이는 주식투자와 같이 실시간 반영이 중요한 시스템에서 주로 쓰이며 주기적인 모니터링이 필요하다.

=> 가장 중요한 것은 앞으로 앞에 오프라인 학습이 붙으면, 전체 단위로 학습하여, 전체를 업데이트하는 방식이고, 온라인 학습이 붙으면 실시간 배치 단위로 데이터를 학습시키는 것을 의미하구나~ 를 아는 게 가장 중요합니다.

왜냐하면 앞으로도 계속 Online, Offline에서 Learning이 생략된 Online Self-Sueprvision과 같은 내용이 나오기 때문이죠.

이 Online Self Supervision도 Online (Learning)의 의미를 안다면 실시간으로 계속 업데이하는 방식으로 Self-Supervision을 수행하는구나를 알 수 있습니다.

3. Online Meta-Learning vs Offline Meta-Learning

온라인 메타학습이나, 오프라인 메타 학습이나 모델이 과제에 대한 최적의 알고리즘과 하이퍼파라미터를 예측하는 것은 동일합니다. 그러나, 이때 학습하는 방식이 전체를 한 번에 학습하느냐, 배치 단위로 계속 학습하느냐에 따라 온라인 메타학습과, 오프라인 메타학습이 나뉩니다.

온라인 메타학습은 메타 모델이 실시간으로 학습을 진행하여 새로운 학습 과제에 대한 최적의 알고리즘과 하이퍼파라미터 설정을 동적으로 업데이트하는 방식입니다. 이는 실시간으로 메타 모델을 개선할 수 있기 때문에, 유연성과 적응성이 높다.

메타 학습 시에, 메타 모델은 이전 학습 결과와 새로운 데이터를 조합하여 최적의 모델을 찾는 방법을 학습한다.

=> 실시간 메타 모델의 지속적인 개선, 제한된 데이터로 정확성 검토 필요

오프라인 메타학습은 사전에 수집된 대규모의 데이터를 기반으로 메타 모델을 훈련하는 방식이다. 이는 메타 모델을 학습하여 새로운 학습 과제에 대한 최적의 알고리즘과 하이퍼파라미터 설정을 예측한다. 오프라인 메타학습은 다양한 분야에서 일반화된 초기 설정을 제공하여 학습 과정의 시작점을 향상할 수 있다.

=> 대량의 사전 수집 데이터를 기반으로 초기 설정의 다양성과 정확성이 향상되지만, 실시간 적용이 어려울 수 있음

4. Offline Meta Reinforcement-Learning (RL)

일반적인 강화학습은 초기 Policy(정책)이 존재하지 않고, 에이전트가 환경과 상호작용하면서, 경험을 통해 최적의 정책을 학습한다. 그런데 이를 위해서는 비용이 많이 들거나 시간이 오래 든다. 이러한 문제를 해결하기 위해, 오프라인 메타 강화학습을 활용해, 새로운 학습과제에 대한 초기 정책(Policy)을 개선하고, 강화학습을 수행하면 학습 효율을 높일 수 있다.

앞서 오프라인 메타 학습은, 대량의 사전 수집 데이터를 기반으로 초기 설정의 다양성과 정확성을 향상시키는 것이라고 확인하였다. 그래서 오프라인 메타 강화학습이란, 대량의 사전 수집된 강화학습 데이터를 사용해 메타 모델의 정책을 학습(Meta-Train Policy) 하면서 이를 통해 과제에 대한 초기 Policy를 개선하는 방법이다.

이 오프라인 메타 강화학습의 순서는 아래 그림1과 같이 메타학습을 통해 초기 정책을 생성하고, 그 초기 정책을 기반으로 실제 RL를 수행해서, 성능을 향상시키는 것이 오프라인 메타 강화학습이 되고, 이 내용이 논문 제목에서 나온 오프라인 메타 강화학습의 의미이다.

그림1. 오프라인 메타 강화학습 절차

5. Online Self-Supervision

Online Self-Supervision에서 Online은 Online Leaning이 생략된 것으로 실시간으로 데이터를 학습해서 모델을 업데이트하는 방식을 뜻합니다. 그렇다면 Self-Supervision이란 무엇일까요? Self-Supervision이란 자기 지도 학습으로 Label이 없는 Untagged data를 기반으로 학습데이터에 대해서 스스로 분류를 수행하는 비지도 학습의 일종입니다.

이러한 Self-Suprvision은 적은 Taggedd data로도 학습이 가능해서 학습 데이터 확보가 쉽고 모델의 정확도를 더 높일 수 있다. 이는 데이터 자체에서 자동으로 지도 신호를 생성하고 모델을 학습한다.

이 자기 지도 학습의 절차는 아래와 같다.

1) 비지도 표현 학습: 레이블되지 않은 대규모 데이터를 이용해 모델을 사전 훈련한다. 이 단계에서는 주로 자기 지도나 비지도 학습 알고리즘을 이용해 데이터의 구조와 특징을 학습한다. ex) GAN, 오토 인코더
2) 지도 신호(레이블) 생성: 사전 훈련 모델을 사용해서 입력 데이터의 관계, 유사성, 다른 특징을 나타내는 레이블을 생성함.
3) 모델 업데이트: 생성한 레이블을 사용해 사전 모델을 업데이트해서 학습 과정에서 사용됨.
4) 반복: 위 단계를 반복해 모델을 계속 업데이트하고 개선해서, 모델을 더욱 정교하게 학습해 성능을 향상함

감사합니다:)

[C++] 벡터, 스택, 큐 사용법과 차이

Prcnsi — Tue, 2 May 2023 16:34:56 +0900

C++에서 벡터, 스택, 큐는 C++의 모두 STL Library에 들어있으며 각각 <vector>,<stack>,<queue> 헤더파일을 include해서 사용할 수 있다.

스택과 큐는 벡터를 응용한 개념이고
스택과 큐 둘 다 push()는 원소 추가, pop()은 원소 제거

stack pop(): 제일 뒤의 원소 제거
queue pop(): 제일 앞의 원소 제거

스택은 먼저 들어간게 먼저 나옴 (FIFO, First In First Out)
스택은 top()으로 가장 위에 있는 원소를 출력할 수 있고

큐는 먼저 들어간게 나중에 나오고 (LIFO, Last In First Out)
큐는 front()로 제일 아래에 있는 원소를 출력하고, back()으로 가장 위에(나중에 들어간) 원소를 출력함

대괄호([])를 통해 원소의 접근이 불가능하고
front()가 맨 앞의 원소, back()이 맨 뒤의 원소

원소를 추가하거나 제거하는 작업 (insert(), erase()는 시간 복잡도가 O(n)이다.
스택과 큐는 []로 원소 접근이 불가능하고 top()으로 제일 마지막에 있는 원소를 접근할 수 있다.

#include <iostream>
#include <fstream>
#include <vector>
#include <queue>
#include <algorithm>
#include <stack>

using namespace std;
int main() {
	/*vector<int> v;
	vector<string> nameList;
	// 벡터 인덱싱은 배열과 마찬가지로 대괄호 [] 사용
	v.push_back(1);
	v.push_back(3);
	v.push_back(5);
	v.push_back(7);
	v.push_back(9);

	nameList.push_back("jiseon");
	nameList.push_back("Dabin");
	nameList.push_back("Hyeri");
	nameList.push_back("jimin");

	// ====================================================================
	//  벡터를 출력하는 두 가지 방법 (벡터의 원소 출력은 모두 Iterator를 사용해야함.)dcdc
	//  1) iterator로 벡터 사용
	// 	2) iterator로 숫자(int)사용
	// ====================================================================

	// iterator로 벡터 사용은 담는 자료형도 따로 선언한 벡터여야함.
	vector<string>::iterator iter;
	cout << "[iterator 벡터로 출력]" << "\n";
	for (iter = nameList.begin(); iter < nameList.end(); iter++) {
		cout << *iter << ' '; // 출력시에도 대괄호가 아닌 *(iterator 형식) 
	}
	
	cout << "\n[iterator 숫자로 출력]" << "\n";
	for (int i = 0; i < v.size(); i++) {
		cout << v[i] << ' ';
	}*/

	stack<char> s;
	s.push('h');
	s.push('e');
	s.push('l');
	s.push('l');
	s.push('o');

	cout << "I am stack" << '\n';
	for (int i = 0; i < 5; i++) {
		cout << s.top() << ' ';
		s.pop();
	}

	queue<char> n;
	n.push('j');
	n.push('i');
	n.push('s');
	n.push('e');
	n.push('o');
	n.push('n');
	cout << "\nI am queue " << '\n';
	for (int i = 0; i < 6; i++) {
		cout << n.front() << ' ';
		n.pop();
	}

	return 0;
}