본문 바로가기

프로그램/SKT FLY AI

SKT FLY AI : 28일차 - 딥러닝(강화학습)

by hsloth 2023. 8. 3.

모폴로지(morphology)

원본 이미지 전체에 아주 광범위하게 나오는 노이즈를 없애는 방법 중 하나.
영상 내에 존재하는 객체의 형태를 조금씩 변형시킴으로써 영상 내에서 잡음을 제거하거나 객체를 뚜렷하게 한다.
영상의 형태(shape)를 분석하고 처리하는 기법
영상의 경계 너비가 일정치 않거나 중간에 단절되어 이를 일정하게 할 때 형태학 처리가 필요함.

강화학습

경험을 통해 의사결정과 제어를 학습하는 방법
에이전트가 현재의 상태를 인식해서 보상을 최대화하는 행동을 선택

용어 정의

Agent : 행동을 하는 의사 결정의 주체
- Actor : 에이전트 중에서 환경과 interaction하는 부분 (에이전트 서브 모듈)
  - 액터는 정책에 따라 행동하고 그에 따른 보상을 받으며 환경의 다음 상태를 관측(Policy함수와 observe함수를 갖고 있다)
환경(Environment) : 에이전트가 바라보는 외부 세계(Agent를 제외한 모든 것)
state : Full Observation. 모든 걸 정확히 아는 것(로봇의 관절 상태라던가)
observation : Partial Observation. 부분적으로 관측하는 것(카메라로 볼 때, 관절의 상태가 가려져서 정확히 파악은 불가능함. 부분적으로만 관측)

지도 학습 vs 강화 학습

지도학습 : x를 이용해서 y를 예측하도록 학습
- 정답을 바로 알게 됨
강화학습 : 보상이 최대화 되는 행동을 학습
- 현재 출력이 다음 입력에 영향을 미침
- 목표에 도달하기 전까지 정답을 알 수 없음 -> 그 전에는 보상만 알게 됨
앞으로 내가 받을 모든 리워드의 총합의 기댓값. 근데 그 기댓값은 내가 모든 타우에 대한 총 보상 값을 맥시마이즈하는게 강화학습의 목표... (잘모르겠다)
- 한마디로 말해서 최대 보상을 받는 길을 찾는 것
- 총 보상을 최대화하는 궤적의 분포를 구하는것...?

강화학습 알고리즘의 종류

정책 기반 (Policy-based)

정책만 학습
강화학습의 목표함수를 정책의 파라미터로 미분하자 (여기서 목표란 최대 보상을 받는 함수를 말하는 듯)

액터-크리틱 (Actor-Critic)

Value와 Policy를 동시에 학습
목적함수의 분산을 줄이기 위해 기댓값을 취해보자 (높은 분산을 가지면 변동이 크기에 불안정하다)
가치 함수 모델을 분리해서 학습시키는 방식

가치 기반 (Value-based)

Value만 학습
최적의 가치 함수를 학습해서 결정적 정책을 추출하는 방식

모델 기반 (Model-Based Method)

에이전트가 환경의 역학을 학습해서 직접 모델로 갖고 있는 형태
역학 모델을 이용해서 일련의 행동을 계획
정책 탐색

강화학습 학습 단계

훈련 데이터 생성
가치함수 추정 or 모델 학습(policy estimation)
정책 개선(policy improvement)

1-2-3-1-2-3... 반복

에이전트 클래스 확장

PPO 클래스들 : 에이전트 관련 클래스를 확장해서 개발
경우에 따라서는 액터도 확장 가능하다.

저작자표시 비영리 변경금지 (새창열림)

'프로그램 > SKT FLY AI' 카테고리의 다른 글

SKT FLY AI : 30일차 (0)	2023.08.04
SKT FLY AI : 29일차 (0)	2023.08.03
SKT FLY AI : 27일차 (0)	2023.08.01
SKT FLY AI : 26일차 - OpenCV (0)	2023.07.31
SKT FLY AI 3기 : 번외편 - 일상 (7)	2023.07.31

티스토리툴바