본문 바로가기
프로그램/SKT FLY AI

SKT FLY AI : 28일차 - 딥러닝(강화학습)

by hsloth 2023. 8. 3.

모폴로지(morphology)

  • 원본 이미지 전체에 아주 광범위하게 나오는 노이즈를 없애는 방법 중 하나.
  • 영상 내에 존재하는 객체의 형태를 조금씩 변형시킴으로써 영상 내에서 잡음을 제거하거나 객체를 뚜렷하게 한다.
  • 영상의 형태(shape)를 분석하고 처리하는 기법
  • 영상의 경계 너비가 일정치 않거나 중간에 단절되어 이를 일정하게 할 때 형태학 처리가 필요함.

강화학습

  • 경험을 통해 의사결정과 제어를 학습하는 방법
  • 에이전트가 현재의 상태를 인식해서 보상을 최대화하는 행동을 선택

용어 정의


  • Agent : 행동을 하는 의사 결정의 주체
    • Actor : 에이전트 중에서 환경과 interaction하는 부분 (에이전트 서브 모듈)
      • 액터는 정책에 따라 행동하고 그에 따른 보상을 받으며 환경의 다음 상태를 관측(Policy함수와 observe함수를 갖고 있다)
  • 환경(Environment) : 에이전트가 바라보는 외부 세계(Agent를 제외한 모든 것)
  • state : Full Observation. 모든 걸 정확히 아는 것(로봇의 관절 상태라던가)
  • observation : Partial Observation. 부분적으로 관측하는 것(카메라로 볼 때, 관절의 상태가 가려져서 정확히 파악은 불가능함. 부분적으로만 관측)

지도 학습 vs 강화 학습

  • 지도학습 : x를 이용해서 y를 예측하도록 학습
    • 정답을 바로 알게 됨
  • 강화학습 : 보상이 최대화 되는 행동을 학습
    • 현재 출력이 다음 입력에 영향을 미침
    • 목표에 도달하기 전까지 정답을 알 수 없음 -> 그 전에는 보상만 알게 됨
  • 앞으로 내가 받을 모든 리워드의 총합의 기댓값. 근데 그 기댓값은 내가 모든 타우에 대한 총 보상 값을 맥시마이즈하는게 강화학습의 목표... (잘모르겠다)
    • 한마디로 말해서 최대 보상을 받는 길을 찾는 것
    • 총 보상을 최대화하는 궤적의 분포를 구하는것...?

강화학습 알고리즘의 종류


정책 기반 (Policy-based)

  • 정책만 학습
  • 강화학습의 목표함수를 정책의 파라미터로 미분하자 (여기서 목표란 최대 보상을 받는 함수를 말하는 듯)

액터-크리틱 (Actor-Critic)

  • Value와 Policy를 동시에 학습
  • 목적함수의 분산을 줄이기 위해 기댓값을 취해보자 (높은 분산을 가지면 변동이 크기에 불안정하다)
  • 가치 함수 모델을 분리해서 학습시키는 방식

가치 기반 (Value-based)

  • Value만 학습
  • 최적의 가치 함수를 학습해서 결정적 정책을 추출하는 방식

모델 기반 (Model-Based Method)

  • 에이전트가 환경의 역학을 학습해서 직접 모델로 갖고 있는 형태
  • 역학 모델을 이용해서 일련의 행동을 계획
  • 정책 탐색

강화학습 학습 단계

  1. 훈련 데이터 생성
  2. 가치함수 추정 or 모델 학습(policy estimation)
  3. 정책 개선(policy improvement)

1-2-3-1-2-3... 반복

에이전트 클래스 확장


  • PPO 클래스들 : 에이전트 관련 클래스를 확장해서 개발
  • 경우에 따라서는 액터도 확장 가능하다.

'프로그램 > SKT FLY AI' 카테고리의 다른 글

SKT FLY AI : 30일차  (0) 2023.08.04
SKT FLY AI : 29일차  (0) 2023.08.03
SKT FLY AI : 27일차  (0) 2023.08.01
SKT FLY AI : 26일차 - OpenCV  (0) 2023.07.31
SKT FLY AI 3기 : 번외편 - 일상  (7) 2023.07.31