모폴로지(morphology)
- 원본 이미지 전체에 아주 광범위하게 나오는 노이즈를 없애는 방법 중 하나.
- 영상 내에 존재하는 객체의 형태를 조금씩 변형시킴으로써 영상 내에서 잡음을 제거하거나 객체를 뚜렷하게 한다.
- 영상의 형태(shape)를 분석하고 처리하는 기법
- 영상의 경계 너비가 일정치 않거나 중간에 단절되어 이를 일정하게 할 때 형태학 처리가 필요함.
강화학습
- 경험을 통해 의사결정과 제어를 학습하는 방법
- 에이전트가 현재의 상태를 인식해서 보상을 최대화하는 행동을 선택
용어 정의
- Agent : 행동을 하는 의사 결정의 주체
- Actor : 에이전트 중에서 환경과 interaction하는 부분 (에이전트 서브 모듈)
- 액터는 정책에 따라 행동하고 그에 따른 보상을 받으며 환경의 다음 상태를 관측(Policy함수와 observe함수를 갖고 있다)
- Actor : 에이전트 중에서 환경과 interaction하는 부분 (에이전트 서브 모듈)
- 환경(Environment) : 에이전트가 바라보는 외부 세계(Agent를 제외한 모든 것)
- state : Full Observation. 모든 걸 정확히 아는 것(로봇의 관절 상태라던가)
- observation : Partial Observation. 부분적으로 관측하는 것(카메라로 볼 때, 관절의 상태가 가려져서 정확히 파악은 불가능함. 부분적으로만 관측)
지도 학습 vs 강화 학습
- 지도학습 : x를 이용해서 y를 예측하도록 학습
- 정답을 바로 알게 됨
- 강화학습 : 보상이 최대화 되는 행동을 학습
- 현재 출력이 다음 입력에 영향을 미침
- 목표에 도달하기 전까지 정답을 알 수 없음 -> 그 전에는 보상만 알게 됨
- 앞으로 내가 받을 모든 리워드의 총합의 기댓값. 근데 그 기댓값은 내가 모든 타우에 대한 총 보상 값을 맥시마이즈하는게 강화학습의 목표... (잘모르겠다)
- 한마디로 말해서 최대 보상을 받는 길을 찾는 것
- 총 보상을 최대화하는 궤적의 분포를 구하는것...?
강화학습 알고리즘의 종류
정책 기반 (Policy-based)
- 정책만 학습
- 강화학습의 목표함수를 정책의 파라미터로 미분하자 (여기서 목표란 최대 보상을 받는 함수를 말하는 듯)
액터-크리틱 (Actor-Critic)
- Value와 Policy를 동시에 학습
- 목적함수의 분산을 줄이기 위해 기댓값을 취해보자 (높은 분산을 가지면 변동이 크기에 불안정하다)
- 가치 함수 모델을 분리해서 학습시키는 방식
가치 기반 (Value-based)
- Value만 학습
- 최적의 가치 함수를 학습해서 결정적 정책을 추출하는 방식
모델 기반 (Model-Based Method)
- 에이전트가 환경의 역학을 학습해서 직접 모델로 갖고 있는 형태
- 역학 모델을 이용해서 일련의 행동을 계획
- 정책 탐색
강화학습 학습 단계
- 훈련 데이터 생성
- 가치함수 추정 or 모델 학습(policy estimation)
- 정책 개선(policy improvement)
1-2-3-1-2-3... 반복
에이전트 클래스 확장
- PPO 클래스들 : 에이전트 관련 클래스를 확장해서 개발
- 경우에 따라서는 액터도 확장 가능하다.
'프로그램 > SKT FLY AI' 카테고리의 다른 글
SKT FLY AI : 30일차 (0) | 2023.08.04 |
---|---|
SKT FLY AI : 29일차 (0) | 2023.08.03 |
SKT FLY AI : 27일차 (0) | 2023.08.01 |
SKT FLY AI : 26일차 - OpenCV (0) | 2023.07.31 |
SKT FLY AI 3기 : 번외편 - 일상 (7) | 2023.07.31 |