본문 바로가기

프로그램72

SKT FLY AI : 31일차 - 챗봇 참고 : https://cafe.naver.com/aiclubcafe 의 생성AI 스터디 OpenAI Playground에서 자신의 credit이 있는지 확인 https://platform.openai.com/account/usage credit이 expired 되었는지 확인하자. 키발급 credit이 expired 되었으면, 이메일을 새로 생성하자... https://platform.openai.com/account/api-keys 코드 작성 # pip install openai import os import openai openai.api_key = "키값" completion = openai.ChatCompletion.create( model = "gpt-3.5-turbo", messages = [.. 2023. 8. 7.
SKT FLY AI : 30일차 강화학습 알고리즘 종류에는 3가지가 있다. 정책 기반 액터-크리틱 : 가치와 정책을 동시에 학습 가치 기반 이중 액터-크리틱을 봐보자. 액터-크리틱 방법 (Actor-Critic Method) 가치 함수를 학습해서 Ψ부분을 계산하는 방식 액터는 정책을 이용해서 행동 크리틱은 갗치 함수로 액터의 행동을 평가 가치 함수 (Value Function) 가치는 상태(St)에서 미래에 받을 총 보상의 기댓값 현재 상태에서 갈 수 있는 모든 궤적에 대해 총 보상의 기댓값이 가치이다. 가치가 높은 상태로 이동하는 것이 좋은 정책! Q 가치 함수 상태(St)와 행동(At)에서의 총 보상의 기댓값 현재 상태에서 행동을 했을 때 갈 수 있는 궤적에 대한 총 보상 Q Value를 사용하면 전이 함수 없이도 가치를 알 수 있.. 2023. 8. 4.
SKT FLY AI : 29일차 Policy Gradient 가중치의 역할 리턴이 높은 궤적을 만들게 하고 리턴이 낮은 궤적은 적게 만드는 정책을 학습함 높은 분산 개별 궤적의 총 보상을 사용하며 분산이 높아서 학습이 불안정해짐 분산이 높다는 것은 올라갔다 내려갔다 한다는 것. 학습이 불안정할 수 밖에 없음. 인과성(낮은 분산을 위한) 인과성에 따라 미래의 데이터만 사용하면 분산이 줄어든다. 현재 시점의 정책은 미래의 보상에만 영향을 주고 과거의 보상에는 영향을 주지 못함 베이스라인(낮은 분산을 위한) 리턴에서 베이스라인을 빼면 분산이 줄어든다. 리턴의 평균은 최적의 베이스라인은 아니지만 좋은 편 베이스라인은 기댓값이 0이라 편향이 생기지 않음 러너 (Runner) 러너는 에이전트와 환경을 생성해서 추론 및 학습을 수행 에이전트 생성 .. 2023. 8. 3.
SKT FLY AI : 28일차 - 딥러닝(강화학습) 모폴로지(morphology) 원본 이미지 전체에 아주 광범위하게 나오는 노이즈를 없애는 방법 중 하나. 영상 내에 존재하는 객체의 형태를 조금씩 변형시킴으로써 영상 내에서 잡음을 제거하거나 객체를 뚜렷하게 한다. 영상의 형태(shape)를 분석하고 처리하는 기법 영상의 경계 너비가 일정치 않거나 중간에 단절되어 이를 일정하게 할 때 형태학 처리가 필요함. 강화학습 경험을 통해 의사결정과 제어를 학습하는 방법 에이전트가 현재의 상태를 인식해서 보상을 최대화하는 행동을 선택 용어 정의 Agent : 행동을 하는 의사 결정의 주체 Actor : 에이전트 중에서 환경과 interaction하는 부분 (에이전트 서브 모듈) 액터는 정책에 따라 행동하고 그에 따른 보상을 받으며 환경의 다음 상태를 관측(Polic.. 2023. 8. 3.