본문 바로가기

분류 전체보기210

SKT FLY AI : 32일차 토크나이징 주어진 문장에서 토큰 단위로 정보를 나누는 작업 (주로 텍스트 전처리 과정에서 사용) 나눠진 단어 중 가장 작은 단위가 되는 단어들을 토큰이라고 한다. CNN import pandas as pd import tensorflow as tf from tensorflow.keras import preprocessing from tensorflow.keras.models import Model from tensorflow.keras.layers import Input, Embedding, Dense, Dropout, Conv1D, GlobalMaxPool1D, concatenate # 데이터 읽어오기 train_file = "./chatbot_data.csv" data = pd.read_csv(tra.. 2023. 8. 9.
SKT FLY AI : 31일차 - 챗봇 참고 : https://cafe.naver.com/aiclubcafe 의 생성AI 스터디 OpenAI Playground에서 자신의 credit이 있는지 확인 https://platform.openai.com/account/usage credit이 expired 되었는지 확인하자. 키발급 credit이 expired 되었으면, 이메일을 새로 생성하자... https://platform.openai.com/account/api-keys 코드 작성 # pip install openai import os import openai openai.api_key = "키값" completion = openai.ChatCompletion.create( model = "gpt-3.5-turbo", messages = [.. 2023. 8. 7.
SKT FLY AI : 30일차 강화학습 알고리즘 종류에는 3가지가 있다. 정책 기반 액터-크리틱 : 가치와 정책을 동시에 학습 가치 기반 이중 액터-크리틱을 봐보자. 액터-크리틱 방법 (Actor-Critic Method) 가치 함수를 학습해서 Ψ부분을 계산하는 방식 액터는 정책을 이용해서 행동 크리틱은 갗치 함수로 액터의 행동을 평가 가치 함수 (Value Function) 가치는 상태(St)에서 미래에 받을 총 보상의 기댓값 현재 상태에서 갈 수 있는 모든 궤적에 대해 총 보상의 기댓값이 가치이다. 가치가 높은 상태로 이동하는 것이 좋은 정책! Q 가치 함수 상태(St)와 행동(At)에서의 총 보상의 기댓값 현재 상태에서 행동을 했을 때 갈 수 있는 궤적에 대한 총 보상 Q Value를 사용하면 전이 함수 없이도 가치를 알 수 있.. 2023. 8. 4.
SKT FLY AI : 29일차 Policy Gradient 가중치의 역할 리턴이 높은 궤적을 만들게 하고 리턴이 낮은 궤적은 적게 만드는 정책을 학습함 높은 분산 개별 궤적의 총 보상을 사용하며 분산이 높아서 학습이 불안정해짐 분산이 높다는 것은 올라갔다 내려갔다 한다는 것. 학습이 불안정할 수 밖에 없음. 인과성(낮은 분산을 위한) 인과성에 따라 미래의 데이터만 사용하면 분산이 줄어든다. 현재 시점의 정책은 미래의 보상에만 영향을 주고 과거의 보상에는 영향을 주지 못함 베이스라인(낮은 분산을 위한) 리턴에서 베이스라인을 빼면 분산이 줄어든다. 리턴의 평균은 최적의 베이스라인은 아니지만 좋은 편 베이스라인은 기댓값이 0이라 편향이 생기지 않음 러너 (Runner) 러너는 에이전트와 환경을 생성해서 추론 및 학습을 수행 에이전트 생성 .. 2023. 8. 3.