본문 바로가기

프로그램72

SKT FLY AI : 5일차 - ML SKT FLY AI 합숙 마지막 날 아침에 들은 강의이다. 머신러닝 데이터 전처리 데이터 전처리 레이블 인코딩 원핫 인코딩 레이블 인코딩 from sklearn.preprocessing import LabelEncoder items = ["tv", "냉장고", "컴퓨터", "전자레인지", "믹서", "선풍기", "믹서"] encoder = LabelEncoder() encoder.fit(items) labels = encoder.transform(items) # tv는 0, 냉장고는 1, 컴퓨터는 5처럼 하나의 짝을 지어 반환 print(labels) # [0 1 5 4 2 3 2] print(encoder.classes_) #['tv', '냉장고', '믹서',.. 2023. 6. 30.
SKT FLY AI : 2일차 - 실습 SKLEARN 이용해서 모델 학습과 예측 일단, 내가 깨달은 점 부터 말을 해보려고 한다. 먼저 모델 학습하는 법을 잘 모르겠다면, 머신러닝 워크플로우를 구글에 검색해서 봐보자. 주변 분들께서 workflow를 보는 것을 추천해주셨다. 그리고 나 역시 이것을 보니까 어느정도 이해가 되었다. Workflow 순서 데이터 수집 : 말그대로 데이터를 수집하는 과정이다. 이미 있는 데이터를 이용할 경우 필요x 데이터 점검 및 탐색 : 수집한 데이터의 구조를 파악하고 데이터가 유효한지 탐색한다. 나...는 그냥 df출력해봤다. 아마 엑셀에서 직접 값을 보는게 한눈에 들어오지 않을까 싶다. 전처리 및 정제 결측치 처리 : Null, NAN과 같은 값을 처리한다. 해당 행을 제거 (결측치를 가진 행이 적을 경우) 수.. 2023. 6. 27.
SKT FLY AI : 2일차 - 끄적이는 글(2). 머신러닝(기계학습) 데이터분석 회고 데이터가 주어지면, 해당 데이터를 어떤식으로 활용해야하는지 판단을 못하겠다. 그럴 때는, 일단 상관계수로 히트맵을 그려서 판단하자. 상관계수 높은 것들을 위주로 그래프를 작성해보자. 데이터를 전처리하는 방법들을 모르겠다. 함수명도 모르겠고. 답은 많이 코딩을 해보는 것인 것 같다. 머신러닝(기계학습) 기계학습은 크게 "지도 학습", "비지도 학습", "강화 학습"으로 나뉜다. 기계학습은 항상 입력을 받아서 출력하는 함수 y=f(x)를 학습한다고 생각할 수 있다. (함수 근사) 특징 특징이란 우리가 학습 모델에게 공급하는 입력이다. 가장 간단한 경우에는 입력 자체가 특징이 된다. ex) 이메일에 "광고", "선물 교환권"이나 "이벤트 당첨" 문자열 포함 여부 레이블 y = f(x)에서 y변.. 2023. 6. 27.
SKT FLY AI : 2일차 - 끄적이는 글(1) - Crawling, Seaborn, folium Crawling Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능) Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법 BeautifulSoup 라이브러리 활용 HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리 BeautifulSoup 라이브러리 페이지 설치 방법 pip install bs4 import requests import bs4 import BeautifulSoup BeautifulSoup requests 라이브러리를 활용한 HTML페이지 요청 res객체에 html데이터가 저장되고, res.content로 데이터를 추출할 수 있다. res = requests.get('http://주소') .. 2023. 6. 27.