본문 바로가기

프로그램/SKT FLY AI56

SKT FLY AI : 2일차 - 끄적이는 글(2). 머신러닝(기계학습) 데이터분석 회고 데이터가 주어지면, 해당 데이터를 어떤식으로 활용해야하는지 판단을 못하겠다. 그럴 때는, 일단 상관계수로 히트맵을 그려서 판단하자. 상관계수 높은 것들을 위주로 그래프를 작성해보자. 데이터를 전처리하는 방법들을 모르겠다. 함수명도 모르겠고. 답은 많이 코딩을 해보는 것인 것 같다. 머신러닝(기계학습) 기계학습은 크게 "지도 학습", "비지도 학습", "강화 학습"으로 나뉜다. 기계학습은 항상 입력을 받아서 출력하는 함수 y=f(x)를 학습한다고 생각할 수 있다. (함수 근사) 특징 특징이란 우리가 학습 모델에게 공급하는 입력이다. 가장 간단한 경우에는 입력 자체가 특징이 된다. ex) 이메일에 "광고", "선물 교환권"이나 "이벤트 당첨" 문자열 포함 여부 레이블 y = f(x)에서 y변.. 2023. 6. 27.
SKT FLY AI : 2일차 - 끄적이는 글(1) - Crawling, Seaborn, folium Crawling Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능) Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법 BeautifulSoup 라이브러리 활용 HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리 BeautifulSoup 라이브러리 페이지 설치 방법 pip install bs4 import requests import bs4 import BeautifulSoup BeautifulSoup requests 라이브러리를 활용한 HTML페이지 요청 res객체에 html데이터가 저장되고, res.content로 데이터를 추출할 수 있다. res = requests.get('http://주소') .. 2023. 6. 27.
SKT FLY AI : 1일차 - 끄적이는 글(2). pandas Pandas란 데이터 조작 및 분석을 위한 파이썬 프로그래밍 라이브러리 넘파이를 기반으로하며 처리 속도가 빠르다. Series 객체 1차원 배열 구조를 가지며, index를 가진다 dtype 속성과 shape 속성 등을 가진다. DataFrame 객체 2차원 배열 구조를 가지며, 인덱스를 가진다. 행과 열로 구성되고, 각 열은 이름을 가진다. 각 열은 각각의 데이터 타입을 가지며, Series 객체로 표현할 수 있다. dtype 속성과 shape 속성 등을 가진다. # pandas 설치 ! pip install pandas import pandas as pd ser = pd.Series([1,2,3], index=['a','b','c']) ser # a : 1,.. 2023. 6. 26.
SKT FLY AI : 1일차 - 끄적이는 글(1). numpy와 matplot Colab Colab 들어가는 법 : 구글 로그인 -> 구글 드라이브 -> 새로 만들기 -> Colab 선택 다음 코드는 코랩에서 실행된 코드입니다. ! pip install numpy import numpy as np arr = np.array([1,2,3,4]) print(arr) print(type(arr)) arr2 = np.array([[1,2,3,4],[5,6,7,8]]) print(arr2) print(type(arr)) # arr2.shape # 빠르게 데이터 구조를 파악할 때 사용. (2, 4) = 2 * 4의 크기를 갖는 array # 기본적으로 numpy에서 연산을 할 때는 크기가 서로 동일한 array끼리 연산. # 이 때, 같은 위치에 있는 요소들 끼리 연산이 진행. # 자원 갯수.. 2023. 6. 26.