본문 바로가기

SKT FLY AI55

SKT FLY AI : 2일차 - 끄적이는 글(1) - Crawling, Seaborn, folium Crawling Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능) Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법 BeautifulSoup 라이브러리 활용 HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리 BeautifulSoup 라이브러리 페이지 설치 방법 pip install bs4 import requests import bs4 import BeautifulSoup BeautifulSoup requests 라이브러리를 활용한 HTML페이지 요청 res객체에 html데이터가 저장되고, res.content로 데이터를 추출할 수 있다. res = requests.get('http://주소') .. 2023. 6. 27.
SKT FLY AI : 1일차 - 끄적이는 글(2). pandas Pandas란 데이터 조작 및 분석을 위한 파이썬 프로그래밍 라이브러리 넘파이를 기반으로하며 처리 속도가 빠르다. Series 객체 1차원 배열 구조를 가지며, index를 가진다 dtype 속성과 shape 속성 등을 가진다. DataFrame 객체 2차원 배열 구조를 가지며, 인덱스를 가진다. 행과 열로 구성되고, 각 열은 이름을 가진다. 각 열은 각각의 데이터 타입을 가지며, Series 객체로 표현할 수 있다. dtype 속성과 shape 속성 등을 가진다. # pandas 설치 ! pip install pandas import pandas as pd ser = pd.Series([1,2,3], index=['a','b','c']) ser # a : 1,.. 2023. 6. 26.
SKT FLY AI : 1일차 - 끄적이는 글(1). numpy와 matplot Colab Colab 들어가는 법 : 구글 로그인 -> 구글 드라이브 -> 새로 만들기 -> Colab 선택 다음 코드는 코랩에서 실행된 코드입니다. ! pip install numpy import numpy as np arr = np.array([1,2,3,4]) print(arr) print(type(arr)) arr2 = np.array([[1,2,3,4],[5,6,7,8]]) print(arr2) print(type(arr)) # arr2.shape # 빠르게 데이터 구조를 파악할 때 사용. (2, 4) = 2 * 4의 크기를 갖는 array # 기본적으로 numpy에서 연산을 할 때는 크기가 서로 동일한 array끼리 연산. # 이 때, 같은 위치에 있는 요소들 끼리 연산이 진행. # 자원 갯수.. 2023. 6. 26.