공부 기록/Data Analysis 10

[Data/Python] 데이터분석 정리 - 7

#개념 정리 #패스트캠퍼스 강의 정리 seaborn : matplotlib을 더 사용하기 쉽게 해주는 라이브러리 seaborn 공시 도큐먼트 살펴보기 import seaborn as sns plt.rc('font', family='NanumBarunGothic') plt.rcParams["figure.figsize"] = (12, 9) 0. seaborn이란? - seaborn에서만 제공되는 통계 기반 plot - 아름다운 스타일링 : matplotlib의 기본 컬러 색상보다 default 컬러가 예쁘게 조합된다. - 컬러 팔레트 #seaborn의 컬러팔레트 - pandas 데이터프레임과 높은 호환성 1. Scatterplot 0~1 사이의 임의의 랜덤한 값을 생성한다. 1-1. x, y, colors,..

[Data/Python] 데이터분석 정리 - 6

#개념 정리 #패스트캠퍼스 강의 정리 matplotlib import matplotlib.pyplot as plt plt.rc('font', family='NanumBarunGothic') plt.rcParams["figure.figsize"] = (12, 9) 1. 밑그림 그리기 1-1. 단일 그래프 # data 생성 data = np.arange(1, 100) # plot plt.plot(data) # 그래프를 보여주는 코드 plt.show() 1-2. 다중 그래프 1개의 canvas 안에 다중 그래프 그리기 data = np.arange(1, 51) data2 = np.arange(51, 101) plt.plot(data) plt.plot(data2) plt.plot(data2+50) plt.sho..

[Data/Python] 데이터분석 정리 - 5

#개념 정리 #패스트캠퍼스 강의 정리 데이터 시각화 plot 그래프 일반 선 그래프 kind 옵션: line: 선 그래프 bar: 바 그래프 barh: 수평 바 그래프 hist: 히스토그램 kde: 커널 밀도 그래프 hexbin: 고밀도 산점도 그래프 box: 박스 플롯 area: 면적그래프 pie: 파이 그래프 scatter: 산점도 그래프 1. line 그래프 데이터가 연속적인 경우 사용하기 적합 (ex. 주가, 데이터) df['분양가'].plot(kind='line') 2. bar 그래프 그룹별로 비교할 때 유용 df.groupby('지역')['분양가'].mean().plot(kind='bar') df.groupby('지역')['분양가'].mean().plot(kind='barh') 3. 히스토그램..

[Data/Python] 데이터분석 정리 - 4

#개념 정리 #패스트캠퍼스 강의 정리 1. column 간 연산(+, -, *, /, %) df['통계'] + df['미술'] df['통계'] - df['미술'] df['통계'] * df['미술'] df['통계'] / df['미술'] df['통계'] % df['미술'] df['통계'] + 10 df['통계'] - 10 df['통계'] / 10 2. 복합 연산 df['통계미술합계'] = df['통계'] + df['미술'] + 10 df['통계'] + df['미술'] - df['체육'] 3. mean(), sum()을 axis 기준으로 연산 df.sum(axis=0) df.sum(axis=1) 4. NaN값이 존재할 경우 연산 NaN값을 연산할 경우 NaN값이 출력된다. df['통계'] / 2 df['통계'..

[Data/Python] 데이터분석 정리 - 3

#개념 정리 #패스트캠퍼스 강의 정리 1. fillna: 결측값 na에 대하여 채워주는 함수. 키가 없는 사람은 존재할 수 없기 때문에, 데이터가 잘 못 되었다는 것을 표기하기 위해서, 누락된 데이터를 -1로 채워보도록 한다. df['키'].fillna(-1) NaN 값이 -1로 바뀐 것을 볼 수 있다. 하지만, 키의 NaN 값을 채워준 다음 유지시키려면 inplace=True 옵션을 주거나, fillna로 채워 준 값을 다시 대입해야 한다. df['키'] = df['키'].fillna(-1) 2. 빈 값(NaN)이 있는 행 제거 df.dropna() 위의 행을 보면 2, 7, 10행이 사라진 것을 볼 수 있다. 또한 dropna()는 몇 가지 옵션을 추가할 수 있다. -axis(열/행 드랍) df.dr..

[Data/Python] 데이터분석 정리 - 2

#개념 정리 #패스트캠퍼스 강의 정리 1. isin을 활용한 색인 내가 조건을 걸고자 하는 값이 내가 정의한 list에 있을 때만 색인하려는 경우에 사용한다. my_condition = ['플레디스', 'SM'] df['소속사'].isin(my_condition) df.loc[ df['소속사'].isin(my_condition) ] 2. 결측값(Null) 알아보기 -NaN 값에 대하여 null값은 비어있는 값을 말한다. info() 메소드를 통해 전체적으로 어떤 column에 빠진 데이터가 있는지 알 수 있다. df['그룹'].isnull() -NaN이 아닌 값에 대하여 Boolean 인덱싱 df['그룹'].notnull() 3. copy(복사) copy는 dataframe을 복사할 때 사용한다. df를..

[Data/Python] 데이터분석 정리 - 1

#개념 정리 #패스트캠퍼스 강의 정리 1. pandas 패키지 로드 별칭은 주로 pd 사용 import pandas as pd 2. pandas의 Series와 DataFrame -Series : 1차원, 1개의 column pd.Series([1,2,3,4]) -DataFrame 데이터 프레임은 여러 컬럼 즉, 여러 시리즈들의 결합체이다. 방법1. list로 만들기 방법2. dict로 만들기 company1 = [['삼성', 2000, '스마트폰'], company2 = {'기업명':['삼성', '현대', '네이버'], ['현대', 1000, '자동차'], '매출액': [2000, 1000, 500], ['네이버', 500, '포털']] '업종': ['스마트폰', '자동차', '포털'] } 3. CSV..

[Data/Python] '이것이 데이터 분석이다 with 파이썬' ch1-2 국가별 음주 데이터 분석하기

Chapter 01 데이터에서 인사이트 발견하기 1-2. 국가별 음주 데이터 분석하기 step1 탐색 : 데이터의 기초 정보 살펴보기 데이터 출처 : https://github.com/yoonkt200/python-data-analysis 이번 데이터셋을 이루고 있는 피처는 다음과 같다. country: 국가정보 beer_servings: beer 소비량 spirit_servings: spirit 소비량 wine_servings: wine 소비량 total_litres_of_alcohol: 총 알코올 소비량 continent: 국가의 대륙 정보 info() 함수로 데이터의 기초적인 정보를 살핀다. 총 193개의 데이터가 있으며, country와 continent를 제외한 피처들은 수치형 피처로 구성되어 ..

[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch1-1 chipotle 주문 데이터 분석하기

Chapter 01 데이터에서 인사이트 발견하기 1-1. 멕시코풍 프랜차이즈 chipotle의 주문 데이터 분석하기 step1 탐색 : 데이터의 기초 정보 살펴보기 데이터 출처 : https://github.com/yoonkt200/python-data-analysis 데이터를 불러오기 위해서 read_csv() 함수를 사용하여 데이터 파일의 경로를 입력한다. 데이터 파일의 경로를 의미하는 변수는 file_path이며, 사용자가 데이터를 저장한 파일 경로를 입력한다. 그리고 shape()와 info() 함수를 호출하면 위와 같은 실행 결과를 볼 수 있다. shape()는 데이터의 행과 열의 크기를 반환하고, info()는 행의 구성 정보와 열의 구성 정보를 나타낸다. 실행 결과를 보면 데이터가 4,622..

[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch.00

Chapter 00 들어가기 전에 02. 데이터 분석을 위한 라이브러리 라이브러리 설치하기 라이브러리를 설치하는 방법은 주피터 노트북을 설치하는 법과 동일하다. 'pip install' 옆에 설치하고 싶은 라이브러리 이름을 차례로 입력한다. 'pip install' 옆에 설치하고 싶은 라이브러리 이름을 차례로 입력한다. 판다스의 설치 및 활용 판다스는 파이썬에서 가장 널리 사용되는 데이터 분석 라이브러리로 데이터 프레임(Data Frame)이라는 자료구조를 사용한다. 데이터 프레임은 엑셀의 스프레드시트와 유사한 형태이며 파이썬으로 데이터를 쉽게 처리할 수 있다. 아래 코드는 데이터 분석 라이브러리를 import하는 코드이다. 판다스 라이브러리는 보통 pd라는 이름으로 축약하여 사용한다. 판다스의 데이터 ..