공부 기록/Data Analysis

[Data/Python] 데이터분석 정리 - 5

햇살아래 2022. 3. 22. 17:19

#개념 정리

#패스트캠퍼스 강의 정리

 

 

데이터 시각화

plot 그래프

일반 선 그래프

 

kind 옵션:

  • line: 선 그래프
  • bar: 바 그래프
  • barh: 수평 바 그래프
  • hist: 히스토그램
  • kde: 커널 밀도 그래프
  • hexbin: 고밀도 산점도 그래프
  • box: 박스 플롯
  • area: 면적그래프
  • pie: 파이 그래프
  • scatter: 산점도 그래프

 

 

1. line 그래프

데이터가 연속적인 경우 사용하기 적합 (ex. 주가, 데이터)

 

df['분양가'].plot(kind='line')

 

 

2. bar 그래프

그룹별로 비교할 때 유용

 

df.groupby('지역')['분양가'].mean().plot(kind='bar')
df.groupby('지역')['분양가'].mean().plot(kind='barh')

 

 

3. 히스토그램

분포-빈도를 시각화

가로축 - 분포

세로축 - 빈도

 
df['분양가'].plot(kind='hist')

 

 

4. 커널 밀도 그래프

  • 히스토그램과 유사하게 밀도를 보여주는 그래프
  • 부드러운 라인

 

df['분양가'].plot(kind='kde')

 

 

5. Hexbin

  • 고밀도 산점도 그래프
  • x와 y 키 값을 모두 입력해야 한다.
  • x, y 값 모두 numeric 한 값을 넣어 주어야 한다.
  • 데이터의 밀도를 추정

 

df.plot(kind='hexbin', x='분양가', y='연도', gridsize=20)

 

 

6. 박스 플롯(box)

IOR(Inter Quantile Range) = (3Q - 1Q) * 1.5 값

박스 플롯은 데이터 outlier 감지할 때 가장 많이 활용

25%, median, 75% 분위의 값을 활용하는 용도로 많이 활용

 

df_seoul['분양가'].plot(kind='box')

 

 

7. area plot

line 그래프의 아래 area를 모두 색칠한 그래프

 

df.groupby('월')['분양가'].count().plot(kind='area')

 

 

8. pie plot(파이 그래프)

데이터의 점유율을 보여줄 때 유용

 

df.groupby('연도')['분양가'].count().plot(kind='pie')

 

 

9. scatter plot(산점도 그래프)

  • 점으로 데이터 표시
  • x, y값을 모두 넣어줘야 한다. (hexbin과 유사)
  • x축과 y축을 지정해주면 그에 맞는 데이터 분포도를 볼 수 있다.
  • numeric 한 column만 지정

 

df.plot(x='월', y='분양가', kind='scatter')