#개념 정리
#패스트캠퍼스 강의 정리
데이터 시각화
plot 그래프
일반 선 그래프
kind 옵션:
- line: 선 그래프
- bar: 바 그래프
- barh: 수평 바 그래프
- hist: 히스토그램
- kde: 커널 밀도 그래프
- hexbin: 고밀도 산점도 그래프
- box: 박스 플롯
- area: 면적그래프
- pie: 파이 그래프
- scatter: 산점도 그래프
1. line 그래프
데이터가 연속적인 경우 사용하기 적합 (ex. 주가, 데이터)
df['분양가'].plot(kind='line')
2. bar 그래프
그룹별로 비교할 때 유용
df.groupby('지역')['분양가'].mean().plot(kind='bar')

df.groupby('지역')['분양가'].mean().plot(kind='barh')

3. 히스토그램
분포-빈도를 시각화
가로축 - 분포
세로축 - 빈도
df['분양가'].plot(kind='hist')

4. 커널 밀도 그래프
- 히스토그램과 유사하게 밀도를 보여주는 그래프
- 부드러운 라인
df['분양가'].plot(kind='kde')

5. Hexbin
- 고밀도 산점도 그래프
- x와 y 키 값을 모두 입력해야 한다.
- x, y 값 모두 numeric 한 값을 넣어 주어야 한다.
- 데이터의 밀도를 추정
df.plot(kind='hexbin', x='분양가', y='연도', gridsize=20)

6. 박스 플롯(box)
IOR(Inter Quantile Range) = (3Q - 1Q) * 1.5 값
박스 플롯은 데이터 outlier 감지할 때 가장 많이 활용
25%, median, 75% 분위의 값을 활용하는 용도로 많이 활용
df_seoul['분양가'].plot(kind='box')

7. area plot
line 그래프의 아래 area를 모두 색칠한 그래프
df.groupby('월')['분양가'].count().plot(kind='area')

8. pie plot(파이 그래프)
데이터의 점유율을 보여줄 때 유용
df.groupby('연도')['분양가'].count().plot(kind='pie')

9. scatter plot(산점도 그래프)
- 점으로 데이터 표시
- x, y값을 모두 넣어줘야 한다. (hexbin과 유사)
- x축과 y축을 지정해주면 그에 맞는 데이터 분포도를 볼 수 있다.
- numeric 한 column만 지정
df.plot(x='월', y='분양가', kind='scatter')

'공부 기록 > Data Analysis' 카테고리의 다른 글
[Data/Python] 데이터분석 정리 - 7 (0) | 2022.03.26 |
---|---|
[Data/Python] 데이터분석 정리 - 6 (0) | 2022.03.23 |
[Data/Python] 데이터분석 정리 - 4 (0) | 2022.03.19 |
[Data/Python] 데이터분석 정리 - 3 (0) | 2022.03.18 |
[Data/Python] 데이터분석 정리 - 2 (0) | 2022.03.15 |