공부 기록/Data Analysis

[Data/Python] 데이터분석 정리 - 1

햇살아래 2022. 3. 14. 17:02

#개념 정리

#패스트캠퍼스 강의 정리

 

 

1. pandas 패키지 로드

별칭은 주로 pd 사용

import pandas as pd

 

 

2. pandas의 Series와 DataFrame

-Series : 1차원, 1개의 column

pd.Series([1,2,3,4])      

 

-DataFrame

데이터 프레임은 여러 컬럼 즉, 여러 시리즈들의 결합체이다.

 

방법1. list로 만들기                                            방법2. dict로 만들기

company1 = [['삼성'2000'스마트폰'],           company2 = {'기업명':['삼성''현대''네이버'], 
           ['현대'1000'자동차'],                                       '매출액': [20001000500], 
           ['네이버'500'포털']]                                        '업종': ['스마트폰''자동차''포털']

                                                                              }

 

3. CSV 파일 읽어오기

  • Comma Separated Value의 약어로써, 쉼표로 구분된 파일
  • 엑셀을 로딩할 수 있지만, 쉼표로 구분된 파일이 훨씬 가볍다.
  • 공공데이터 포털에서도 CSV 포맷의 파일을 제공한다.

 

방법1. 로컬에서 읽어오기

from google.colab import files
myfile = files.upload()
import io
pd.read_csv(io.BytesIO(myfile['korean-idol.csv']))
 

방법2. 파일 URL로부터 바로 읽어오기

 

 

4. 기본 정보 알아보기 (index, column, info, describe)

-column(열) 출력하기

df.columns

 

-index(행) 출력하기

df.index

 

-기본적인 행의 정보와 데이터타입 알기

df.info()

 

-통계정보 알기

df.describe()

 

 

5. 형태(shape) 알아보기

shape는 tuple 형태로 반환되며, 첫 번째는 row, 두 번째는 column의 숫자를 의미한다.

df.shape
 
 
 

6. 상위 5개, 하위 5개의 정보 보기

  • head() 상위 5개 row 출력
  • tail() 하위 5개 row 출력
  • head(3) 상위 3개 row 출력
  • tail(2) 하위 2개 row 출력

 

 

7. 정렬하기

- 오름차순 정렬(default)

df.sort_index()

 

- 내림차순 index 정렬

df.sort_index(ascending=False)

 

 

 

8. column 별로 정렬

- 오름차순 정렬 

df.sort_values(by='키')

 
-내림차순 정렬
df.sort_values(by='키', ascending=False)

 

-복수 정렬

df.sort_values(by=['키''브랜드평판지수'])

 
 
 

9. column 출력하기

df['혈액형']                                                                      df.이름
 
 

10. 범위 선택 (range selection)

-단순 index에 대한 범위 선택

df[:3]

 

-loc

df.loc[:, '이름']                                                       df.loc[:, ['이름''생년월일']]
 
df.loc[3:8, ['이름''생년월일']]                                    df.loc[2:5'이름':'생년월일']

 

-iloc

df.iloc[:, [02]]                                                       df.iloc[1:5, [02]]

 

 

11. Boolean Indexing - 조건을 활용한 색인

Numpy에서 배웠던 Booean 인덱싱과 같은 원리

Boolean Index로 받은 index를 활용해서 True인 값만 색인해 낼 수 있다.

df[ df['키'] < 170 ]

 

 

위와 같은 방법은 매우 간편하지만, 모든 column을 출력해야 한다는 한계가 있다.

특정 column을 색인하고 싶다면 아래와 같이 출력하면 된다.

df[ df['키'] > 180][['이름''키']]                            df.loc[ df['키']> 180'이름':'성별']