[Data/Python] 데이터분석 정리

공부 기록/Data Analysis

[Data/Python] 데이터분석 정리 - 1

햇살아래 2022. 3. 14. 17:02

#개념 정리

#패스트캠퍼스 강의 정리

1. pandas 패키지 로드

별칭은 주로 pd 사용

import pandas as pd

2. pandas의 Series와 DataFrame

-Series : 1차원, 1개의 column

pd.Series([1,2,3,4])

-DataFrame

데이터 프레임은 여러 컬럼 즉, 여러 시리즈들의 결합체이다.

방법1. list로 만들기 방법2. dict로 만들기

company1 = [['삼성', 2000, '스마트폰'], company2 = {'기업명':['삼성', '현대', '네이버'],

['현대', 1000, '자동차'], '매출액': [2000, 1000, 500],

['네이버', 500, '포털']] '업종': ['스마트폰', '자동차', '포털']

}

3. CSV 파일 읽어오기

Comma Separated Value의 약어로써, 쉼표로 구분된 파일
엑셀을 로딩할 수 있지만, 쉼표로 구분된 파일이 훨씬 가볍다.
공공데이터 포털에서도 CSV 포맷의 파일을 제공한다.

방법1. 로컬에서 읽어오기

from google.colab import files

myfile = files.upload()

import io

pd.read_csv(io.BytesIO(myfile['korean-idol.csv']))

방법2. 파일 URL로부터 바로 읽어오기

pd.read_csv('http://bit.ly/ds-korean-idol')

4. 기본 정보 알아보기 (index, column, info, describe)

-column(열) 출력하기

df.columns

-index(행) 출력하기

df.index

-기본적인 행의 정보와 데이터타입 알기

df.info()

-통계정보 알기

df.describe()

5. 형태(shape) 알아보기

shape는 tuple 형태로 반환되며, 첫 번째는 row, 두 번째는 column의 숫자를 의미한다.

df.shape

6. 상위 5개, 하위 5개의 정보 보기

head() 상위 5개 row 출력
tail() 하위 5개 row 출력
head(3) 상위 3개 row 출력
tail(2) 하위 2개 row 출력

7. 정렬하기

- 오름차순 정렬(default)

df.sort_index()

- 내림차순 index 정렬

df.sort_index(ascending=False)

8. column 별로 정렬

- 오름차순 정렬

df.sort_values(by='키')

-내림차순 정렬

df.sort_values(by='키', ascending=False)

-복수 정렬

df.sort_values(by=['키', '브랜드평판지수'])

9. column 출력하기

df['혈액형'] df.이름

10. 범위 선택 (range selection)

-단순 index에 대한 범위 선택

df[:3]

-loc

df.loc[:, '이름'] df.loc[:, ['이름', '생년월일']]

df.loc[3:8, ['이름', '생년월일']] df.loc[2:5, '이름':'생년월일']

-iloc

df.iloc[:, [0, 2]] df.iloc[1:5, [0, 2]]

11. Boolean Indexing - 조건을 활용한 색인

Numpy에서 배웠던 Booean 인덱싱과 같은 원리

Boolean Index로 받은 index를 활용해서 True인 값만 색인해 낼 수 있다.

df[ df['키'] < 170 ]

위와 같은 방법은 매우 간편하지만, 모든 column을 출력해야 한다는 한계가 있다.

특정 column을 색인하고 싶다면 아래와 같이 출력하면 된다.

df[ df['키'] > 180][['이름', '키']] df.loc[ df['키']> 180, '이름':'성별']

저작자표시 비영리 변경금지 (새창열림)

'공부 기록 > Data Analysis' 카테고리의 다른 글

[Data/Python] 데이터분석 정리 - 3 (0)	2022.03.18
[Data/Python] 데이터분석 정리 - 2 (0)	2022.03.15
[Data/Python] '이것이 데이터 분석이다 with 파이썬' ch1-2 국가별 음주 데이터 분석하기 (0)	2022.03.11
[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch1-1 chipotle 주문 데이터 분석하기 (0)	2022.03.04
[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch.00 (0)	2022.03.02

현재글[Data/Python] 데이터분석 정리 - 1

혀니의 기록장🐰

모든 것을 기록합니다✏️

Python, pandas, 2562번, 온라인강의, 스파르타코딩클럽, 안드로이드 스튜디오, 온라인코딩, SQL 개발자, SQLD, git, SQL, 넘파이, 스파르타코딩, maplotlib, jupyter, 판다스, github, 파이썬, 백준, 데이터 분석,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

혀니의 기록장🐰