#개념 정리
#패스트캠퍼스 강의 정리
1. pandas 패키지 로드
별칭은 주로 pd 사용
2. pandas의 Series와 DataFrame
-Series : 1차원, 1개의 column
-DataFrame
데이터 프레임은 여러 컬럼 즉, 여러 시리즈들의 결합체이다.
방법1. list로 만들기 방법2. dict로 만들기
}

3. CSV 파일 읽어오기
- Comma Separated Value의 약어로써, 쉼표로 구분된 파일
- 엑셀을 로딩할 수 있지만, 쉼표로 구분된 파일이 훨씬 가볍다.
- 공공데이터 포털에서도 CSV 포맷의 파일을 제공한다.
방법1. 로컬에서 읽어오기
방법2. 파일 URL로부터 바로 읽어오기
4. 기본 정보 알아보기 (index, column, info, describe)
-column(열) 출력하기
-index(행) 출력하기
-기본적인 행의 정보와 데이터타입 알기
-통계정보 알기

5. 형태(shape) 알아보기
shape는 tuple 형태로 반환되며, 첫 번째는 row, 두 번째는 column의 숫자를 의미한다.
6. 상위 5개, 하위 5개의 정보 보기
- head() 상위 5개 row 출력
- tail() 하위 5개 row 출력
- head(3) 상위 3개 row 출력
- tail(2) 하위 2개 row 출력
7. 정렬하기
- 오름차순 정렬(default)
- 내림차순 index 정렬
df.sort_index(ascending=False)
8. column 별로 정렬
- 오름차순 정렬
df.sort_values(by='키')
-복수 정렬
df.sort_values(by=['키', '브랜드평판지수'])
9. column 출력하기

10. 범위 선택 (range selection)
-단순 index에 대한 범위 선택

-loc


-iloc
11. Boolean Indexing - 조건을 활용한 색인
Numpy에서 배웠던 Booean 인덱싱과 같은 원리
Boolean Index로 받은 index를 활용해서 True인 값만 색인해 낼 수 있다.
위와 같은 방법은 매우 간편하지만, 모든 column을 출력해야 한다는 한계가 있다.
특정 column을 색인하고 싶다면 아래와 같이 출력하면 된다.

'공부 기록 > Data Analysis' 카테고리의 다른 글
[Data/Python] 데이터분석 정리 - 3 (0) | 2022.03.18 |
---|---|
[Data/Python] 데이터분석 정리 - 2 (0) | 2022.03.15 |
[Data/Python] '이것이 데이터 분석이다 with 파이썬' ch1-2 국가별 음주 데이터 분석하기 (0) | 2022.03.11 |
[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch1-1 chipotle 주문 데이터 분석하기 (0) | 2022.03.04 |
[Data / Python] '이것이 데이터 분석이다 with 파이썬' ch.00 (0) | 2022.03.02 |