공부 기록/Web Crawling 10

10. Data Analysis - instagram researching_3

10. 지도 시각화 10-1. 지도 시각화 10-1-1. 데이터 준비 데이터 불러오기 위치 정보 가져오기 위치 정보별 빈도수 데이터 위치 정보의 빈도수 데이터 저장 위치 정보 종류 확인 10-1-2. 카카오 API를 활용한 장소 검색 https://developers.kakao.com/ 카카오 계정으로 로그인 후 , 내 애플리케이션을 추가 REST API 키 활용 제주공항 검색 예시 인스타그램 위치명에 대한 위치 정보 검색 위치 정보 저장 10-1-3. 위치 정보별 인스타 게시량 정리 데이터 불러오기 위치 데이터 병합 중복 데이터 점검 장소 이름 기준 병합하기 병합한 데이터 저장 10-1-4. folium을 이용한 지도 시각화① - 개별 표시 데이터 불러오기 지도 표시 지도 저장 10-1-5. foliu..

09. Data Analysis - instagram researching_2

09. 해시태그 워드 클라우드로 시각화(visualizing) 9-1. 워드 클라우드 9-1-1. 해시태그 데이터 데이터 불러오기 해시태그 통합 저장 9-1-2. 해시태그 출현 빈도 집계 상위 50개 검색 데이터 정제(무관한 데이터 제외하기) 9-1-3. 막대차트로 해시태그 살펴보기 시각화 라이브러리 임포트 및 글꼴 설정 데이터 준비 막대차트 그리기 9-1-4. 워드 클라우드 그리기 워드 클라우드 라이브러리 불러오기 워드 클라우드 만들기

08. Data Analysis - instagram researching_1

08. 인스타그램 크롤링 8-1. 인스타그램 크롤링 8-1-1. 인스타그램 접속 후 로그인하기 selenium으로 특정 url 접속 인스타그램 접속 인스타그램 로그인 8-1-2. 인스타그램 검색 결과 url 만들어 접속 검색 결과 페이지 접속 8-1-3. 첫 번째 게시글 열기 8-1-4. 게시글 정보 가져오기 현재 페이지 html 정보 가져오기 본문 내용 가져오기 본문 내용에서 해시태그 가져오기 작성일자 정보 가져오기 좋아요 불러오기 위치 정보 불러오기 게시글 정보 가져오는 함수 만들기 8-1-5. 다음 게시글 열기 8-1-6. 여러 게시글 정보 수집하기 위 코드들 정리 8-1-7. 수집 데이터 저장 8-1-8. 여러 덱셀 파일 중복 제거한 후 통합 저장 '제주맛집', '제주여행', '제주관광' 키워드 ..

07. Data Analysis - tourist data_2

07. 관광객 데이터 시각화 7-1. 시계열 그래프 그리기 한글 표기 7-1-1. 중국 관광객 추이 데이터 불러오기 중국 데이터 필터링 시계열 그래프 만들기 7-1-2. 외국인 관광객 중 상위 5개 국가 리스트 만들기 반복문으로 시각화 7-2. 히트맵 그리기 정보 확인 연도, 월 칼럼 생성하기 7-2-1. 중국인 관광객 필터링 7-2-2. pivot_table() 7-2-3. 히트맵 만들기 라이브러리 임포트 히트맵 그리기 7-2-4. 상위 5개국 시각화 - 반복문 사용

06. Data Analysis - tourist data_1

6. 한국 관광객 데이터 알아보기 6-1. 데이터 불러오기 및 전처리 6-1-1. 데이터 불러오기 엑셀 데이터 불러오기 6-1-2. 데이터 탐색 데이터 탐색 6-1-3. 칼럼 생성하기 기준년월 추가 국적 데이터만 남기기 인덱스 재설정 대륙 칼럼 만들기 6-2. 관광객 비율 칼럼 추가 관광객비율 내림차순 정렬 관광객비율 오름차순 정렬 pivot_table 함수 6-3. 중국 관광객 알아보기 6-3-1. 중국 국적 필터링 6-3-2. 기준년월별 전체 외국인 관광객 대비 국적별 관광객 비율 전체비율 칼럼 생성 6-4. 데이터 전처리 과정 함수 생성 6-5. 반복문 통해 엑셀 데이터 불러와서 합치기 for문 (6자리로 정렬) 빈 데이터프레임 만들기 이중 반복문 * 위 반복문 실행 시 에러 발생 -> 2020년 ..

05. Data Analysis Crawling - youtube ranking_2

5. 유튜브 랭킹 데이터 수집과 시각화하기 5-1. 유튜브 랭킹 데이터 시각화하기 라이브러리 추가 한글 폰트 변경 엑셀 파일 불러오기 5-2. 저장된 데이터 확인 및 가공 시리즈 문자열 변경 시리즈의 데이터 타입 변환 피봇 테이블 생성 피봇 테이블 칼럼명 변경 인덱스 초기화 내림차순 정렬 5-3. 카테고리별 구독자 수 시각화하기 5-4. 카테고리별 채널 수 시각화하기

04. Data Analysis Crawling - youtube ranking_1

4. 유튜브 랭킹 데이터 수집과 시각화 4-1. 유튜브 랭킹 데이터 수집하기 라이브러리 추가 크롬 드라이버 실행 & 페이지 정보 가져오기 BeautifulSoup으로 tr 태그 추출하기 카테고리 정보 추출하기 채널명 찾기 구독자 수, View 수, 동영상 수 추출하기 반복문으로 채널 정보 추출하기 페이지별 URL 만들기 반복문으로 유튜브 랭킹 화면의 여러 페이지 크롤링하기 엑셀로 저장

03. Data Analysis Crawling - melon, bugs, gennie

3. 멜론, 벅스, 지니 음원차트 크롤링 3-1. 멜론 차트 크롤링 3-1-1. 크롬드라이버 실행 멜론 인기차트 웹 페이지 접속 BeautifulSoup 이용해 정보 추출 3-1-2. 멜론 곡 정보 태그 읽기 100개의 노래 태그 찾기 곡 제목 찾기 곡 제목 가져오기 가수 정보 가져오기 멜론 100위 노래순위 정보 가져오기 3-1-3. 멜론 인기차트 중 상위 100곡 크롤링(정리) 3-1-4. 멜론 인기차트 엑셀에 저장 곡과 가수명 song_data에 저장 song_data 리스트를 이용해 데이터프레임 만들기 엑셀로 저장 3-2. 벅스 차트 크롤링 3-2-1. 벅스 사이트 접속 3-2-2. 곡과 가수명 찾기 곡 정보 찾기 한 개의 곡 정보 지정하기 곡 제목 찾기 가수 이름 찾기 벅스 100위 노래 순위 ..

02. Web Crawling

웹 크롤링: 웹 페이지에 있는 정보를 가지고 오는 것 selenium의 webdriver는 크롬이나 인터넷 익스플로러 등에서 사이트 접속, 버튼 클릭, 글자 입력과 같이 웹 브라우저에서 사람이 할 수 있는 일들을 코드를 통해 제어 가능한 라이브러리 예제 코드 : https://github.com/Play-with-data/datasalon/blob/master/02_%EA%B0%9C%EC%A0%95%ED%8C%90/2_Data_Analysis_Basic/2_2_Crawling.ipynb 2-1. 라이브러리 설치 크롬드라이버는 selenium의 webdriver를 통해 파이썬에서 크롬 브라우저를 제어할 수 있도록 도와준다. 웹 페이지 접속 & 다운로드 2-2. html 구조 살펴보기 예제 코드 Beauti..

01. Data Analysis Basics

file download : https://github.com/Play-with-data/datasalon 02_개정판 이용 1-1. 데이터 불러오기 pandas: 테이블 형태의 데이터를 쉽게 다룰 수 있는 파이썬 라이브러리 라이브러리 불러오기 엑셀 데이터 불러오기 데이터 정보 살펴보기 1-2. 데이터 선택 데이터 확인 칼럼 선택 칼럼 생성 필터링 1-3. 데이터 통합 - merge column을 옆으로 동합한다 1-4. 데이터 통합 - append column을 아래로 통합한다. 1-5. 데이터 저장 - to_excel 엑셀 파일 저장 시 index 번호를 제외하고 저장하고 싶다면 index=False를 인자로 설정 1-6. 데이터 집계 - pivot_table 피벗 테이블 : 기존 데이터의 칼럼을 재..