공부 기록/Web Crawling
02. Web Crawling
햇살아래
2022. 5. 29. 17:34
- 웹 크롤링: 웹 페이지에 있는 정보를 가지고 오는 것
- selenium의 webdriver는 크롬이나 인터넷 익스플로러 등에서 사이트 접속, 버튼 클릭, 글자 입력과 같이 웹 브라우저에서 사람이 할 수 있는 일들을 코드를 통해 제어 가능한 라이브러리
- 예제 코드 : https://github.com/Play-with-data/datasalon/blob/master/02_%EA%B0%9C%EC%A0%95%ED%8C%90/2_Data_Analysis_Basic/2_2_Crawling.ipynb
2-1. 라이브러리 설치
- 크롬드라이버는 selenium의 webdriver를 통해 파이썬에서 크롬 브라우저를 제어할 수 있도록 도와준다.
- 웹 페이지 접속 & 다운로드
2-2. html 구조 살펴보기
- 예제 코드
- BeautifulSoup으로 해석하기
- 태그명으로 태그 찾기
- id와 class로 태그 찾기
- 태그 구조로 위치 찾기
- 태그 그룹에서 태그 선택
- 선택한 태그에서 텍스트, 속성 값 가져오기