● 공부내용 정리
1. Google Colaboratory로 파이썬 언어를 연습하고 있다.
2. 크롤링이란 무엇인가? 원하는 것만 크롤링 하겠다. text 내용을 가져온다? 접근 그리고 get !
웹 크롤링은 거미가 웹을 돌아다니며 먹이를 찾는 것과 유사합니다. 웹 크롤러는 웹 사이트를 방문하여 웹 페이지를 수집하는 컴퓨터 프로그램입니다. 그런 다음 웹 페이지의 내용을 검색 엔진의 데이터베이스에 저장합니다.
웹 크롤링은 검색 엔진이 새 웹 페이지와 변경된 웹 페이지를 찾을 수 있도록 하기 때문에 중요합니다. 검색 엔진이 웹 페이지를 인덱싱하지 않으면 사용자는 검색할 수 없습니다.
웹 크롤링은 웹 사이트의 콘텐츠를 수집하는 데에도 사용할 수 있습니다. 예를 들어 웹 사이트의 뉴스 기사를 수집하여 RSS 피드로 만들거나 웹 사이트의 제품 목록을 수집하여 가격 비교 웹 사이트로 만들 수 있습니다.
웹 크롤링은 웹 사이트에 과부하를 줄 수 있으므로 주의해서 수행해야 합니다. 웹 사이트에 너무 많은 요청을 하면 웹 사이트가 느려지거나 다운될 수 있습니다.
웹 크롤링을 수행하기 전에 웹 사이트의 이용 약관을 확인하는 것이 중요합니다. 일부 웹 사이트는 웹 크롤링을 허용하지 않으므로 웹 사이트의 사용을 방해하지 않도록 주의해야 합니다.
3. 구글 Bard를 사용해봤다. Bard는 한국어 버전을 지원한다. chatGPT와 다른 점이다.
4. request 모듈을 이용하여 get요청을 해보자.
5. header를 추가해보자.
url = 'https://v.daum.net/v/20230513230504827'
headers = {'User-Agent' :
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'}
resp = requests.get(url, headers=headers)
resp.text
6. Beautiful Soup를 사용해보자.
1. import 해주기
2.
3.
tml = '''
<html>
<head>
<title>Beautiful Soup 테스트</title>
</head>
<body>
<div id='upper' class='test' custom='good'>
<h3>바드 출시</h3>
<p>구글 베타버전 동시 공개하다</p>
</div>
<div id='lower' class='test' custom='nice'>
<p>바드 바들 바들1</p>
<p>바드 바들 바들2</p>
<p>바드 바들 바들3</p>
</div>
</body>
</html>
'''
4.
6.
find_all 함수
- find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환
7.
'코딩 학원(국비지원)' 카테고리의 다른 글
85일차 코딩학원 (0) | 2023.05.22 |
---|---|
84일차 코딩학원(능력단위평가) (1) | 2023.05.19 |
82일차 코딩학원 (1) | 2023.05.17 |
81일차 코딩학원 (0) | 2023.05.16 |
80일차 코딩학원. (0) | 2023.05.15 |