본문 바로가기

코딩 학원(국비지원)

83일차 코딩학원

반응형

공부내용 정리 


1. Google Colaboratory로 파이썬 언어를 연습하고 있다. 

 

2. 크롤링이란 무엇인가? 원하는 것만 크롤링 하겠다. text 내용을 가져온다? 접근 그리고 get ! 

 

더보기

웹 크롤링은 거미가 웹을 돌아다니며 먹이를 찾는 것과 유사합니다. 웹 크롤러는 웹 사이트를 방문하여 웹 페이지를 수집하는 컴퓨터 프로그램입니다. 그런 다음 웹 페이지의 내용을 검색 엔진의 데이터베이스에 저장합니다.

 

웹 크롤링은 검색 엔진이 새 웹 페이지와 변경된 웹 페이지를 찾을 수 있도록 하기 때문에 중요합니다. 검색 엔진이 웹 페이지를 인덱싱하지 않으면 사용자는 검색할 수 없습니다.

 

웹 크롤링은 웹 사이트의 콘텐츠를 수집하는 데에도 사용할 수 있습니다. 예를 들어 웹 사이트의 뉴스 기사를 수집하여 RSS 피드로 만들거나 웹 사이트의 제품 목록을 수집하여 가격 비교 웹 사이트로 만들 수 있습니다.

 

웹 크롤링은 웹 사이트에 과부하를 줄 수 있으므로 주의해서 수행해야 합니다. 웹 사이트에 너무 많은 요청을 하면 웹 사이트가 느려지거나 다운될 수 있습니다.

 

웹 크롤링을 수행하기 전에 웹 사이트의 이용 약관을 확인하는 것이 중요합니다. 일부 웹 사이트는 웹 크롤링을 허용하지 않으므로 웹 사이트의 사용을 방해하지 않도록 주의해야 합니다.

 

3. 구글 Bard를 사용해봤다. Bard는 한국어 버전을 지원한다. chatGPT와 다른 점이다. 

 

4. request 모듈을 이용하여 get요청을 해보자. 

get 요청하기
1. http get 요청하기
2. query parameter 이용하여 데이터 전달하기
resp = requests.get(url)
resp.text

 

5. header를 추가해보자. 

#### HTTP header 데이터 이용하기
1. header 데이터 구성하기
2. header 데이터 전달하기
url = 'https://v.daum.net/v/20230513230504827'

headers = {'User-Agent' :
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'}

resp = requests.get(url, headers=headers)
resp.text

 

 

6. Beautiful Soup를 사용해보자. 


1. import 해주기 

from bs4 import BeautifulSoup

 

2.

#### html 문자열을 파싱
- 문자열로 정의된 html 데이터 파싱하기

 

3.

tml = '''
    <html>
      <head>
        <title>Beautiful Soup 테스트</title>
      </head>
      <body>
        <div id='upper' class='test' custom='good'>
          <h3>바드 출시</h3>
          <p>구글 베타버전 동시 공개하다</p>
        </div>
        <div id='lower' class='test' custom='nice'>
          <p>바드 바들 바들1</p>
          <p>바드 바들 바들2</p>
          <p>바드 바들 바들3</p>
        </div>
      </body>

    </html>
'''

4.

#### find 함수
- 특정 html tag를 검색
- 검색 조건을 명시하여 찾고자 하는 tag를 검색

 

soup = BeautifulSoup(html)

 

6.

find_all 함수

  • find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

 

7. 

 

반응형

'코딩 학원(국비지원)' 카테고리의 다른 글

85일차 코딩학원  (0) 2023.05.22
84일차 코딩학원(능력단위평가)  (1) 2023.05.19
82일차 코딩학원  (1) 2023.05.17
81일차 코딩학원  (0) 2023.05.16
80일차 코딩학원.  (0) 2023.05.15