카테고리 없음

파이썬을 이용한 웹 스크래핑(왕초보가 해보기 . )

공부혜이드 2023. 3. 8. 18:28

출처 

 

https://www.youtube.com/watch?v=yQ20jZwDjTE

https://www.youtube.com/watch?v=aYwg1H5BK04  

+ 학교에서 배운 지식

 


준비물 - 파이참 , 파이썬 , (나는 아나콘다, 파이썬 둘다 깔려있어서 그냥 진행했는데 보니까 파이썬이랑 아나콘다 둘중 ㅎ나만 있으면 되나보다.   )

https://easytoread.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%B0%B8-%EB%AC%B4%EB%A3%8C-%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C-%EC%84%A4%EC%B9%98-%EB%B0%A9%EB%B2%95-%EA%B8%B0%EB%B3%B8-%EC%82%AC%EC%9A%A9-%EB%B0%A9%EB%B2%95 

 

파이참 무료 다운로드 | 설치 방법 | 기본 사용 방법

파이참은 Python 유저들에게 가장 큰 인기를 얻고 있는 통합 개발 환경(IDE) 중 하나입니다. 여기서는 파이참 무료 버전(Community)을 다운로드 하는 법과 설치 방법 그리고 기본 사용 방법까지 확인해

easytoread.tistory.com


위 링크를 보다보면 'PIP' 이라는 용어가 나오는데 , 

이거는 알아두는게 좋다 . pip 은 pip installs packages (설치+ 관리를 도와주는 패키지 이다 . )

 

package는 라이브러리 같은 느낌 .남들이 짜놓은 소스를 가져다가 쓰는거 . 

오 .. 가장유명한 파이썬 라이브러리 중에서는 ' PANDAS'가 있다 .

써보자 ! 

 

'pip' 라는거는 

https://pypi.org/

 

PyPI · The Python Package Index

The Python Package Index (PyPI) is a repository of software for the Python programming language.

pypi.org

 

이 사이트에 들어가서 라이브러리를 불러온다고 생각하면 된다 . 

 

ex  ) pip install pandas 하면 

pandas 라이브러리(남이 써놓은 소스 )쓸거에요 ! 생각하면 된다 . 

 

PIP은 흔히 CONDA 와 묶여서 비교된다. 

 

 

 

CONDA  PIP
c, java까지 포함하는 패키지 관리자  파이썬 한정 패키지관리자

 

 

뭐 잘은 모르겠지만 관리해주는 놈 같다 .. 

그러면 둘 중에 하나만 깔면 되겠다  ?

 


스크래핑 크롤링
진짜 알짜배기만 (필요한 부분만 )긁어옴  눈에 보이는 정보들을 긁어옴 
막 긁어옴 사이트에서
허용된 링크를 모두 가져옴 

웹 크롤링은 뭘까  ?

데이터 긁어오기다 . 

데이터를 사용하고 분석하려면 일단  , 사용할 수 있는 형태로 가져와야한다 . 

 

물론 노가다성으로 하나하나 가져오는 경우도 있겠지만 ,,, 정보홍수 시대에서 그건 너무 힘들다 . 

그래서 포털사이트 등에서 '웹 크롤링 '을 한다 . = 데이터 긁어오기 . 

 

흔히 웹페이지에서는 HTML이라는 틀을 사용해서 데이터를 표현하는데 , 

이 페이지 소스코드를 파악해서 데이터 + 그 외 데이터를 표현하기 위한걸로 나눈다음에 

데이터만 뽑아내는 것이다 ..!! 

 

이를 위해서는 웹페이지 소스코드에 대한 이해가 조금 필요하다 . 

HTML 쓴지 3년 넘어서 한번 느낌만 봤다 ..ㅎㅎ 

 

따로 프로그램을 깔 필요없이 메모장만 있어도 html 을 확장자명으로 저장하면 만들 수 있다 

 

 

https://gpdbs9409.tistory.com/20

 

 

 

 

 

 

 

 

 

 

음 .. 본격적으로 해보자  (일렉님의 기술노트에 있는 링크이다 )

 

 

 

 

이사이트를 긁어오고 싶음.  

크롤링에서 젤 많이 이용된다고 하는

beautifulsoup4 라이브러리를 이용해보았다

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("https://news.naver.com/")

bsObject = BeautifulSoup(html, "html.parser") #for link in bsObject.find_all('a'):

print(link.text.strip(), link.get('href'))

for link in bsObject.find_all('img'): print(link.text.strip(), link.get('src'))

코드는 요렇게 했다 .

urlopen 이거는 url 열어주는 소스고

beautifulsoup 이거는 , html 받아서 html접근하게 해주는 소스이다 . 일단 상권분석에서 긁어와야 하는 태그는 뭔지 이따가 보기로 하고 , 네이버뉴스 url 에서 link 데이터들(href 태그로 시작하는 애들)을 긁어와 봤다 .

첨에는 beatifulsoup 이거가 모듈 에러가 있었다 .

https://studyhard24.tistory.com/234

여기에 나온대로 cmd 를 이용해서 python script에다가 pip install beautifulsoup4를 하니까 바로 되었다

오 .

네이버 뉴스 사이트 에서 링크들이 긁어져왔다 .

 

 

이런식으로 , ,