카테고리 없음

파이썬을 이용한 웹 스크래핑(왕초보가 해보기 . )

공부혜이드 2023. 3. 8. 18:28

출처

https://www.youtube.com/watch?v=yQ20jZwDjTE

https://www.youtube.com/watch?v=aYwg1H5BK04

+ 학교에서 배운 지식

준비물 - 파이참 , 파이썬 , (나는 아나콘다, 파이썬 둘다 깔려있어서 그냥 진행했는데 보니까 파이썬이랑 아나콘다 둘중 ㅎ나만 있으면 되나보다. )

https://easytoread.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%B0%B8-%EB%AC%B4%EB%A3%8C-%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C-%EC%84%A4%EC%B9%98-%EB%B0%A9%EB%B2%95-%EA%B8%B0%EB%B3%B8-%EC%82%AC%EC%9A%A9-%EB%B0%A9%EB%B2%95

파이참 무료 다운로드 | 설치 방법 | 기본 사용 방법

파이참은 Python 유저들에게 가장 큰 인기를 얻고 있는 통합 개발 환경(IDE) 중 하나입니다. 여기서는 파이참 무료 버전(Community)을 다운로드 하는 법과 설치 방법 그리고 기본 사용 방법까지 확인해

easytoread.tistory.com

위 링크를 보다보면 'PIP' 이라는 용어가 나오는데 ,

이거는 알아두는게 좋다 . pip 은 pip installs packages (설치+ 관리를 도와주는 패키지 이다 . )

package는 라이브러리 같은 느낌 .남들이 짜놓은 소스를 가져다가 쓰는거 .

오 .. 가장유명한 파이썬 라이브러리 중에서는 ' PANDAS'가 있다 .

써보자 !

'pip' 라는거는

https://pypi.org/

PyPI · The Python Package Index

The Python Package Index (PyPI) is a repository of software for the Python programming language.

pypi.org

이 사이트에 들어가서 라이브러리를 불러온다고 생각하면 된다 .

ex ) pip install pandas 하면

pandas 라이브러리(남이 써놓은 소스 )쓸거에요 ! 생각하면 된다 .

PIP은 흔히 CONDA 와 묶여서 비교된다.

CONDA	PIP
c, java까지 포함하는 패키지 관리자	파이썬 한정 패키지관리자

뭐 잘은 모르겠지만 관리해주는 놈 같다 ..

그러면 둘 중에 하나만 깔면 되겠다 ?

스크래핑	크롤링
진짜 알짜배기만 (필요한 부분만 )긁어옴	눈에 보이는 정보들을 긁어옴 막 긁어옴 사이트에서 허용된 링크를 모두 가져옴

웹 크롤링은 뭘까 ?

데이터 긁어오기다 .

데이터를 사용하고 분석하려면 일단 , 사용할 수 있는 형태로 가져와야한다 .

물론 노가다성으로 하나하나 가져오는 경우도 있겠지만 ,,, 정보홍수 시대에서 그건 너무 힘들다 .

그래서 포털사이트 등에서 '웹 크롤링 '을 한다 . = 데이터 긁어오기 .

흔히 웹페이지에서는 HTML이라는 틀을 사용해서 데이터를 표현하는데 ,

이 페이지 소스코드를 파악해서 데이터 + 그 외 데이터를 표현하기 위한걸로 나눈다음에

데이터만 뽑아내는 것이다 ..!!

이를 위해서는 웹페이지 소스코드에 대한 이해가 조금 필요하다 .

HTML 쓴지 3년 넘어서 한번 느낌만 봤다 ..ㅎㅎ

따로 프로그램을 깔 필요없이 메모장만 있어도 html 을 확장자명으로 저장하면 만들 수 있다

https://gpdbs9409.tistory.com/20

음 .. 본격적으로 해보자 (일렉님의 기술노트에 있는 링크이다 )

이사이트를 긁어오고 싶음.

크롤링에서 젤 많이 이용된다고 하는

beautifulsoup4 라이브러리를 이용해보았다

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("https://news.naver.com/")

bsObject = BeautifulSoup(html, "html.parser") #for link in bsObject.find_all('a'):

print(link.text.strip(), link.get('href'))

for link in bsObject.find_all('img'): print(link.text.strip(), link.get('src'))

코드는 요렇게 했다 .

urlopen 이거는 url 열어주는 소스고

beautifulsoup 이거는 , html 받아서 html접근하게 해주는 소스이다 . 일단 상권분석에서 긁어와야 하는 태그는 뭔지 이따가 보기로 하고 , 네이버뉴스 url 에서 link 데이터들(href 태그로 시작하는 애들)을 긁어와 봤다 .

첨에는 beatifulsoup 이거가 모듈 에러가 있었다 .

https://studyhard24.tistory.com/234

여기에 나온대로 cmd 를 이용해서 python script에다가 pip install beautifulsoup4를 하니까 바로 되었다

오 .

네이버 뉴스 사이트 에서 링크들이 긁어져왔다 .

이런식으로 , ,