파이썬을 이용한 웹 스크래핑(왕초보가 해보기 . )
출처
https://www.youtube.com/watch?v=yQ20jZwDjTE
https://www.youtube.com/watch?v=aYwg1H5BK04
+ 학교에서 배운 지식
준비물 - 파이참 , 파이썬 , (나는 아나콘다, 파이썬 둘다 깔려있어서 그냥 진행했는데 보니까 파이썬이랑 아나콘다 둘중 ㅎ나만 있으면 되나보다. )
파이참 무료 다운로드 | 설치 방법 | 기본 사용 방법
파이참은 Python 유저들에게 가장 큰 인기를 얻고 있는 통합 개발 환경(IDE) 중 하나입니다. 여기서는 파이참 무료 버전(Community)을 다운로드 하는 법과 설치 방법 그리고 기본 사용 방법까지 확인해
easytoread.tistory.com
위 링크를 보다보면 'PIP' 이라는 용어가 나오는데 ,
이거는 알아두는게 좋다 . pip 은 pip installs packages (설치+ 관리를 도와주는 패키지 이다 . )
package는 라이브러리 같은 느낌 .남들이 짜놓은 소스를 가져다가 쓰는거 .
오 .. 가장유명한 파이썬 라이브러리 중에서는 ' PANDAS'가 있다 .
써보자 !
'pip' 라는거는
PyPI · The Python Package Index
The Python Package Index (PyPI) is a repository of software for the Python programming language.
pypi.org
이 사이트에 들어가서 라이브러리를 불러온다고 생각하면 된다 .
ex ) pip install pandas 하면
pandas 라이브러리(남이 써놓은 소스 )쓸거에요 ! 생각하면 된다 .
PIP은 흔히 CONDA 와 묶여서 비교된다.
CONDA | PIP |
c, java까지 포함하는 패키지 관리자 | 파이썬 한정 패키지관리자 |
뭐 잘은 모르겠지만 관리해주는 놈 같다 ..
그러면 둘 중에 하나만 깔면 되겠다 ?
스크래핑 | 크롤링 |
진짜 알짜배기만 (필요한 부분만 )긁어옴 | 눈에 보이는 정보들을 긁어옴 막 긁어옴 사이트에서 허용된 링크를 모두 가져옴 |
웹 크롤링은 뭘까 ?
데이터 긁어오기다 .
데이터를 사용하고 분석하려면 일단 , 사용할 수 있는 형태로 가져와야한다 .
물론 노가다성으로 하나하나 가져오는 경우도 있겠지만 ,,, 정보홍수 시대에서 그건 너무 힘들다 .
그래서 포털사이트 등에서 '웹 크롤링 '을 한다 . = 데이터 긁어오기 .
흔히 웹페이지에서는 HTML이라는 틀을 사용해서 데이터를 표현하는데 ,
이 페이지 소스코드를 파악해서 데이터 + 그 외 데이터를 표현하기 위한걸로 나눈다음에
데이터만 뽑아내는 것이다 ..!!
이를 위해서는 웹페이지 소스코드에 대한 이해가 조금 필요하다 .
HTML 쓴지 3년 넘어서 한번 느낌만 봤다 ..ㅎㅎ
따로 프로그램을 깔 필요없이 메모장만 있어도 html 을 확장자명으로 저장하면 만들 수 있다
https://gpdbs9409.tistory.com/20
음 .. 본격적으로 해보자 (일렉님의 기술노트에 있는 링크이다 )
이사이트를 긁어오고 싶음.
크롤링에서 젤 많이 이용된다고 하는
beautifulsoup4 라이브러리를 이용해보았다
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://news.naver.com/")
bsObject = BeautifulSoup(html, "html.parser") #for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))
for link in bsObject.find_all('img'): print(link.text.strip(), link.get('src'))
코드는 요렇게 했다 .
urlopen 이거는 url 열어주는 소스고
beautifulsoup 이거는 , html 받아서 html접근하게 해주는 소스이다 . 일단 상권분석에서 긁어와야 하는 태그는 뭔지 이따가 보기로 하고 , 네이버뉴스 url 에서 link 데이터들(href 태그로 시작하는 애들)을 긁어와 봤다 .
첨에는 beatifulsoup 이거가 모듈 에러가 있었다 .
https://studyhard24.tistory.com/234
여기에 나온대로 cmd 를 이용해서 python script에다가 pip install beautifulsoup4를 하니까 바로 되었다
오 .
네이버 뉴스 사이트 에서 링크들이 긁어져왔다 .
이런식으로 , ,