본문 바로가기
728x90

Programming/Python68

파이썬 유튜브 크롤링 셀레니움 1편 파이썬 Selenium 유튜브(Youtube) 크롤링 목표 : 파이썬 자동화 모듈 selenium의 webdriver를 사용하여 유튜브에 원하는 검색어를 던져 나오는 영상 데이터를 대량 및 자동으로 수집하기 던지는 검색어에 따라 나오는 유튜브 영상의 썸네일, 제목, 조회수 등 동적인 Data를 수집해야 하므로 selenium 활용! ▶ 검색 리스트 sample data : 코스피 시가총액 상위 10개 종목 cd_idx cop_youtube_search price 1 삼성전자 80,500 2 SK하이닉스 127,000 3 NAVER 387,000 4 카카오 142,500 5 삼성전자우 74,200 6 LG화학 827,000 7 삼성바이오로직스 853,000 8 현대차 238,000 9 삼성SDI 639,0.. 2021. 6. 14.
파이썬 collections 컨테이너형 자료 모듈 목차 collections 설명 collections 모듈 1. Counter 2. ChainMap 3. defaultdict 4. OrderedDict 5. namedtuple Reference 오늘은 기업 코딩테스트나 여러 알고리즘 시험에서 자주 나오는 모듈인 파이썬의 collections에 대해 알아보겠습니다. 자료구조 문제에서 효율성 테스트를 통과하기 위해서는 collections를 통해 객체 등록해야 한다라는 말이 있을 정도로 데이터 전처리나 효율적 자료 구조 설정에서 많이 활용되므로 제대로 공부해보겠습니다. Collection 설명 파이썬의 collections 모듈은 파이썬에 내장된 일반 자료형의(dict, list, set, tuple) 컨테이너 타입을 조금 더 발전시킨 형태의 구현체이다... 2021. 6. 13.
[파이썬] 웹 url 호출하기 requests post/get 파이썬을 활용한 html 다루기 Web html api를 호출하는 방법은 여러 가지가 있습니다. javascript 등 여러 가지 방법이 있지만, 파이썬 requests 모듈의 get과 post 방식에 대해 소개해드리겠습니다. 파이썬 requests 모듈 설치 파이썬 Terminal에 pip를 활용하여 설치하기 # 파이썬 requests 모듈 설치 pip install requests Website에 요청하기 네이버 사이트에 호출 먼저, get 방식으로 웹사이트에 호출해보겠습니다. import requests # Get Api 호출 url = "http://www.naver.com" response = requests.get(url= url) print(response) # 결과 : 요청 성공 여기서 R.. 2021. 6. 9.
[Python] 정규표현식 텍스트 전처리 (원하는 문자 추출) 데이터를 다루다보면, 문자열을 기호에 맞게 처리해야 하는 경우가 종종 발생합니다. 파이썬 모듈 중에서 문자열이나 text 처리를 쉽게 할 수 있는 re 모듈을 이용하여 원하는 문자만 추출하는 추출하는 방법을 배워보도록 하겠습니다. ※ 레퍼런스에 여러 가지 자료를 잘 정리한 블로그와 웹사이트를 올려놓았으니 궁금하신 분들은 찾아보시기 바랍니다! 한글만 추출하기 re 패턴 : [^ㄱ-|가-힣+] => 한글+띄어쓰기 제외한 글자 패턴 import re def test(s): hangul = re.compile('[^ ㄱ-ㅣ가-힣+]') # 한글과 띄어쓰기를 제외한 모든 글자 # hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+') # 위와 동일 result = han.. 2021. 6. 5.
[Python] 파이썬 이미지 사이즈 분류하기 파이썬 모듈 중에서 이미지 처리 및 분석을 쉽게 할 수 있는 라이브러리 PIL (Python Image Library)의 pillow 모듈이 있습니다. jpg를 포함하여 다양한 이미지 파일 형식을 지원하고 간편한 이미지 처리와 다양한 그래픽 기능을 제공하는 이미지 프로세싱 라이브러리 중 하나입니다. Problem ◈ picture 폴더에 있는 대용량의 사진 파일을 사이즈 기준 (1125 x 2000)으로 분류하기 특정 작업을 위해 사이즈 wide가 1125, height가 2000 미만인 사진들로 구성이 되어야 하는데 이를 하나하나 속성 검색하며 분류하기에는 리소스가 너무 많이 투입되는 문제 발생 이를 해결하기 위해, 파이썬으로 자동화하는 코드 생성 import os from PIL import Imag.. 2021. 6. 2.
[Python] 파이썬 영화 사이트 (씨네21) 크롤링 2 안녕하세요. 저번 게시물에 이어 파이썬 영화 데이터 크롤링 2편 포스팅하겠습니다. 씨네21 크롤링 ▶ 2차 크롤링 작업 - result_data01 kr_c_link kr_c_name http://www.cine21.com/db/writer/info/?pre_code=E20041252 박평식 http://www.cine21.com/db/writer/info/?pre_code=E20041291 이용철 http://www.cine21.com/db/writer/info/?pre_code=E20041338 황진미 http://www.cine21.com/db/writer/info/?pre_code=E20041283 이동진 ˙˙˙˙ ˙˙˙˙ 2차까지는 Selenium으로 작업하였습니다. result_data01에서.. 2021. 6. 1.
728x90