본문 바로가기
728x90

Programming/Python68

[Python] 파이썬 영화 사이트 (씨네21) 크롤링 안녕하세요. 코딩하는 금융인입니다. 오늘은 과거 제가 진행했던 영화 데이터 프로젝트에서 데이터 수집 과정에서 제가 사용했던 크롤링 방식을 소개해드리고자 합니다. 데이터 분석에서 가장 중요한 부분이 무엇이라고 한다면, 많이들 데이터 수집 그리고 전처리 과정이 빠지지 않고 언급됩니다. 아무리 훌륭한 분석툴과 기법을 가지고 있더라도 잘못된 수집, 전처리 과정을 거친 데이터는 잘못된 분석으로 이끌기에 정확한 수집, 전처리 능력은 데이터 분석가로서 필수 역량입니다. 주로 저는 웹사이트 관련된 코딩 업무를 할 때, 속도면에서 중요하지 않다면 자동화 과정을 볼 수 있는 파이썬 selenium을 주로 사용하고 빠르게 처리해야 한다면 requests를 주로 사용합니다. 물론, 두 가지 다 사용하는 경우가 많고 html을.. 2021. 5. 31.
파이썬 판다스 하나의 행을 여러 행으로 나누기 안녕하세요. 오늘은 데이터나 사무 업무를 하다보면, ','로 표현된 하나의 행을 각각 여러 행으로 나눠야 할 때 업무 자동화에 도움을 줄 수 있는 코드를 소개시켜드리고자 포스팅하게 되었습니다. 최근 실제 업무에서 이와 관련해서 어려움을 겪었고 대용량의 엑셀 파일일 때 Excel 조작법으로는 너무 오래 걸리기에 파이썬 판다스를 활용하여 간단하고 빠르게 해결하였습니다. (실제 업무에서 엑셀로 데이터 조작을 할 때 시간이 엄청 오래 걸립니다..ㅠ) * 아래의 파일은 사례를 들기 위해 만든 데이터 프레임으로 실제 적용하실 때는 df 값만 바꿔서 활용하시면 됩니다. ▶ 예시 및 결과 엑셀파일 ▶ 예시 파일 데이터 테이블 학번 이름 점수 20182010 승미 60, 70, 80, 95 20182016 민준 77, .. 2021. 5. 12.
728x90