본문 바로가기
728x90

Programming269

[파이썬] 유튜브 댓글 크롤링 (BTS MV) 사람들이 가장 자주 사용하는 사이트인 유튜브에는 많은 양의 데이터가 매일 쌓이고 있습니다. 오늘은 사람들의 반응을 알아볼 수 있는 동영상 댓글 데이터를 수집(크롤링)해보고 이를 가공, 전처리하는 프로젝트를 진행해보겠습니다. 댓글 크롤링하는 영상 : https://www.youtube.com/watch?v=CuklIb9d3fI BTS 신곡 "Permission to Dance" 최근 가장 핫한 가수인 BTS의 신곡이 나와서 해당 유튜브 영상에 대한 댓글 데이터를 크롤링해보겠습니다. 데이터 구성 : 댓글 내용, 댓글 저자 id, 댓글 날짜, 좋아요 숫자 보시다시피 유튜브는 유저 반응형 웹사이트입니다. 유저의 행동(스크롤 업다운)에 따라 숨어 있던 html 값들이 나오는 구조입니다. 따라서, 셀레니움으로 ht.. 2021. 7. 19.
파이썬 한글 자음 모음 조합하기 (NLP) 안녕하세요. 오늘은 과거 진행했던 NLP 프로젝트에서 유용했던 파이썬 프로그래밍 작업에 대해 리뷰해보겠습니다. 프로젝트 목표 : 한글 검색어에 대한 다양한 모음 조합 찾기 - 샘플 단어 : 텔레비젼 프로그래밍 작업의 목적은 자동으로 어떤 단어에 대한 모음을 재조합하여 다양한 경우의 수 찾기였습니다. 예를 들면, 텔레비젼 -> 텔레비젼, 텔래비젼, 탤레비젼, 탤래비젼 이런 식으로 'ㅔ' 를 'ㅐ'로, 'ㅐ'를 'ㅔ'로 같은 발음을 가졌지만, 모음 하나에서 차이가 나는 경우의 수를 조합하여 데이터를 가공해봤습니다. 똑같은 단어라도 사람마다 말하는 방식(발음)이 다르기에 'ㅔ'와 'ㅐ'를 조합하여 다양한 발음을 고려할 수 있는 검색어 범위를 만들어주고 싶었습니다. 따라서, 다양한 조합을 찾아 회사가 갖고 있는.. 2021. 7. 17.
구글 머신러닝 사이트 Teachable Machine이란? 오늘은 구글에서 만든 머신러닝(ML) 웹사이트 Teachable Machine에 대해서 소개해드리겠습니다. Teachable Machine은 과거 6살짜리 아이도 할 수 있는 AI로 뜨거웠던 사이트인데 재미와 유용성을 모두 잡은 획기적인 머신러닝이라고 생각하여 포스팅하게 되었습니다. ▣ 관련 기사 https://www.ajunews.com/view/20200412160639295 [문형남 칼럼] 유치원생부터 코딩놀이... 전국민이 배워야 'AI 강국' [문형남 교수]요즘 “세상은 BC(Before Corona/Covid: 코로나 이전)와 AC(After Corona/Covid: 코로나 이후)로 나뉠 것&rd... www.ajunews.com 유치원생도 할 수 있을 정도로 쉬운 웹 기반 머신러닝 도구로, .. 2021. 7. 14.
[MySQL] rank 순위 구하기 DB에서 데이터를 처리할 때, 순위(랭킹)를 구해야 하는 상황은 자주 일어납니다. MySQL은 Oracle이나 MSSQL 등에서 제공하는 ROW_NUMBER()나 RANK() 함수가 따로 존재하지 않아 따로 변수를 만들어 순위를 구하는 쿼리문을 만들어야 합니다. 과거 이와 비슷한 MySQL 그룹별 순위 매기기에 대한 글을 올렸으니 관심 있으신 분들은 보시는 걸 추천드립니다. ☞ [MySQL] 그룹별 순위 매기기 구현하기 - Sample Data : emp CREATE TABLE emp ( empno INT, ename VARCHAR(30), job VARCHAR(30), sal INT )ENGINE=INNODB DEFAULT CHAR SET=UTF8; INSERT INTO emp VALUES (7902,.. 2021. 7. 10.
[MySQL] 엑셀 import & export MySQL 엑셀(csv) 다운로드 및 내보기 sql은 기본적으로 DB에 있는 데이터를 조회하고 활용하는 언어로, DB에 테이블(데이터)이 있어야 쿼리를 보낼 수 있습니다. 따라서, 피치 못하게 외부 csv(엑셀) 파일을 DB에 load하거나 쿼리를 활용하여 만든 데이터 파일을 내보내야 하는 상황이 생길 수 있습니다. 이러한 상황에서 유용한 sql로 csv 파일을 다운로드하거나 내보내는 방법을 소개해드리겠습니다. CSV 파일 다운로드 1. DB에 CSV 저장할 테이블 만들어주기 CSV 파일의 형식에 맞춰 테이블을 만들어줍니다. CSV 파일의 컬럼 개수와 형식을 맞춰줍니다. 외부 파일을 들어오게 하기 위해 빈 방을 만들어준다고 생각하면 됩니다. CREATE TABLE members (`memeber_id` .. 2021. 7. 8.
[MySQL] 여러 행으로 분리하기 (구분자) 안녕하세요. 오늘은 MySQL 쿼리로 한 row에 들어간 값을 구분자를 활용하여 여러 행으로 나누는 방법을 소개해드리겠습니다. MySQL 여러 행으로 분리하기 ▣ 예시 데이터 :: City --예시 데이터 만들기 CREATE TABLE city (`City` varchar(36)) ; INSERT INTO city (`City`) VALUES ('Seoul, Paris, Busan, Tokyo, New York') ; City Seoul, Paris, Busan, Tokyo, New York value Seoul Paris Busan Tokyo New York - 위 예시처럼 구분자 ','를 활용하여 여러 행으로 나눠야 할 때 아래의 쿼리를 활용하시면 됩니다. select SUBSTRING_INDEX(S.. 2021. 7. 6.
728x90