본문 바로가기
728x90

Programming269

파이썬 영어 한글 발음으로 변환하기 (콩글리시) 안녕하세요. 오늘은 과거 진행했던 NLP 관련 작업에서 유용하게 사용했던 파이썬 코드에 대해 리뷰해보겠습니다. 프로젝트 : 영어로 된 특정 명사에 대한 다양한 검색어 찾기 - Sample Data : 도시 이름 (한국어 및 영어) kor_city_name eng_city_name 빅토리아 Victoria 프리타운 Freetown 포르보 Porvoo 캐스트리스 Castless 상투메 프린시페 Sao Tome and Principe 포트오브스페인 Port of Spain 오울루 Oulu 아피아 Apia 말레 Male 난탈리 Naantali 로조 Roseau 반다르스리브가완 Bandar Seri Begawan 포르토노보 Porto-Novo 킹스타운 Kingstown 프리토리아 Pretoria ※ 해당 샘플 데.. 2021. 7. 5.
[SQL] 그룹별 문자열 묶기 (group_concat, listag) MySQL 그룹별 문자열 묶기 그룹별로 컬럼 데이터(문자열)를 묶어서 보고 싶을 때가 있습니다. 이런 상황이 발생했을 때 MySQL이나 Oracle에서 유용하게 사용할 수 있는 함수를 비교해서 알려드리도록 하겠습니다. animal name monkey Lo monkey Jay monkey Jayce elephant pink elephant Tayo elephant K 위와 같이 그룹(컬럼)에 따라 데이터가 있는 상황에서, 아래와 같이 그룹별로 문자열을 묶어서 출력해야 할 때가 있습니다. animal names elephant K,pink,Tayo monkey Jay,Jayce,Lo 사용 함수(+정렬) MySQL : GROUP_CONCAT(column ORDER BY column SEPERATOR 구분자).. 2021. 7. 4.
[MySQL] 정규표현식 검색하기 REGEXP, LIKE MySQL 정규표현식 활용하여 데이터 검색하기 SQL에서 특정 문자열 조건을 가진 데이터를 검색해야 하는 경우가 종종 있습니다. like는 보다 복잡하고 다양한 문자열 패턴을 검색할 때 쿼리가 상당히 지저분해지는 단점이 있기에 이를 보완할 수 있는 REGEXP 정규표현식에 대해 알아보겠습니다. 정규표현식이란? - 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어 - 문자열을 처리하는 방법 중의 하나로, 특정한 조건의 문자를 ‘검색’하거나 ‘치환’하는 과정을 매우 간편하게 처리할 수 있도록 해주는 수단 - SQL부터 스크립트 언어까지 다양한 곳에서 활용될 수 있으며 Pattern을 사용해서 문자열을 처리 - 찾고자 하는 대상에서 정규표현식을 사용해 해당 Pattern과 일치하는 문자열 검색.. 2021. 6. 30.
[R] 반응형 그래프 만들기 plotly, dygraphs R 데이터 분석 관련하여 책을 보다가 시각화에 대한 흥미로운 내용이 있어 공유합니다. 보통 R에서 시각화를 할 때는 'ggplot2' 패키지를 주로 사용하는데 오늘은 기존의 시각화 그래프와는 다른 반응형 그래프 패키지 'plotly'와 'dygraphs'에 대해 소개해드리겠습니다. 반응형 그래프 (interactive graph)란? - 마우스 움직임에 따라 반응하며 실시간 형태가 변하거나 세부 정보를 보여주는 그래프 반응형 그래프 만들기 Sample data : gapminder (국가별 경제 수준과 평균 수명 동향) # R query # 패키지 다운로드 install.packages('plotly') library(plotly) library(ggplot2) library(dplyr) # 데이터 다운.. 2021. 6. 29.
[R] 통계 분석 및 가설 검정 (t 검정, 상관분석) 목차 통계 기법 통계적 가설 검정 T 검정 상관분석 References 통계 기법 데이터를 다루는 목적에 따라 크게 두 가지로 분류 1. 기술 통계 데이터를 요약하거나 묘사, 설명하는 통계 기법 ( "기술" : 사물의 내용을 기록하여 서술하는 것 ) 또한, 기술 통계는 2가지로 설명될 수 있음 ㄱ. 집중화 경향 (중심경향성) 대표 통계량 : 평균, 중앙값, 최빈값 중심경향성은 표본 데이터의 중심적인 경향성을 정확하게 설명할 수 있는 우수한 기술통계. 하지만, 데이터의 퍼져 있음, 즉 산포 정도까지는 설명하지 못하는 단점을 가지고 있음. ㄴ. 분산 경향 대표 통계량 : 분산, 표준편차, 사분위, 범위 데이터의 전반적인 흩어짐과 변화량에 대한 정확한 정보를 제공해줌. 데이터의 분포가 얼마나 솟아 있고, 또한.. 2021. 6. 27.
[MySQL] 날짜 요일로 변환하기 MySQL 날짜 요일 구하기 오늘은 DBMS의 대표 툴 MySQL을 활용하여 날짜의 요일을 구해보겠습니다. 종종 데이터 중에 요일은 없고 날짜만 덩그러니 있는 경우가 있습니다. 이럴 때, 어떻게 요일을 조회하고 또 Oracle과는 어떤 차이가 있는지 알아보겠습니다. 예시 사이트 : w3school-mysql Sample Data : Employees EmployeeID LastName FirstName BirthDate Photo Notes 1 Davolio Nancy 1968-12-08 EmpID1.pic Education includes a BA in psychology from Colorado State University. She also completed (The Art of the Cold C.. 2021. 6. 25.
728x90