아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/35 [자연어 처리] 불용어(Stop Words) 처리하기 - Python3, Windows 10 아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/30 [자연어 처리] KoNLPy를 사용하여 형태소 분석 및 DTM 만들기 - Python3, Windows 10 (feat. Okt, Pandas, Scikit-Le 아래 글에서 이어지는 내용.. foreverhappiness.tistory.com 이번에는 TF-IDF(Term Frequency - Inverse Document Frequency)에 대해 알아보고자 한다. TF-IDF는 Term Frequency(단어 빈도)와 Inverse..
아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/35 [자연어 처리] 불용어(Stop Words) 처리하기 - Python3, Windows 10 아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/30 [자연어 처리] KoNLPy를 사용하여 형태소 분석 및 DTM 만들기 - Python3, Windows 10 (feat. Okt, Pandas, Scikit-Le 아래 글에서 이어지는 내용.. foreverhappiness.tistory.com 지난 시간까지 웹 페이지를 크롤링하여 이를 필터링하고 형태소 분석하고 불용어 처리까지 하여 최종적으로 DTM을 만드는 작업까지 했다. 이번 포스팅에서는 지난 시간까지 작업했던 DTM.csv 파일을..
아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/30 [자연어 처리] KoNLPy를 사용하여 형태소 분석 및 DTM 만들기 - Python3, Windows 10 (feat. Okt, Pandas, Scikit-Le 아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/28 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (2) 아래 글에서 이어지는 내용이다. https://foreverhappiness.me/27.. foreverhappiness.tistory.com 지난 시간까지 한 내용들을 전반적으로 정리해보자면 특정 주소를 웹 크롤링하여 1차 필터링하며 데이터 획득 형태소..
아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/28 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (2) 아래 글에서 이어지는 내용이다. https://foreverhappiness.me/27 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (1) 아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많.. foreverhappiness.tistory.com 이전 게시글에서 BeautifulSoup 모듈을 통해 웹 페이지를 크롤링하는 방법을 알아보았다. 크롤링하여 간단한 정규 표현식으로 필터링 한 데이터를 어떻게 처리하여 사용할..
아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/27 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (1) 아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많이 떠오르고 있을 것이다. 크롤링 (Crawling)이란, 스크래핑 (Scraping)이라고도 하는데, 웹 페이지의 특정 부분을 가져 foreverhappiness.tistory.com 정규 표현식을 사용하여 문자 필터링을 할 때는 re 모듈을 사용한다. 별도의 설치는 필요 없으며 filtering 함수를 다음과 같이 만든다. # 문자열에서 원하는 문자만 필터링하는 함수이다. def filtering(string: str) -> ..
아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많이 떠오르고 있을 것이다. 크롤링 (Crawling)이란, 스크래핑 (Scraping)이라고도 하는데, 웹 페이지의 특정 부분을 가져와서(긁어와서) 필요한 데이터를 추출해내는 작업을 말한다. 빅 데이터 분야에서는 이를 유용하게 활용하고 있지만 약 10년 전 그리고 그 이전에는 크롤링 행위가 웹 해킹에 사용되기도 했다. 물론 지금은 웹 보안도 많이 발전해서 웬만한 크롤링 작업은 의미가 없다. Python 언어는 데이터 분석 분야에서 웹 크롤링을 하는데 선두 주자로 볼 수 있다. 꼭 프로그래머나 개발자가 아니더라도 일반 학생, 일반인들도 쉽게 사용할 수 있도록 제작된 라이브러리가 제공되고 있다. 그것이 바로 BeautifulSoup이며..
데이터 마이닝, 텍스트 마이닝, 웹 크롤링, 데이터 분석, 빅 데이터 등등.. 최근 데이터 과학 기술(Data Engineering)을 다루는 분들이라면 데이터 분석 및 인공지능 학습에 주로 R언어 및 Python3 언어를 많이 사용할 것이다. R언어를 사용해보지는 않았지만 데이터 분석에는 R언어 역시 강력하다는 말도 많다. 앞으로 진행될 포스팅에서는 Python3을 사용할 것이며 운영체제는 Windows10 기반으로 작성할 예정이다. 시작하기 앞서 Python3 설치 시 버전 관련 얘기를 하고자 한다. 만약 정말 한 특정 분야만을 다루지 않는 이상 Data를 다루는 작업을 할 때에는 TensorFlow를 많이 사용한다. TensorFlow를 직접적으로 다루지 않더라도 사용하는 라이브러리에 TensorF..