[자연어 처리] KoNLPy를 사용하여 형태소 분석 및 DTM 만들기 - Python3, Windows 10 (feat. Okt, Pandas, Scikit-Learn)

아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/28 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (2) 아래 글에서 이어지는 내용이다. https://foreverhappiness.me/27 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (1) 아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많.. foreverhappiness.tistory.com 이전 게시글에서 BeautifulSoup 모듈을 통해 웹 페이지를 크롤링하는 방법을 알아보았다. 크롤링하여 간단한 정규 표현식으로 필터링 한 데이터를 어떻게 처리하여 사용할..

XPath를 이용하여 문서의 XML 요소 ,경로 찾기

우리가 컴퓨터에서 어떤 문서를 찾을 때 "C:\Program Files\Android\Android Studio" 이와 같은 것을 경로, 즉 Path라고 말한다. XPath란, XML Path Language로 XML 문서의 어떤 경로에 접근하기 위해 사용된다. XML상에서 특정 부분이 어떤 요소와 속성을 포함하고 있고 그 위치가 어떻게 되는지 파악할 때 주로 사용한다. 아래 링크해둔 페이지에서 테스트해보겠다. foreverhappiness.tistory.com/25 파이썬 3 (Python 3) 설치하기 (For Windows) 최근 들어 파이썬의 비중이 많이 높아지고 있다. 파이썬으로 게임을 제작하기도 하고, 인공지능, 빅데이터 분석에도 많은 라이브러리들이 제공되기도 한다. 삼성 SW 역량 평가에 P..

BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (2)

아래 글에서 이어지는 내용이다. foreverhappiness.tistory.com/27 BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (1) 아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많이 떠오르고 있을 것이다. 크롤링 (Crawling)이란, 스크래핑 (Scraping)이라고도 하는데, 웹 페이지의 특정 부분을 가져 foreverhappiness.tistory.com 정규 표현식을 사용하여 문자 필터링을 할 때는 re 모듈을 사용한다. 별도의 설치는 필요 없으며 filtering 함수를 다음과 같이 만든다. # 문자열에서 원하는 문자만 필터링하는 함수이다. def filtering(string: str) -> ..

BeautifulSoup를 활용한 웹 크롤링(Web Crawling) - Python3, Windows 10 (1)

아마 웹 크롤링이라는 용어는 Data Science 분야가 활성화되면서 많이 떠오르고 있을 것이다. 크롤링 (Crawling)이란, 스크래핑 (Scraping)이라고도 하는데, 웹 페이지의 특정 부분을 가져와서(긁어와서) 필요한 데이터를 추출해내는 작업을 말한다. 빅 데이터 분야에서는 이를 유용하게 활용하고 있지만 약 10년 전 그리고 그 이전에는 크롤링 행위가 웹 해킹에 사용되기도 했다. 물론 지금은 웹 보안도 많이 발전해서 웬만한 크롤링 작업은 의미가 없다. Python 언어는 데이터 분석 분야에서 웹 크롤링을 하는데 선두 주자로 볼 수 있다. 꼭 프로그래머나 개발자가 아니더라도 일반 학생, 일반인들도 쉽게 사용할 수 있도록 제작된 라이브러리가 제공되고 있다. 그것이 바로 BeautifulSoup이며..

사용중인 컴퓨터 프로세서가 몇 비트인지 확인하려면? (Windows 10)

현재 사용 중인 PC의 프로세서가 32비트? 64비트? 아마 프로그램 설치를 진행하면서 비트 수가 안맞아 설치하는데 고역을 겪었던 경험이 있을 것이다. 설치 프로그램이 요구하는 비트 수에 맞춰 다운로드를 해주는 것이 중요한데 이를 위해서는 현재 사용중인 컴퓨터가 몇 비트 운영체제인지 확인해볼 필요가 있다. 확인하는 방법은 간단하다. (Windows10 기준) "제어판 > 시스템"에서 바로 확인할 수 있다. 여기서 시스템의 시스템 종류에 현재 사용중인 PC가 32비트인지 64비트인지 확인할 수 있다. 요즘엔 대부분 64비트 운영체제를 많이 사용할 것이다.

파이썬 3 (Python 3) 설치하기 (For Windows)

최근 들어 파이썬의 비중이 많이 높아지고 있다. 파이썬으로 게임을 제작하기도 하고, 인공지능, 빅데이터 분석에도 많은 라이브러리들이 제공되기도 한다. 삼성 SW 역량 평가에 Python 언어도 포함시킨 걸 보면 요즘엔 알고리즘에도 사용되는 모양이다. Python3 설치하기 Python3을 설치하려면 공식 홈페이지에 들어가면 쉽게 확인할 수 있다. 아래 링크에 접속해보자. https://www.python.org/ Welcome to Python.org The official home of the Python Programming Language www.python.org 그럼 위와 같은 화면이 보일 것이다. 여기서 Downloads에 마우스를 가져다 놓으면 가장 최신 버전의 Python을 다운로드할 수 ..

Data Science를 시작하기 전에 (feat. Python3 & TensorFlow)

데이터 마이닝, 텍스트 마이닝, 웹 크롤링, 데이터 분석, 빅 데이터 등등.. 최근 데이터 과학 기술(Data Engineering)을 다루는 분들이라면 데이터 분석 및 인공지능 학습에 주로 R언어 및 Python3 언어를 많이 사용할 것이다. R언어를 사용해보지는 않았지만 데이터 분석에는 R언어 역시 강력하다는 말도 많다. 앞으로 진행될 포스팅에서는 Python3을 사용할 것이며 운영체제는 Windows10 기반으로 작성할 예정이다. 시작하기 앞서 Python3 설치 시 버전 관련 얘기를 하고자 한다. 만약 정말 한 특정 분야만을 다루지 않는 이상 Data를 다루는 작업을 할 때에는 TensorFlow를 많이 사용한다. TensorFlow를 직접적으로 다루지 않더라도 사용하는 라이브러리에 TensorF..

결국 도메인을 바로 질러버리고 말았다

아직 디자인은 기본 디자인이지만 결국 도메인을 구매해버리고 말았다. 빨리 나만의 홈페이지를 만들어 가꾸고 싶은가 보다. 보안 접속 인증서는 최대 7일까지 소요된다고 한다. https가 아니라면 모바일에서는 접속이 번거로운 모양이다. 새로운 시작 새로운 느낌으로 뭔가 뿌듯하다.

티스토리 블로그를 개설하면서 느꼈던 것들

사실 블로그를 개설하기보다는 나만의 홈페이지를 개설해볼 생각이었는데 티스토리 블로그를 활용해서 내 홈페이지처럼 가꿔나갈 예정이다. 깃허브 블로그도 생각해봤지만 네이버 블로그처럼 다른사람들을 위한 블로그가 돼버릴 것 같아서 마음 편하게 티스토리로 왔다. 어차피 깃허브 레파지토리는 또 따로 관리를 하고있으니까! 블로그를 개설하면서 이런 저런 설정들을 하는데 여러가지 문제점들이 많았다. 큰 버그는 아니더라도 사소한 버그들도 많이 보이더라. 다음이 카카오랑 합병한 후로 조금 나아진 것 같아 보이지만 아직까지 해결해야될 문제점들이나 개선해야할 점들이 많이 보인다. 하지만 차차 나아질거라 기대하며 티스토리에 노력을 기울이려 한다. 나중에는 도메인도 구매하여 마치 정말 내 홈페이지처럼 만들 생각이다.

티스토리 블로그를 개설하였다

2019년 말, 24살 막바지에 티스토리 블로그를 개설하였다. 블로그라 하면 네이버 블로그를 수도 없이 해봤지만 정작 나를 위한 블로그라기보다는 다른 사람들을 위한 블로그처럼 돼버리는 경우가 많았다. 그래서 이제는 나를 위한 블로그를 한번 시작해보려 한다. 다시 한번 나를 다듬고 가꾸어보자.