[Data Science] 탐색적 데이터 분석 (EDA - Exploratory Data Analysis)

1. EDA란 무엇인가? 탐색적 데이터 분석, EDA(Exploratory Data Analysis)란, 수집한 데이터를 분석하기 전에 데이터의 특성을 관찰하고 이해하는 단계이다. 수집한 데이터를 통해 해결하고자 하는 문제가 있는데 데이터에 대해 잘 모르는 상태에서 무작정 분석할 수는 없다. 따라서 본격적인 데이터 분석에 들어가기에 앞서 거의 필수적으로 거쳐야 하는 과정이다. 다양한 EDA를 적용시켜보면서 나만의 EDA 방식을 연구해보는 것도 좋다. 2. EDA의 목적 여러 가지 시각화 도구 및 통계 기법을 사용하여 데이터를 한눈에 파악하고 이해할 수 있다. 어떤 변수가 예측력이 높고 낮은지 확인할 수 있다. 예측 모델을 구축하기 전에 적합한 통계 도구를 선택할 수 있다. 도출하고자 하는 결과의 기본이 ..

[Data Science] 통계 - 변수의 종류 (질적변수, 양적변수)

데이터 분석에 들어가기 전에 분석할 데이터의 종류에 따라 분석 방법이 달라질 수 있다. 아래 표를 보면서 분석하고자 하는 데이터를 잘 파악한 후 적합한 분석법을 고려해보자. 데이터의 수량에 따른 구분 질적변수 (Qualitative variable) = 범주형변수 (Categorical variable) - 데이터가 특정 카테고리(범주)에 포함되도록 하는 변수 - 명목변수와 순위변수로 나눌 수 있다. - ex) 성별(남, 여), 색깔(빨강, 주황, 노랑), 혈액형(A, B, O, AB), 학점(A, B, C, D, F), 성취도 평가(상, 중, 하) 양적변수 (Quantitative variable) - 변수의 값을 숫자로 나타낼 수 있는 변수 - 이산변수와 연속변수로 나눌 수 있다. - ex) 미세먼지..

Data Science를 시작하기 전에 (feat. Python3 & TensorFlow)

데이터 마이닝, 텍스트 마이닝, 웹 크롤링, 데이터 분석, 빅 데이터 등등.. 최근 데이터 과학 기술(Data Engineering)을 다루는 분들이라면 데이터 분석 및 인공지능 학습에 주로 R언어 및 Python3 언어를 많이 사용할 것이다. R언어를 사용해보지는 않았지만 데이터 분석에는 R언어 역시 강력하다는 말도 많다. 앞으로 진행될 포스팅에서는 Python3을 사용할 것이며 운영체제는 Windows10 기반으로 작성할 예정이다. 시작하기 앞서 Python3 설치 시 버전 관련 얘기를 하고자 한다. 만약 정말 한 특정 분야만을 다루지 않는 이상 Data를 다루는 작업을 할 때에는 TensorFlow를 많이 사용한다. TensorFlow를 직접적으로 다루지 않더라도 사용하는 라이브러리에 TensorF..