데이터 분석에 들어가기 전에 분석할 데이터의 종류에 따라 분석 방법이 달라질 수 있다.
아래 표를 보면서 분석하고자 하는 데이터를 잘 파악한 후 적합한 분석법을 고려해보자.
데이터의 수량에 따른 구분
질적변수 (Qualitative variable) = 범주형변수 (Categorical variable) |
- 데이터가 특정 카테고리(범주)에 포함되도록 하는 변수 - 명목변수와 순위변수로 나눌 수 있다. - ex) 성별(남, 여), 색깔(빨강, 주황, 노랑), 혈액형(A, B, O, AB), 학점(A, B, C, D, F), 성취도 평가(상, 중, 하) |
양적변수 (Quantitative variable) | - 변수의 값을 숫자로 나타낼 수 있는 변수 - 이산변수와 연속변수로 나눌 수 있다. - ex) 미세먼지 농도, 오늘 기온, 수학 점수 등등 |
질적변수
명목변수 (Norminal variable) | - 데이터가 특정 범위(범주)안에 들어가지만 순위를 매길 수 없는 변수 - ex) 성별(남, 여), 색깔(빨강, 주황, 노랑), 혈액형(A, B, O, AB) |
순위변수 (Ordinal variable) | - 데이터가 특정 범위(범주)안에 들어가지만 순위를 매길 수 있는 변수 - ex) 학점(A, B, C, D, F), 성취도 평가(상, 중, 하) |
양적변수
이산변수 (Discrete variable) |
- 데이터가 비연속적인 변수 (정수) - ex) 사람 수(4명) |
연속변수 (Continuous variable) | - 값과 값 사이에 연속된(무수히 많은) 값을 갖는 변수 (실수) - ex) 몸무게(46.8kg), 키(164.3cm) |
변수들 간의 연관성 분석하기
변수 1 | |||
질적 변수(Category) | 양적 변수(Numeric) | ||
변수 2 | 질적 변수 |
Cross Table Mosaic Plot |
Box Plot 범주(Category)별 통계 분석 |
양적 변수 |
Box Plot 범주(Category)별 통계 분석 |
Correlation Regression Scatter Plot |
'Data Science > Data Science' 카테고리의 다른 글
[Data Science] 탐색적 데이터 분석 (EDA - Exploratory Data Analysis) (0) | 2021.12.17 |
---|---|
Data Science를 시작하기 전에 (feat. Python3 & TensorFlow) (0) | 2020.01.10 |