Data Science/Data Science

[Data Science] 통계 - 변수의 종류 (질적변수, 양적변수)

데이터 분석에 들어가기 전에 분석할 데이터의 종류에 따라 분석 방법이 달라질 수 있다.

아래 표를 보면서 분석하고자 하는 데이터를 잘 파악한 후 적합한 분석법을 고려해보자.

 

 

데이터의 수량에 따른 구분

질적변수 (Qualitative variable)
 = 범주형변수 (Categorical variable)
 - 데이터가 특정 카테고리(범주)에 포함되도록 하는 변수
 - 명목변수와 순위변수로 나눌 수 있다.

 - ex) 성별(남, 여), 색깔(빨강, 주황, 노랑), 혈액형(A, B, O, AB), 학점(A, B, C, D, F), 성취도 평가(상, 중, 하)
양적변수 (Quantitative variable)  - 변수의 값을 숫자로 나타낼 수 있는 변수
 - 이산변수와 연속변수로 나눌 수 있다.

 - ex) 미세먼지 농도, 오늘 기온, 수학 점수 등등

 

질적변수

명목변수 (Norminal variable)  - 데이터가 특정 범위(범주)안에 들어가지만 순위를 매길 수 없는 변수

 - ex) 성별(남, 여), 색깔(빨강, 주황, 노랑), 혈액형(A, B, O, AB)
순위변수 (Ordinal variable)  - 데이터가 특정 범위(범주)안에 들어가지만 순위를 매길 수 있는 변수

 - ex) 학점(A, B, C, D, F), 성취도 평가(상, 중, 하)

 

양적변수

이산변수 (Discrete variable)
 - 데이터가 비연속적인 변수 (정수)

 - ex) 사람 수(4명)
연속변수 (Continuous variable)  - 값과 값 사이에 연속된(무수히 많은) 값을 갖는 변수 (실수)

 - ex) 몸무게(46.8kg), 키(164.3cm)

 

변수들 간의 연관성 분석하기

  변수 1
질적 변수(Category) 양적 변수(Numeric)
변수 2 질적
변수
Cross Table
Mosaic Plot
Box Plot
범주(Category)별 통계 분석
양적
변수
Box Plot
범주(Category)별 통계 분석
Correlation
Regression
Scatter Plot