Data Science/Data Science

[Data Science] 탐색적 데이터 분석 (EDA - Exploratory Data Analysis)

1. EDA란 무엇인가?

탐색적 데이터 분석, EDA(Exploratory Data Analysis)란, 수집한 데이터를 분석하기 전에 데이터의 특성을 관찰하고 이해하는 단계이다.

수집한 데이터를 통해 해결하고자 하는 문제가 있는데 데이터에 대해 잘 모르는 상태에서 무작정 분석할 수는 없다. 따라서 본격적인 데이터 분석에 들어가기에 앞서 거의 필수적으로 거쳐야 하는 과정이다.

 

다양한 EDA를 적용시켜보면서 나만의 EDA 방식을 연구해보는 것도 좋다.

 

 

2. EDA의 목적

  • 여러 가지 시각화 도구 및 통계 기법을 사용하여 데이터를 한눈에 파악하고 이해할 수 있다.
  • 어떤 변수가 예측력이 높고 낮은지 확인할 수 있다.
  • 예측 모델을 구축하기 전에 적합한 통계 도구를 선택할 수 있다.
  • 도출하고자 하는 결과의 기본이 되는 가설의 검증 과정이 될 수 있다.
  • 데이터를 다양한 각도에서 살펴보면서 다양한 패턴들을 발견하고 새로운, 더 좋은 가설을 세울 수 있다.

 

 

3. EDA의 과정

EDA를 할 때 대략적인 전체 과정은 아래와 같다.

 

  1. 해결하고나 하는 문제를 파악하고 분석할 데이터들을 확인한다.
    • 독립 변수와 종속 변수를 구분한다.
    • 파악하려는 변수가 Uni-variate(일변량)인지 Multi-variate(다변량)인지 확인한다.
    • ID, No와 같이 관련이 없는 변수는 없는지 확인한다.
  2. 데이터를 전체적으로 살펴보면서 이상치, 결측치가 없는지 확인한다.
    • 이상치와 결측치를 발견했다면 원인을 파악하고 이를 어떻게 처리할 것인지 결정한다. (수정, 제거, 유지 등..)
    • K-means와 같은 머신러닝 기법을 활용해보는 것도 좋다.
    • 데이터의 일부만 보고 파악할 수 없기 때문에 전체적으로 확인한다.
    • 추가적인 데이터가 필요한지 파악한다.
    • 평균(mean), 중앙값(median) 최빈값(mode) 등의 통계 지표를 살펴보는 것도 좋다.
      • 이상치가 있을 경우 달라질 수 있기 때문에 주의한다.
  3. 시각화를 통해 데이터의 대략적인 분포를 파악하고 적절한 통계 지표를 결정한다.
    • histogram, heat map, Scatter Plot, PCA 등의 도구를 활용한다.
  4. 데이터의 변수들 간에 어떤 유의미한 상관관계를 가지는지 파악한다.
    • 데이터의 유형에 따라 적절한 분석 도구를 선택하여 분석한다.

 

4. EDA의 유형(종류)

아래와 같은 두 질문을 던져 어떤 방식으로 EDA를 할 것인지 결정할 수 있다.

  1. 주어진 데이터가 일변량인가 다변량인가?
  2. 시각화를 할 것인가 비시각화를 할 것인가?
  일변량(Uni-variate) 다변량(Multi-variate)
시각화(Graphic) - 히스토그램 (Histogram)
- 막대 그래프 (Bar Plot)
- Box Plot
- QQ-plot
- 산점도 (Scatter Plot)
- 범주별 시각화
비시각화(Non Graphic) - 통계 요약 (Summary Statistics)
- 빈도 표 (Tabulation)
- 교차 표 (Cross-tabulation)
- 상관 분석 (Correlation)

 

  • 일변량 시각화 (Uni-variate Graphic)
    • 히스토그램 (Histogram), 막대그래프(Bar Plot) : 데이터 분포를 확인하거나 이상치를 파악할 때 주로 사용하며 연속적인 데이터에 사용하면 효과적이다.
    • Box Plot : 이상치(Outlier)를 파악하거나 데이터의 치우침 정도(symmetry)를 파악할 때 효과적이다.
    • QQ-plot : 왜도(Skewness)와 첨도(Kurtosis)를 파악할 때 주로 사용한다.
  • 일변량 비시각화 (Uni-variate Non Graphic)
    • 통계 요약 (Summary Statistics) : 주로 Numeric 데이터를 분석할 때 사용하며  아래와 같은 것들을 파악할 수 있다.
      1. Center (Mean, Median, Mod)
      2. Spread (Variance, SD, IQR, Range)
      3. Modality (Peak)
      4. Shape (Tail, Skewness, Kurtosis)
      5. Outliers
    • 빈도 표 (Tabulation) : 특정 범위에 포함되는 빈도, 결측치 등을 파악하고자 할 때 많이 사용한다.
  • 다변량 시각화
    • 산점도 (Scatter Plot) : 두 변수가 양적 변수일 때 종속 변수를 y축에 두고 빈도를 확인한다.
    • 범주별 시각화 : 범주(Category)에 따라 일변량 시각화를 적용한다.
  • 다변량 비시각화
    • 교차 표 (Cross-tabulation) : 범주형 데이터에 주로 사용된다.
    • 상관 분석 (Correlation)
        범주형 변수 연속형 변수
      범주형 변수  - Cramer's V
       - Lambda
       - Logistic Regression
       - Point Biserial
      연속형 변수  - Logistic Regression
       - Point Biserial
       - Pearson Correlation
       - Spearman Correlation
       - Kendall Correlation