녕녀기의 실험일지

[ 통계 ] 왜도, 첨도, 사분위수, 상자 수염 그림 본문

-- Data --/- 데이터 분석 -

[ 통계 ] 왜도, 첨도, 사분위수, 상자 수염 그림

녕녀기 2023. 4. 12. 21:20

안녕하세요. 녀기입니다.

 

https://nyeoki-log.tistory.com/13

 

[ Data ] 통계 : 도수분포표, 히스토그램, 파레토도

목차로 안녕하세요. 녀기입니다! 데이터 분석이라는 것에 발을 담궈본 지 벌써 10개월이 됐습니다. 지금도 공부랑 씨름하고 있는데, 제가 질 것 같아요(?) 언젠가는 이기기 위해 오늘도 무엇인가

nyeoki-log.tistory.com

지난 번에 이어 계속 써 보겠습니다.


목차

  1. 개념
    1. 왜도(Skewness, 비대칭도)
    2. 첨도(Kurtosis, 뾰족한 정도)
    3. 사분위수(Quartile)
    4. 상자 수염 그림(Box-and-Whisker Plot)

1. 개념

1. 왜도(Skewness, 비대칭도) : 데이터가 대칭 상태에서 얼마나 일그러졌는지, 분포가 평균치를 중심으로 대칭인지 비대칭인 결정짓는 척도

 

왜도 = (1/n)*∑{(xi - xbar)/s}^3        (n은 크기)(s는 표준편차)

 

왜도를 γ라고 할 때, γ = 0이면 좌우대칭, γ > 0이면 오른쪽으로 꼬리가 길고, γ < 0이면 왼쪽으로 꼬리가 길다.

 

 

 

2. 첨도(Kurtois, 뾰족한 정도) : 분포도가 얼마나 중심에 집중돼 있는지, 얼마나 뾰족한지를 측정하는 척도

 

첨도 : [(1/n)*∑{(xi - xbar)/s}^4]-3 

 

첨도를 β라고 할 때, β가 0이면 표준정규분포에 가깝고, β > 0이면 가운데가 뾰족하고 좌우가 길며, β < 0이면 가운데가 뭉툭하고

 

좌우가 짧습니다.

 

위 식에 3을 뺀 것은 데이터가 정규분포를 따를 때 0이 되도록 하기 위함입니다. 3을 빼지 않고 첨도를 정의할 수 있죠.

 

 

 

 

3. 사분위수(Quartile) : 통계의 변량을 도수 분포로 정리하였을  적은 것으로부터 1/43/4 자리의 변량값, 데이터의 오름차순 중 중앙값을 기준으로 전반부의 중앙값을 제1사분위수, 중앙값을 제2사분위수, 후반의 중앙값을 제3사분위수, (제3사분위수-제1사분위수)를 사분위 범위(IQR)라고 함

 

4. 상자 수염 그림(Box-and-Whisker Plot) : 데이터의 최솟값, 제1사분위수, 제2사분위수, 제3사분위수, 최댓값을 참고해 그린 그림

 

Fig 1. 상자 수염 그림 예

출처 : https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

 

데이터의 산포도는 히스토그램을 보면 가장 잘 알 수 있습니다.

 

또한 흩어짐을 하나의 숫자로 나타내려면 분산이나 표준 편차를 사용하면 됩니다.

 

여기서 흩어짐에 더욱 구체적인 정보가 필요하다면 최솟값, 제1사분위수, 제2사분위수, 제3사분위수, 최댓값을 참고할 수 있고,

 

상자 수염 그림을 통해 히스토그램을 대략적으로 파악할 수 있습니다. 

 

수치형 데이터 스케일 조정 중

 

이상치가 많다면, Standard Scaler 보다는 (data-median)/IQR 을 이용해 스케일 변환을 하는 RobustScaler가 적합합니다.

Comments