일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- API
- git
- Kaggle
- It
- 통계
- tablueau
- segmentation
- 후기
- Ecommerce
- 데이터 분석
- tableau
- sql 개발자
- Google Analytics
- 용어 정리
- SQL
- bigquery
- 그로스해킹
- SQLD
- 맞춤 이벤트
- oracle
- Python
- 크로스셀링
- DISTINCT
- 캐글
- pandas
- 맞춤 자바스크립트
- Funnel
- 이벤트 매개변수
- 상관계수
- Ga
- Today
- Total
녕녀기의 실험일지
[ 통계 ] 왜도, 첨도, 사분위수, 상자 수염 그림 본문
안녕하세요. 녀기입니다.
https://nyeoki-log.tistory.com/13
[ Data ] 통계 : 도수분포표, 히스토그램, 파레토도
목차로 안녕하세요. 녀기입니다! 데이터 분석이라는 것에 발을 담궈본 지 벌써 10개월이 됐습니다. 지금도 공부랑 씨름하고 있는데, 제가 질 것 같아요(?) 언젠가는 이기기 위해 오늘도 무엇인가
nyeoki-log.tistory.com
지난 번에 이어 계속 써 보겠습니다.
목차
1. 개념
1. 왜도(Skewness, 비대칭도) : 데이터가 대칭 상태에서 얼마나 일그러졌는지, 분포가 평균치를 중심으로 대칭인지 비대칭인 결정짓는 척도
왜도 = (1/n)*∑{(xi - xbar)/s}^3 (n은 크기)(s는 표준편차)
왜도를 γ라고 할 때, γ = 0이면 좌우대칭, γ > 0이면 오른쪽으로 꼬리가 길고, γ < 0이면 왼쪽으로 꼬리가 길다.
2. 첨도(Kurtois, 뾰족한 정도) : 분포도가 얼마나 중심에 집중돼 있는지, 얼마나 뾰족한지를 측정하는 척도
첨도 : [(1/n)*∑{(xi - xbar)/s}^4]-3
첨도를 β라고 할 때, β가 0이면 표준정규분포에 가깝고, β > 0이면 가운데가 뾰족하고 좌우가 길며, β < 0이면 가운데가 뭉툭하고
좌우가 짧습니다.
위 식에 3을 뺀 것은 데이터가 정규분포를 따를 때 0이 되도록 하기 위함입니다. 3을 빼지 않고 첨도를 정의할 수 있죠.
3. 사분위수(Quartile) : 통계의 변량을 도수 분포로 정리하였을 때 적은 것으로부터 1/4, 3/4 자리의 변량값, 데이터의 오름차순 중 중앙값을 기준으로 전반부의 중앙값을 제1사분위수, 중앙값을 제2사분위수, 후반의 중앙값을 제3사분위수, (제3사분위수-제1사분위수)를 사분위 범위(IQR)라고 함
4. 상자 수염 그림(Box-and-Whisker Plot) : 데이터의 최솟값, 제1사분위수, 제2사분위수, 제3사분위수, 최댓값을 참고해 그린 그림
출처 : https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51
데이터의 산포도는 히스토그램을 보면 가장 잘 알 수 있습니다.
또한 흩어짐을 하나의 숫자로 나타내려면 분산이나 표준 편차를 사용하면 됩니다.
여기서 흩어짐에 더욱 구체적인 정보가 필요하다면 최솟값, 제1사분위수, 제2사분위수, 제3사분위수, 최댓값을 참고할 수 있고,
상자 수염 그림을 통해 히스토그램을 대략적으로 파악할 수 있습니다.
수치형 데이터 스케일 조정 중
이상치가 많다면, Standard Scaler 보다는 (data-median)/IQR 을 이용해 스케일 변환을 하는 RobustScaler가 적합합니다.
'-- Data -- > - 데이터 분석 -' 카테고리의 다른 글
[ 통계 ] 상관 계수의 추정과 검정 (0) | 2023.04.17 |
---|---|
[ 통계 ] 상관 계수(Correlation Coefficient) (0) | 2023.04.14 |
[ 통계 ] Q-Q 플롯(Q-Q Plot) (0) | 2023.04.13 |
[ 통계 ] 도수분포표, 히스토그램, 파레토도 (0) | 2023.04.12 |
[ Data ] Data Analyst / Scientist / Engineer (데이터 분석가/과학자/엔지니어) 차이점 (0) | 2023.02.23 |