일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- It
- 통계
- 데이터 분석
- 크로스셀링
- tablueau
- Python
- Ga
- 후기
- oracle
- bigquery
- Ecommerce
- SQL
- 캐글
- SQLD
- 맞춤 이벤트
- 이벤트 매개변수
- 그로스해킹
- DISTINCT
- Funnel
- segmentation
- API
- 맞춤 자바스크립트
- git
- Google Analytics
- 용어 정리
- pandas
- 상관계수
- sql 개발자
- tableau
- Kaggle
- Today
- Total
녕녀기의 실험일지
[ 통계 ] 큰 수의 법칙, 중심 극한 정리 본문
안녕하세요. 녀기입니다.
오늘은 알바를 가기 전에 포스팅을 빠르게 진행해 보도록 할게요~~

( 하지만 그리 빠르지 않을 수도 있습니다(?) )
목차
1. 개념
0. X의 평균(Xbar) = 독립인 확률변수 X1, X2,....., Xn이 같은 분포를 따른다고 할 때, Xi의 평균을 μ라고 하고 X1, X2,....Xn의 평균을 다음과 같이 둠
Xbar = (X1 + X2 +...+ Xn) / n
1. 큰 수의 법칙(Law of Large Number) : n이 커질 수록 Xbar의 값은 μ에 가까워짐
2. 중심 극한 정리(Central Limit Theorem) : n이 커질 수록 Xbar는 정규 분포의 평균 m과 가까워지며, Xbar의 확률 분포는 정규 분포에 가까워짐
동전을 던져 앞면이 나올 때와 뒷면이 나올 때를 기록하기로 했습니다.
앞면이 나올 확률과 뒷면이 나올 확률은 각각 2분의 1 입니다.
동전을 여러 번 던져 앞이 나온 비율을 계산합니다.
과연 2분의 1 일까요?
그럴 수도 있고, 아닐 수도 있습니다.
하지만 동전을 던지는 횟수가 많아질 수록 앞이 나올 확률은 일정한 값에 가까워집니다.
이 값이 동전을 던져 앞이 나올 확률임을 보증하는 것이 '큰 수의 법칙'입니다.
동전을 던지지 말고 숟가락을 던져 봅시다.
앞면이 나올 확률은 p입니다.
i번째 숟가락을 던져 앞이 나왔을 때 Xi = 1이고, 뒤가 나왔을 때 Xi = 0이라 하면,
Xi는 확률 p로 1, 1-p로 0이 되는 확률 변수이므로 베르누이 분포 Be(p)를 따릅니다.
X1, X2,...., Xn 중에 1이 되는 Xi의 개수, 즉 n번 숟가락을 던졌을 때 앞이 나올 횟수는
X1 + X2 +.....+ Xn과 같고, Xbar는 앞이 나올 비율을 나타냅니다.
큰 수의 법칙에 따르면, n이 커질 수록 Xbar 값은 Be(p)의 평균인 p에 한없이 가까워지고,
이것이 관측 수가 많아지면 확률을 구할 수 있다는 원리입니다.
중심 극한 정리는 큰 수의 법칙을 확장해 정밀하게 만든 정리입니다.
Xi의 분포와 관계 없이 Xbar가 정규 분포에 가까워집니다.
n이 커질 수록 Xbar의 분산이 작아져 Xbar의 분포 형태는 첨탑처럼 뾰족하고 길어집니다만,
사용하지 못 하거나 그러지는 않습니다.
중심 극한 정리에 따라 크기가 클 때(n ≥ 30 일 때) 표본 평균 Xbar나 X1 + X2 +.....+ Xn은
정규 분포에 따른다고 보고 검정이나 추정을 수행합니다.
크기 n이 충분히 클 때 Xbar의 분포를 정규 분포로 봐도 좋다는 것이 큰 표본 이론을 뒷받침해 줍니다.
2. 적용
1. 손해 보험 회사 수입의 약 절반은 자동차 보험의 보험료 입니다.
보험 가입자가 낸 보험료 총액보다도 보험 청구자에게 지급할 보험금의 총액이 크다면,
보험 회사는 적자가 되고 존속이 힘들어 질수도 있을 것 입니다.
그러나 아무도 손해 보험 회사가 보험금을 많이 지급하는 바람에 망했다는 소식은 들은 적이 없을 것 입니다.
만약 보험 회사가 사고율을 5%로 하여 10명의 운전사를 상대로 보험을 팔았는데, 우연히 2명의 운전사가 사고가 난다면
사고율 = 2 / 10 * 100 = 20%가 되고 손해를 볼 수도 있습니다.
하지만 이는 가입자의 수가 적을 때며, 몇 만명이 되는 운전자가 가입을 하면
큰 수의 법칙이 작용해 사고율은 5%가 될 것 입니다.
지급할 보험금도 계산할 수 있으므로 손해를 보지 않도록 보험료를 설정하면 그만이죠.
오늘은 간단하게 정리해 봤습니다.
표본의 크기가 30이 넘어가면 정규 분포로 가정해서 검추정을 할 수 있습니다.
보통 제가 다뤘던 데이터는 표본 크기가 30을 아득히 넘었기 때문에 정규 분포로 가정했지만
Q-Q 플롯이나 샤피로-윌크 검정을 했어야 하는 생각도 드네요.
(안 해도 되겠죠 뭐....)
저는 그럼 알바하러 가 볼게요~
다음에 봬용
뿅!

'-- Data -- > - 데이터 분석 -' 카테고리의 다른 글
[ Data ] 퍼널 분석(Funnel Analysis)이란? (0) | 2023.07.03 |
---|---|
[ 도서 ] 후기 : '데이터 스토리' (0) | 2023.05.08 |
[ 통계 ] 상관 계수의 추정과 검정 (0) | 2023.04.17 |
[ 통계 ] 상관 계수(Correlation Coefficient) (0) | 2023.04.14 |
[ 통계 ] Q-Q 플롯(Q-Q Plot) (0) | 2023.04.13 |