[ 통계 ] 큰 수의 법칙, 중심 극한 정리

본문 바로가기

Notice

녀기의 블로그입니다.

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

녕녀기의 실험일지

[ 통계 ] 큰 수의 법칙, 중심 극한 정리 본문

-- Data --/- 데이터 분석 -

[ 통계 ] 큰 수의 법칙, 중심 극한 정리

녕녀기 2023. 4. 18. 13:00

안녕하세요. 녀기입니다.

오늘은 알바를 가기 전에 포스팅을 빠르게 진행해 보도록 할게요~~

( 하지만 그리 빠르지 않을 수도 있습니다(?) )

목차

개념
적용

1. 개념

0. X의 평균(Xbar) = 독립인 확률변수 X1, X2,....., Xn이 같은 분포를 따른다고 할 때, Xi의 평균을 μ라고 하고 X1, X2,....Xn의 평균을 다음과 같이 둠

Xbar = (X1 + X2 +...+ Xn) / n

1. 큰 수의 법칙(Law of Large Number) : n이 커질 수록 Xbar의 값은 μ에 가까워짐

2. 중심 극한 정리(Central Limit Theorem) : n이 커질 수록 Xbar는 정규 분포의 평균 m과 가까워지며, Xbar의 확률 분포는 정규 분포에 가까워짐

동전을 던져 앞면이 나올 때와 뒷면이 나올 때를 기록하기로 했습니다.

앞면이 나올 확률과 뒷면이 나올 확률은 각각 2분의 1 입니다.

동전을 여러 번 던져 앞이 나온 비율을 계산합니다.

과연 2분의 1 일까요?

그럴 수도 있고, 아닐 수도 있습니다.

하지만 동전을 던지는 횟수가 많아질 수록 앞이 나올 확률은 일정한 값에 가까워집니다.

이 값이 동전을 던져 앞이 나올 확률임을 보증하는 것이 '큰 수의 법칙'입니다.

동전을 던지지 말고 숟가락을 던져 봅시다.

앞면이 나올 확률은 p입니다.

i번째 숟가락을 던져 앞이 나왔을 때 Xi = 1이고, 뒤가 나왔을 때 Xi = 0이라 하면,

Xi는 확률 p로 1, 1-p로 0이 되는 확률 변수이므로 베르누이 분포 Be(p)를 따릅니다.

X1, X2,...., Xn 중에 1이 되는 Xi의 개수, 즉 n번 숟가락을 던졌을 때 앞이 나올 횟수는

X1 + X2 +.....+ Xn과 같고, Xbar는 앞이 나올 비율을 나타냅니다.

큰 수의 법칙에 따르면, n이 커질 수록 Xbar 값은 Be(p)의 평균인 p에 한없이 가까워지고,

이것이 관측 수가 많아지면 확률을 구할 수 있다는 원리입니다.

중심 극한 정리는 큰 수의 법칙을 확장해 정밀하게 만든 정리입니다.

Xi의 분포와 관계 없이 Xbar가 정규 분포에 가까워집니다.

n이 커질 수록 Xbar의 분산이 작아져 Xbar의 분포 형태는 첨탑처럼 뾰족하고 길어집니다만,

사용하지 못 하거나 그러지는 않습니다.

중심 극한 정리에 따라 크기가 클 때(n ≥ 30 일 때) 표본 평균 Xbar나 X1 + X2 +.....+ Xn은

정규 분포에 따른다고 보고 검정이나 추정을 수행합니다.

크기 n이 충분히 클 때 Xbar의 분포를 정규 분포로 봐도 좋다는 것이 큰 표본 이론을 뒷받침해 줍니다.

2. 적용

1. 손해 보험 회사 수입의 약 절반은 자동차 보험의 보험료 입니다.

보험 가입자가 낸 보험료 총액보다도 보험 청구자에게 지급할 보험금의 총액이 크다면,

보험 회사는 적자가 되고 존속이 힘들어 질수도 있을 것 입니다.

그러나 아무도 손해 보험 회사가 보험금을 많이 지급하는 바람에 망했다는 소식은 들은 적이 없을 것 입니다.

만약 보험 회사가 사고율을 5%로 하여 10명의 운전사를 상대로 보험을 팔았는데, 우연히 2명의 운전사가 사고가 난다면

사고율 = 2 / 10 * 100 = 20%가 되고 손해를 볼 수도 있습니다.

하지만 이는 가입자의 수가 적을 때며, 몇 만명이 되는 운전자가 가입을 하면

큰 수의 법칙이 작용해 사고율은 5%가 될 것 입니다.

지급할 보험금도 계산할 수 있으므로 손해를 보지 않도록 보험료를 설정하면 그만이죠.

오늘은 간단하게 정리해 봤습니다.

표본의 크기가 30이 넘어가면 정규 분포로 가정해서 검추정을 할 수 있습니다.

보통 제가 다뤘던 데이터는 표본 크기가 30을 아득히 넘었기 때문에 정규 분포로 가정했지만

Q-Q 플롯이나 샤피로-윌크 검정을 했어야 하는 생각도 드네요.

(안 해도 되겠죠 뭐....)

저는 그럼 알바하러 가 볼게요~

다음에 봬용

뿅!

'-- Data -- > - 데이터 분석 -' 카테고리의 다른 글

[ Data ] 퍼널 분석(Funnel Analysis)이란? (0)	2023.07.03
[ 도서 ] 후기 : '데이터 스토리' (0)	2023.05.08
[ 통계 ] 상관 계수의 추정과 검정 (0)	2023.04.17
[ 통계 ] 상관 계수(Correlation Coefficient) (0)	2023.04.14
[ 통계 ] Q-Q 플롯(Q-Q Plot) (0)	2023.04.13

'-- Data --/- 데이터 분석 -' Related Articles

more

Comments

티스토리툴바