녕녀기의 실험일지

[ 통계 ] 상관 계수의 추정과 검정 본문

-- Data --/- 데이터 분석 -

[ 통계 ] 상관 계수의 추정과 검정

녕녀기 2023. 4. 17. 15:20

안녕하세요. 녀기입니다.

 

오늘도 하던 일이나 마저 해 보죠. 습관이 되기 위해서 노력해 봅시다!

 

렛츠 고도리~~


목차

  1. 개념
  2. 적용

1. 개념

1. 상관 계수(피어슨) 추정과 검정 : 2변량의 모집단에서 크기 n인 표본 데이터를 추출함. 이 때 모집단의 상관 계수를 ρ, 표본 데이터의 상관 계수를 r이라 정의

 

추정 : 모집단의 상관 계수 ρ의 95% 신뢰 구간은 다음과 같음

{(e^2a)-1 / (e^2a)+1} ≤ ρ {(e^2b)-1 / (e^2b)+1} 

 

( 단, a = (1/2)ln{(1+r)/(1-r)} - {1/√(n-3)}*1.96, b = (1/2)ln{(1+r)/(1-r)} + {1/√(n-3)}*1.96 )

 

검정 : ρ = 0일 때, T=r√(n-2) / √(1-r²)  는 자유도 n-2인 t 분포를 따르므로, 이를 이용해 기각역을 정함

 

 

 

구간 추정식에서 정규 분포의 α% 지점으로 변환하면 모상관계수 ρ의 (100-2α)% 신뢰 구간을 만들 수 있습니다.

 

위 식은 95% 신뢰 구간을 구할 때 쓰는, 정규 분포가 2.5%인 지점인 1.96을 이용했습니다.

 

이 신뢰 구간은 피셔 변환 Z = (1/2)ln{(1+r)/(1-r)}를 이용해 정규 분포로 근사할 수 있는 통계량을 만든 후, 95% 신뢰 구간을 역 피셔 변환해 원래대로 되돌려 만듭니다.

 

(책에는 피셔 변환이 자연 로그 대신 상용 로그로 나와 있는데, 자격증 책이나 다른 블로그를 보면 자연 로그로 나와 있어 자연 로그로 써 놨습니다.)

 

 

상관 관계가 있었는지 없는지 여부를 무상관검정으로 확인하실 수 있습니다.

 

귀무가설 H0 : ρ = 0, 대립가설 H1 : ρ ≠ 0이라 할 때 검정 통계량 T를 이용해 검정을 실시합니다.

 

T 값이 기각역에 속할 때는 모상관계수 ρ는 0이 아니므로 모집단에는 상관 계수가 있다고 말할 수 있습니다. 

 

표본에서 상관 계수를 구하더라도 그 값이 확률적인 변동에 불과하다고 생각할 수 있으므로,

 

무상관검정을 통해 모집단에 상관 계수가 있는지 없는지 확인하는 것 입니다.

 

주의해야 할 점은 상관 계수의 강약과 무상관검정의 결과가 반드시 일치하지 않는다는 점 입니다.

 

상관 계수 r = 0.5인 데이터와 r = 0.3인 데이터 중,

 

0.5가 통계적 유의성이 인정되지 못 하고 0.3이 인정될 때가 있습니다.

 

0.5가 강한 상관을 나타내므로 유의성이 높다고 하는 것은 섣부른 판단일 때가 있는 것이지요.


2. 적용

1. 특정 업계 대기업 6개 사를 대상으로 영업소 숫자와 매출의 상관 관계를 조사해 0.65라는 상관 계수를 얻었습니다.

 

이 상관계수가 신뢰할 수 있는 것인지(ρ = 0(무상관)인지), T 값을 이용해 검정해 봅시다.

 

T = r√(n-2) / √(1-r²) = 0.65 * √(6-2) / √(1-0.65²) = 1.71

 

자유도가 4인 t 분포의 2.5%인 지점은 2.78이기 때문에, 귀무 가설을 기각할 수 없으므로 무상관입니다.

 

(0.65라는 값은 상관이 있음을 나타낼지도 모르겠으나 표본의 크기가 너무 작고, 애초에 상관이 있는지 통계적으로 유의한 수준에서 말할 수 없는 상태입니다.)

 

 

 

2. 다음 주어진 값은 직물 공장에서 어떤 직물에 대해 물세탁에 의한 신축성 영향을 조사하기 위해, 

 

150점을 골라 세탁 전(x), 세탁 후(y)의 길이를 재어 작성해 얻은 것이다.

 

( x의 분산 = 1072.5, y의 분산 = 919.3, x와 y의 공분산 = 607.6 )

 

 

2-1. 무상관검정을 실시하면

 

T = r√(n-2) / √(1-r²) = 0.612 * √(150-2) / √(1-0.612²) = 9.414

 

( r = (x와 y의 공분산) / √(x의 분산 * y의 분산)  = 0.612 )

 

자유도가 148인 t 분포의 2.5%인 지점은 1.96이기 때문에, 귀무 가설을 기각합니다. 

 

 

2-2. 이 직물 공장에서 ρ = 0.75라고 주장합니다. 검정 통계량을 구하면

 

H0 : ρ = 0.75에서, u = (Zr - Zρ) / {1 / √(n-3)} = -3.163

 

u < -1.96이므로 H0를 기각합니다. (α = 0.05일 때)


상관 계수만 고려할 것이 아니라, 무상관 검정을 통해 통계적 유의성까지 확인했어야 했네요ㅋㅋㅋㅋ

 

표본 수가 많아지면 무상관검정의 귀무가설을 기각할 수 있는 것인지는 모르겠지만

 

기회가 된다면 충분히 시도해 볼만 하다고 생각이 듭니다.

 

이번 포스팅은 이정도로 마치고

 

다음 포스팅에서 봬요!!

 

(내용에 오류가 있다면 댓글 달아주시면 보고 맞춰서 수정하겠습니다!)

 

그럼 뿅!

 

Comments