녕녀기의 실험일지

[ 통계 ] 독립 표본 t-검정과 대응 표본 t-검정의 차이 본문

-- Data --/- 데이터 분석 -

[ 통계 ] 독립 표본 t-검정과 대응 표본 t-검정의 차이

녕녀기 2023. 11. 7. 16:28

본문으로

안녕하세요. 녀기입니다.

 

정말 오랜만에 포스팅입니다!!!

 

(하지만 항상 오랜만이었죠)

 

 

 

포스팅을 하는 이유는 보통 

 

오답 노트입니다(?)

 

이미 한 분야에서 달인급이신 분들은 좋은 개념을 설명하겠지만,

 

데린이에게 있어서 포스팅은 그저 오답 노트일 뿐이라구욧!!

 

 

 

그래서 어쩌면...

 

분석을 하는 과정에서 실수를 저질렀을 수도 있는 그 개념을 다시 한번 잡으려고 합니다.

 

(같은 실수를 반복하지 않기 위해)

 

(이번 포스팅은 t-검정에 대한 기초를 알려드리는 것이 아니고,

 

저의 부족한 이해를 돕기 위해 적는 글이기에

 

다소 이해할 수 없거나 수학적으로 오류가 있는 부분이 있을 수도 있습니다.

 

댓글 남겨주시면 시정하겠습니다.

 

죄송합니다. 사랑합니다♥)

 

 

 

그럼 들어가 보시죠!!!

 

(참고 블로그 링크는 아래)

https://angeloyeo.github.io/2020/02/13/Students_t_test.html

 

t-value의 의미와 스튜던트의 T 테스트 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

https://angeloyeo.github.io/2021/10/29/paired_t_test.html

 

대응 표본 t 검정(paired t-test) - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

https://m.blog.naver.com/sendmethere/221333164258

 

[통계교육] 풀어쓰는 통계 - t 검정(t-test)이란?

1. t 검정을 비롯한 관련 용어 설명  2. t 검정의 특징 t검정의 특징을 정리하자면 다음과 같다. 3. t...

blog.naver.com


독립 표본 t-검정과 대응 표본 t-검정의 차이란?

두 개의 표본 그룹에 대한 문제는 다음과 같이


  1. 공정 A와 공정 B에서 생성된 제품 품질에는 차이가 없는가?
  2. 새로운 약을 개발했을 때 효과가 있는가?

와 같이 두 집단의 평균을 비교하는 것입니다.

 

 

 

그 차이는 어떻게 비교할까요?

 

한 집단의 표본 평균이 X1이고, 다른 집단의 표본 평균이 X2일 때,

 

μ = X1 - X2 = 0 이면,

 

두 집단 간의 차이는 없다고 할 수 있습니다(귀무가설).

 

p-value가 기각역에 있다면 귀무가설을 기각하고,

 

대립가설(두 집단 간에 차이가 있을 수도 있다.)을 채택하겠지요.

 

 

 

여기까지는 문제가 없습니다만,

 

결국 두 검정의 차이는 집단의 독립성 여부죠.

 


위 예시 중 2번을 검정할 때 표본을 다음과 같이 나눌 수 있습니다.

  1. 피험자 30명을 15명씩 나눠 a 집단은 플라시보 효과를, b 집단은 실제 약을 투여
  2. 피험자 30명을 한 집단으로 취급해 처음에는 플라시보 효과를, 두 번째는 실제 약을 투여해 전후 비교

 

독립 표본 t-검정의 경우, 

 

독립된 두 집단입니다.

 

위 예시 중 1번과 같이

 

a와 b는 서로 독립입니다(공정 A와 공정 B가 독립인 것처럼).

 

이 때의 분산은 

위와 같습니다.

 

na = 15이고 nb = 15입니다. 

 

(이 때 두 집단의 분산은 같을 수도 있고 다를 수도 있습니다.

 

그 때 검정이 또 달라지게 됩니다.)

 

 

 

 

대응 표본 t-검정의 경우,

 

동일한 집단의 전후를 비교하기 때문에

 

위 예시 중 2번과 같이

 

독립이 아니며, 독립 표본 t-검정과 달리 분산도 다르게 추정합니다.

 

 

t-value를 위와 같이 계산하며,

 

d는 전후 집단의 차이고, d bar는 그 차이의 평균이죠.

 

이 때 표본 수는 위와 달리 nd = 30 입니다.

 

 

 

 

두 검정은 분산도 다르고, 자유도도 다르게 계산됩니다.

 

 

 

즉,

 

애초부터 두 집단은 다르다(독립이다) → 독립 표본 t-검정

 

동일한 집단에서 전후를 비교하고 싶다(독립이 아니다) → 대응 표본 t-검정


이 둘을 명확히 구분짓고자 했던 이유는,

 

저는 t-검정을 할 때 scipy 라이브러리를 사용합니다.

from scipy.stats import ttest_ind, ttest_rel

 

 

근데 최근에서야

 

'ttest_ind'와 'ttest_rel'이 나눠져 있다는 것을 알았고,

 

 

 

둘을 구분해서 써야 함을 깨달았습니다ㅠㅠㅠㅠㅠ

 

(직장에서 실수하지 않은 것이 다행인가....)

 

 

 

통계를 전공으로 배운 것이 아니라서,

 

학문적인 배경이 많이 부족함을 느끼네요ㅠㅠ

 

 

 

계속 정진하는 수 밖에 없는 것 같습니다.

 

공부는 죽을 때까지 하는 것이죠(?)

 

(공부하다 죽어라)

 

 

일단 저는 오늘 할 만큼 했으니 다시 도망가겠습니다.

 

뿅이에요~~

Comments