일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 이벤트 매개변수
- SQLD
- segmentation
- 데이터 분석
- API
- It
- tablueau
- Ecommerce
- 상관계수
- Google Analytics
- Python
- Funnel
- SQL
- bigquery
- 맞춤 이벤트
- 크로스셀링
- 캐글
- 후기
- Ga
- tableau
- oracle
- sql 개발자
- DISTINCT
- git
- 용어 정리
- 통계
- 맞춤 자바스크립트
- pandas
- Kaggle
- 그로스해킹
- Today
- Total
녕녀기의 실험일지
[ 통계 ] 독립 표본 t-검정과 대응 표본 t-검정의 차이 본문
본문으로
안녕하세요. 녀기입니다.
정말 오랜만에 포스팅입니다!!!
(하지만 항상 오랜만이었죠)
포스팅을 하는 이유는 보통
오답 노트입니다(?)
이미 한 분야에서 달인급이신 분들은 좋은 개념을 설명하겠지만,
데린이에게 있어서 포스팅은 그저 오답 노트일 뿐이라구욧!!
그래서 어쩌면...
분석을 하는 과정에서 실수를 저질렀을 수도 있는 그 개념을 다시 한번 잡으려고 합니다.
(같은 실수를 반복하지 않기 위해)
(이번 포스팅은 t-검정에 대한 기초를 알려드리는 것이 아니고,
저의 부족한 이해를 돕기 위해 적는 글이기에
다소 이해할 수 없거나 수학적으로 오류가 있는 부분이 있을 수도 있습니다.
댓글 남겨주시면 시정하겠습니다.
죄송합니다. 사랑합니다♥)
그럼 들어가 보시죠!!!
(참고 블로그 링크는 아래)
https://angeloyeo.github.io/2020/02/13/Students_t_test.html
t-value의 의미와 스튜던트의 T 테스트 - 공돌이의 수학정리노트 (Angelo's Math Notes)
angeloyeo.github.io
https://angeloyeo.github.io/2021/10/29/paired_t_test.html
대응 표본 t 검정(paired t-test) - 공돌이의 수학정리노트 (Angelo's Math Notes)
angeloyeo.github.io
https://m.blog.naver.com/sendmethere/221333164258
[통계교육] 풀어쓰는 통계 - t 검정(t-test)이란?
1. t 검정을 비롯한 관련 용어 설명 2. t 검정의 특징 t검정의 특징을 정리하자면 다음과 같다. 3. t...
blog.naver.com
독립 표본 t-검정과 대응 표본 t-검정의 차이란?
두 개의 표본 그룹에 대한 문제는 다음과 같이
- 공정 A와 공정 B에서 생성된 제품 품질에는 차이가 없는가?
- 새로운 약을 개발했을 때 효과가 있는가?
와 같이 두 집단의 평균을 비교하는 것입니다.
그 차이는 어떻게 비교할까요?
한 집단의 표본 평균이 X1이고, 다른 집단의 표본 평균이 X2일 때,
μ = X1 - X2 = 0 이면,
두 집단 간의 차이는 없다고 할 수 있습니다(귀무가설).
p-value가 기각역에 있다면 귀무가설을 기각하고,
대립가설(두 집단 간에 차이가 있을 수도 있다.)을 채택하겠지요.
여기까지는 문제가 없습니다만,
결국 두 검정의 차이는 집단의 독립성 여부죠.
위 예시 중 2번을 검정할 때 표본을 다음과 같이 나눌 수 있습니다.
- 피험자 30명을 15명씩 나눠 a 집단은 플라시보 효과를, b 집단은 실제 약을 투여
- 피험자 30명을 한 집단으로 취급해 처음에는 플라시보 효과를, 두 번째는 실제 약을 투여해 전후 비교
독립 표본 t-검정의 경우,
독립된 두 집단입니다.
위 예시 중 1번과 같이
a와 b는 서로 독립입니다(공정 A와 공정 B가 독립인 것처럼).
이 때의 분산은
na = 15이고 nb = 15입니다.
(이 때 두 집단의 분산은 같을 수도 있고 다를 수도 있습니다.
그 때 검정이 또 달라지게 됩니다.)
대응 표본 t-검정의 경우,
동일한 집단의 전후를 비교하기 때문에
위 예시 중 2번과 같이
독립이 아니며, 독립 표본 t-검정과 달리 분산도 다르게 추정합니다.
t-value를 위와 같이 계산하며,
d는 전후 집단의 차이고, d bar는 그 차이의 평균이죠.
이 때 표본 수는 위와 달리 nd = 30 입니다.
두 검정은 분산도 다르고, 자유도도 다르게 계산됩니다.
즉,
애초부터 두 집단은 다르다(독립이다) → 독립 표본 t-검정
동일한 집단에서 전후를 비교하고 싶다(독립이 아니다) → 대응 표본 t-검정
이 둘을 명확히 구분짓고자 했던 이유는,
저는 t-검정을 할 때 scipy 라이브러리를 사용합니다.
from scipy.stats import ttest_ind, ttest_rel
근데 최근에서야
'ttest_ind'와 'ttest_rel'이 나눠져 있다는 것을 알았고,
둘을 구분해서 써야 함을 깨달았습니다ㅠㅠㅠㅠㅠ
(직장에서 실수하지 않은 것이 다행인가....)
통계를 전공으로 배운 것이 아니라서,
학문적인 배경이 많이 부족함을 느끼네요ㅠㅠ
계속 정진하는 수 밖에 없는 것 같습니다.
공부는 죽을 때까지 하는 것이죠(?)
(공부하다 죽어라)
일단 저는 오늘 할 만큼 했으니 다시 도망가겠습니다.
뿅이에요~~

'-- Data -- > - 데이터 분석 -' 카테고리의 다른 글
[ kaggle ] cosmetics ecommerce 분석 : 분석 개요 (0) | 2024.05.07 |
---|---|
[ 후기 ] 빅데이터 분석 기사 후기 (0) | 2023.12.15 |
[ 그로스해킹 ] 인프런 강의_excel로 구현된 retention + revenue 계산 및 시각화를 Python으로 구현하기 2탄 (0) | 2023.10.20 |
[ 실생활에서 고찰 ] 테스트 - 이항 분포와의 관계 (0) | 2023.10.18 |
[ 그로스해킹 ] 인프런 강의_excel로 구현된 retention + revenue 계산 및 시각화를 Python으로 구현하기 (0) | 2023.10.13 |