[Data Science] T-test

2 minute read

개요

가설 검정의 여러 가지 방법 중 t-test에 대해 알아볼 것이다. t-test의 목적은 무엇이고 t-test를 어떻게 하는지에 대해서 자세하게 살펴보겠다.

1. T-test란?

모집단의 표준 편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정 방법

위의 말이 무슨 말인지 알기 어렵다…

2. T-test의 목적은?

간단하게! 일단은 두 개의 집단이 같은지 다른지 비교하기 위해 사용한다라고 알고 있으면 됩니다.

통계학에서 흔히 집단은 표본(샘플)이라고 한다. 하지만 샘플만 존재하는 것이 아니라 모집단도 존재한다.

모집단과 표본(샘플)의 차이는 무엇인가?

모집단이란 우리가 연구하고자 하는 전체 대상을 말한다.

표본이란 모집단 중의 일부를 추출한 대상을 말한다.

모집단과 표본의 차이를 알았다면

어떻게 두 집단이 다른지 같은지 비교할 수 있을까요?

정답은 두 집단의 평균값(대표값)이 통계적으로 같은지 다른지를 확인하면 알 수 있다.

그럼, 두 집단의 평균값의 비교를 통해 두 집단이 같은지 다른지 알 수 있을까?

예를 들어보자.

만약 A,B 대학의 남학생들의 키는 같을까? 다를까?라는 예를 살펴보자.

두 대학의 남학생의 키의 평균은 각각 178.4, 177이다. 1.4cm가 차이가 나는 것을 확인할 수 있다. 그렇다면 두 대학의 남학생들의 키가 같을까? 다를까?

이러한 질문에 우리는 통계적으로 접근할 필요가 있다. 바로 이렇게!

A 대학 남학생 평균키(178.4cm)와 B대학 남학생 평균키(177cm)가 우연히 같을 확률은 얼마나 되는가? or A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?

그리고 이 질문에 대한 답은

만약, A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같다면 두 대학의 남학생들의 키는 다를 것이고 우연히 같은게 아니라면 두 대학의 남학생들으 키는 같은 것이 된다. or A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했다면 두 대학의 남학생들의 키는 같을 것이고 우연히 발생한 것이 아니라면 두 대학의 남학생들의 키는 다를 것이다.

이렇게 생각해볼 수 있다.

이것을 t-test로 알아볼 수 있다.

정리해보면, t-test의 목적은 두 집단이 같은지 다른지를 비교할 때 하는 것이고 그것을 비교하기 위해 두 샘플의 평균값을 비교하고 그 때 우리가 해야하는 질문은 두 집단의 차이가 우연히 발생할 확률을 구함으로써 t-test의 결론을 내릴 수 있다.

3. t-test가 이루어지는 방식

위에서 다뤘던 예를 이어서 다루겠습니다.

우리가 알고 싶었던 두 집단 남학생들의 키가 같은지 다른지에 대한 통계적 질문을 구해보았다.

여기서 문제는 1.4cm의 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까? 혹은 1.4cm 차이는 과연 큰 것인가 작은가?

우리는 이 문제를 해결할 수 없습니다. 왜냐하면 알 수 없기 때문입니다. 따라서 우리는 이제 이 1.4cm가 얼마나 큰지 혹은 작은지 결정할 나름의 대상이 필요합니다.

누구를 가지고 와서 비교를 해야할까요? 표준편차(분산)

표준편차가 의미하는 바는 데이터에 큰 문제가 없는 한은 의미 없는 우연히 퍼져 있는 정도입니다.

표준 편차에 대해서 가볍게 알아보겠습니다. {1,2,3,4,5}의 값이 있을 때 해당 자료의 평균, 분산과 표준편차를 구해보자.

분산: 2.5 , 표준편차: 1.58

여기서 표준편차의 의미는 우리가 가지고 있는 데이터 평균값 3을 중심으로 평균적으로 1.58만큼 퍼져 있다는 의미이다. 즉! 1.42 ~ 4.58 사이에 퍼져 있다고 볼 수 있는 것이다.

이렇게 1.42 ~ 4.58 사이에 퍼져 있다고 하는 것은 의미 있는 중요한 퍼짐일까요? 아니면 우연히 발생한 퍼짐일까요?

의미 없는 퍼짐이라고 볼 수 있습니다. 우연히 퍼져 있는 정도입니다.

자, 그렇다면 우리는 왜 두 집단의 평균차와 표준편차를 비교해보아야 할까요?

그 이유는 두 집단의 평균차 또한 퍼져 있는 정도라고 볼 수 있기 때문입니다. 두 집단의 무수한 값들이 평균적으로 1.4cm 정도 떨어져 있다! 퍼져 있다!라고 볼 수 있기 때문입니다.

결론
만약, 두 집단의 평균차가 두 집단의 표준편차보다 현저히 작다면 우리는 이 차이가 우연히 발생했다고 결론을 내릴 수 있다.
반대로, 두 집단의 평균차가 표준편차보다 현저히 크다면 우리는 이 차이가 우연히 발생했다고 보지 않습니다. 즉, t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고서 결정하는 통계적 과정이라고 볼 수 있습니다.