[Data Science] statistic1

3 minute read

개요

1.통계의 2가지 종류에 대해 알아보겠습니다.

  • Statistics
    • Descriptive Statistics
    • Inferential Statistics

2.sampling에 대해서도 알아보겠습니다.

1. 통계

통계는 데이터를 다루는 목적에 따라서 크게 기술 통계추리 통계로 나뉠 수 있습니다.

1-1. 기술 통계(Descriptive Statistics)

기술 통계에서 기술Technology가 아닌 Descriptive를 뜻한다. 따라서 기술 통계란 우리가 수집한 데이터를 묘사, 설명하는 통계 기법을 말한다.

기술 통계는 크게 2 가지로 나눠질 수 있다.

1-1-1. 데이터의 집중화 경향에 대한 기법

우리가 수집한 데이터를 대표하는 값이 무엇인지, 어떤 값에 집중되어 있는지를 다루는 기법이다. 대표적인 기법으로는 평균, 중앙값, 최빈값, 등이 있다.

1-1-2. 데이터가 어떻게 퍼져 있는지를 설명하는 기법

이러한 기법을 분산도라고 한다. 말 그대로 데이터가 전반적으로 어떻게 분포되어 있는지를 설명하는 방법이다. 대표적으로 표준편차(standard deviation), 사분위(quartile) 등이 있다.

다양한 기술 통계 기법을 시각화를 할 수 있다. 이곳을 가면 관련 시각화 그림을 살펴 볼 수 있습니다.

해당 기술 통계치를 코드를 통해 잠깐 살펴보자. describe()함수를 사용하면 쉽게 기술 통계치들을 확인할 수 있다.

import numpy as np

v = np.random.randint(0,100,20)
pd.DataFrame(v).describe()
#output:
	0
count	20.000000
mean	36.050000
std	28.601573
min	1.000000
25%	13.000000
50%	30.000000
75%	57.750000
max	96.000000

ps)편차가 크다는 것은 분포가 넓게 분포되어 있다는 뜻이고 곧 이말은 분배가 골고루 이루어 지지 않고 있다고 볼 수 있다.

1-2. 추리 통계(Inferential Statistics)

추리 통계란 수집한 데이터를 바탕으로 추론 예측하는 통계 기법을 말한다. 대표적인 추리 통계의 예로는 대통령 선거 예측을 들 수 있다.

해당 그림은 해당 블로그를 참조하였습니다.

추리 통계를 통해 힐러리와 트럼프 중 누가 당선될지를 예측했고 예측 결과와 달리 트럼프가 당선이 되었습니다. 결국 추리 통계는 확률일 뿐이였습니다. 이러한 이유에는 적은 표본을 비롯한 여러 가지 이유가 있을 것입니다. 여기서 중요한 것은 추리 통계를 통해 결과를 맞추고 안 맞추고를 떠나서 추리 통계 또한 중요한 통계 기법중에 하나라는 것입니다.

2. sampling

sampling을 하는 이유는 큰 모집단에서 표본 집단을 뽑기 위해서 인데, 모집단의 많은 양의 데이터를 모두 수집하기에는 힘들기 때문에 특정 집단만을 뽑아서 표본 집단으로 사용한다.

sampling을 종류에는 크게 4 가지가 존재한다.

Simple Random Sampling
모집단에서 sampling을 무작위로 하는 방법이다.
Systematic Sampling
모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법이다.
Stratified(층층이) Random Sampling
모집단을 미리 여러 그룹으로 나누고 그 그룹별로 무작위 추출을 수행하는 방법이다.
대표적인 예로 여론 조사를 위해 사람을 나이대별로 나누고 해당 그룹안에서 무작위로 추출하는 것을 들 수 있다.
Cluster Sampling
모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법이다.

3. 가설 검정(Statistical hypothesis testing)

3-1. 사전적 정의
  • 모집단(母集團, population)의 분포의 모양이나 모수(parameter) 등에 대한 가설을 세우고, 모집단에서 추출한 표본(標本, sample)에 기초하여 가설의 채택이나 기각을 결정하는 통계적 기법이다.

출처로부터 참조하였습니다.

3-2. 꼬리잡기 질문

모수란 무엇일까?

모수모집단의 특성값(모평균, 모분산 등..)을 나타내는 값이다. 이러한 값들은 모집단을 전수 조사해야만 알 수 있다. 하지만 실질적으로 모집단의 크기와 범위가 너무 방대하기 때문에 전수 조사를 실시하지 않고 표본 조사를 해야 하는데 표본 조사를 통해 표본 평균, 표본 분산을 통해 모집단의 특성값을 추정할 수 있다.

다시 한 번 정리해보면, 우리는 전체 집단의 데이터를 알 수 없다. 그래서 전체 집단의 분포에 관한 특성값들로 전체 집단의 데이터를 얼추 파악해볼 수 있다. 즉, 우리는 전체 집단의 데이터를 직접적으로 파악할 수 없기 때문에 전체 집단의 특성을 나타내는 모수를 파악하여 전체 집단의 데이터를 파악해야 한다. 여기서 모수는 전체 집단의 표본을 추출하여 표본의 표본 특성으로부터 추정을 통해 구해낼 수 있따.

전수 조사란 무엇일까?

모집단의 한 부분이나 샘플(표본)을 조사하는 것이 아니라 모집단 전체를 대상으로 조사하는 것이다.

가설 검정의 또 다른 표현 ‘통계적 가설 검정’?

가설 검정은 또 다른 말로 통계적 가설 검정이라고 한다. 이는 모집단의 특성인 모수에 대한 통계적 가설을 표본 추출을 통해 검토하는 통계적인 추론이기 때문이다.

결국 이러한 가설 검정을 하는 이유는 무엇일까?

가설 검정을 하는 이유는 새로운 가설에 대한 증거를 뒷받침하기 위해서이다. 기존의 가설이 틀렸다는 것을 새로운 가설로 입증함으로써 새로운 가설에 대한 증거를 찾는다.

표본, 표본의 사이즈가 결과에 미치는 영향을 어떻게 될까?

간단하게 말하면 표본의 사이즈가 크면 클수록 모집단과 비슷해지기 때문에 신뢰성이 더 높아진다.

표본의 통계량을 통해 모집단의 모수를 추정하는데

그렇다면, 표준 오차와 표준 편차의 개념은 뭐가 다를까?

많은 사람들이 헷갈려하는 개념 중에 하나이다. 가끔 논문에서도 두 단어를 혼용해서 사용하는 경우가 있는데 이는 분명히 다른 의미를 내포하고 있음을 명심해야 한다.

표준 오차표본 통계량의 표준 편차를 뜻한다. 표본이 매번 추출될 때마다 값이 바뀌는 특성 때문에 표본 통계량(표본 평균, 표분 분산, 표본 표준 편차)은 변동(오차)이 있다.

표준 오차는 표본의 표준 편차를 표본의 수에 루트를 씌운 값으로 나눈 값이다.

표준 편차란 단일 표본 내의 변동성(분포)을 뜻한다.