본문 바로가기
Stay Hungry Stay Foolish/Statistics Major

통계학 개요

by HANNI하니 2023. 6. 19.

1. 자료의 요약

모집단 Population : 관심의 대상이 되는 관측값들 전체, 혹은 관측값들을 얻을 수 있는 원소들 전체의 집합

표본 Sample : 모집단의 부분집합

 

모수 parameter : 모집단의 특성을 나타내는 양적인 측도. 모수들은 전수조사를 통해 얻은 자료로부터 구해진다. 

통계량 statistic : 표본자료로부터 얻어진 표본의 특정치

 

 

2. 대표값

평균

모평균 : 모집단 전체의 평균 = 각 관측값의 합 / N

표본평균 : 모집단에서 표본을 추출하여 얻은 표본자료의 평균  = 각 관측값의 합 / n

절사평균 : 자료 중에서 큰 관측값이나 작은 관측값을 각각 알파%만큼 버린 나머지 관측값들로부터 구한 평균을 알파% 절사평균이라 한다. trimmed mean

가중평균 : 각 가중치*관측값 의 합 / 각 가중치의 합

 

중위수 : 자료를 관측값의 크기순으로 배열하였을 경우, 중앙에 위치한 관측값을 중위수 혹은 중앙값이라 한다.

(장점) 중위수는 평균과 달리 이상값들의 영향을 크게 받지 않는다는 장점이 있다.

(단점) 자료의 수가 많은 경우 자료를 크기순으로 재배열하여 중앙에 위치하는 관측값을 찾는 과정이 복잡하게 된다.

 

최빈수 : mode 자료 중에서 가장 많이 출현하는 관측값

(장점) 계산 간편, 관측값이 많은 경우에도 쉽게 구할 수 있다.

무게나 부피와 같은 양을 측정한 양적 자료뿐만 아니라 질적 자료에도 사용할 수 있다

(단점) 관측값의 수가 적은 경우에는 대표값의 의미가 제대로 반영되지 못한다.

 

 

3. 산포도

범위 = 최대값-최솟값

 

분산

모분산 = (관측값-평균)제곱의 합 / N

표본분산 = (관측값-평균)제곱의 합 / n-1

모분산은 개개의 관측값들과 모평균의 차이인 편차를 제곱하여 모두 더한 후 관측값들의 수인 N으로 나누어 계산하지만,

표본분산의 경우에는 편차 제곱합을 관측값들의 수인 n으로 나누지 않고 (n-1)로 나누어 계산한다.

(이유 보충 설명 필요)

 

표준편차

모집단의 표준편차 = 시그마

표본의 표준편차 = s

 

변동계수 Coefficient of Variation : 측정단위가 달라 값이 달라지는 것 대비 가능

모집단의 변동계수 = 모표준편차 / 평균

표본의 변동계수 = 표본표준편차 / 평균

 

사분위편차 quartile, IQR = Q3-Q1

 

 

 

4. 카이제곱 분포

자유도가 v인 카이제곱분포 (비대칭분포)

 

 

5.  t분포

자유도가 v인 t분포 (대칭분포)

자유도가 커짐에 따라 표준정규분포에 접근하게 된다. v=n-2

 

 

 

6.  F분포

자유도가 v1,v2 인 F분포 (대칭분포)

 

 

 

 

댓글