• 정해진 규칙 없이 표본을 추출
• 표본의 크기가 커질수록 정확도가 높아지며, 추정값이 모수에 근접하므로 추정 값의 분산이 줄어든다
계통 추출
• 모집단을 일정한 간격으로 추출
층화 추출
• 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
• 층내는 동질적이고, 층간은 이질적이다
군집 추출
• 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식
• 집단 내부는 이질적이고, 집단 외부는 동질적이다.
확률분포
확률 및 기본 통계 이론
확률
비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0 ~ 1 의 값으로 나타낸 것
확률의 계산
P(A)=nBnA=S의개수A의개수
S: 표본 공간 ⇒ 전체 개수
A: 사건 ⇒ 측정하려는(관심 있는) 부분
교사건
A와 B가 동시에 속하는 결과들의 모임
P(A∩B) 교집합
조건부 확률
어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률
두 개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행 조건 하에 사건 B가 일어날 확률
사건 A가 일어났을 때
사건 B가 일어날 조건부 확률
P(B∣A)=P(A)P(A∩B),P(A)=0
사건 B가 일어났을 때
사건 A가 일어날 조건부 확률
P(A∣B)=P(B)P(A∩B),P(B)=0
조건부 확률 식
베이즈 정리
어떤 사건에 대해 관측 전(사전 확률) 원인에 대한 가능성과 관측 후(사후 확률) 원인 가능성 사이의 관계를 설명하는 확률 이론
어떤 사건 B가 서로 배반인 A1, A2, A3 … An중 어느 한 가지 경우로 발생하는 경우 실제 B가 일어날 때, Ai가 발생할 확률
e.g. 어떤 회사의 A공장의부품은 50%를 생산하고 불량률은 1%이다. B공장은 부품을 30% 생산하고 불량률은 2%이고, C공장은 부품을 20% 생산하고 불량률은 3%이다. 부품을 선택했을 때 (사전 확률) C공장에서 생산한 부품일 확률을 구하시오.
A1: A공장, A2: B공장, A3: C공장, B: 불량률
P(A1): A공장에서 부품을 생산할 확률(50%), P(B|A1): A공장에서의 불량률(1%)
P(A2): B공장에서 부품을 생산할 확률(30%), P(B|A2): B공장에서의 불량률(2%)
P(A3): C공장에서 부품을 생산할 확률(20%), P(B|A3): C공장에서의 불량률(3%)
P(A3|B): 불량품이 C공장에서 생산될 확률
이산형 확률 분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
베르누이 분포
특정 실험의 결과가 성공 또는 실패 (1 또는 0) 두 가지 결과 중 하나를 얻는 확률분포
이항 분포
n번의 시행 중 각 시행의 확률이 p일 때, k번 성공할 확률분포
확률 질량 함수(PMF)
이산확률변수에서 특정 값에 대한 확률을 나타내는 함수
특징
성질
설명
모든 x에 대해 f(x) ≥ 0
모든 확률은 0보다 큼
∑x=−∞∞f(x)=1
모든 확률을 합치면 1
P(a≤X≤b)=∑x=abf(x)
a와 b 사이의 확률은 a에서 b까지의 확률을 합한 것과 같음
누적 질량 함수(CMF)
이산확률변수가 특정 값보다 작거나 같을 확률
연속확률분포
확률변수 X가 실수와 같이 연속적인 값을 취할 때 이를 연속확률변수라하고 이러한 연속확률변수 X가 가지는 확률 분포
정규분포, 표준정규분포, t-분포, 지수분포, chi-square분포, F-분포 등
종류
설명
졍규분포
종 모양의 분포
표준정규분포
• 표본 통계량이 표본 평균일 때 이를 표준화(정규화)시킨 표본분포
• 정규분포를 해석할 때 많이 쓰임
• 평균(기댓값)은 0 표준 편차(분산)는 1
t-분포
• 모집단이 정규분포라는 정도만 알고 모표준편차는 모를 때 모집단의 평균을 추론하는 분포
• 소표본에 사용
• 표본의 크기가 충분히 클 경우 중심극한정리에 의해 정규분포를 따른다
• 정규분포의 평균의 해석에 많이 쓰이는 분포
• 정규분포를 따르는 두 집단 간의 평균 차이 등
• 자유도가 30이 넘으면 표준정규분포와 비슷해지고, 자유도가 증가할수록 표준정규분포에 가까워짐
지수분포
• 지정된 시점으로부터 어떤 사건이 일어날대까지 걸리는 시간을 측정하는 확률 분포
카이제곱분포
• 표본통계량이 표본분산일 때의 표본분포
• n개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포
• 자유도 n이 작을수록 왼쪽으로 치우치는 비대칭적 모양이다
F-분포
• 모집단 분산이 서로 동일하다고 가정되는 두 모집단으로부터 표본 크기가 각각 n1, n2인 독립적인 두 개의 표본을 추출하였을때 두 개의 표본분산 s1, s2의 비율
• 독립적인 chi-sqaure 분포가 있을 때, 두 확률변수의 비
확률밀도함수(PDF)
연속확률변수의 분포를 나타내는 함수
성질
모든 확률은 0보다 크다
모든 확률을 합치면 1이다
누적밀도함수(CDF)
연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
성질
함숫값은 점점 증가한다
x값이 −∞ 이면 0, +∞이면 1
최대우도법
어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법
어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법, 점추정 방식
확률변수
특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수
확률에 의해 그 값이 결정되는 변수
앞면의 수(X)
0
1
2
계
확률
1/4
1/2
1/4
1
이산확률변수, 연속확률변수
기댓값
확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값
확률변수의 평균과 같음
해당 확률분포에서 평균적으로 기대할 수 있는 값이며, 해당 확률분포의 중심 위치를 설명해주는 값
분산
두 확률 분포의 공분산 공식
Cov(X,Y)=σXY=E(XY)−E(X)E(Y)
체비셰프정리
임의의 양수 k에 대하여 확률변수가 평균으로부터 k배의 표준 편차 범위 내에 있을 확률에 대한 예측값을 보수적으로 제공하는 정리
관측값들의 분포에 상관 없이 성립하지만, 확률에 대한 하한값 정도만 제공해줄 수 있음
표본 분포
모집단에서 추출한 일정한 개수의 표본에 대한 분포 상태
표본집단 통계량으로 모집단을 추정
모집단과 표본
모집단: 연구의 관심이 되는 집단 전체
표본: 특정 연구에서 선택된 모집단의 부분 집합
표집: 모집단에서 표본을 추출하는 절차 (표본 추출)
모수 population parameter
파라미터: 어떤 시스템의 특성을 나타내는 값
모수: 모집단population의 파라미터 (즉, 모집단의 특성을 나타내는 값: 모평균, 모분산..)