random variable : 확률변수
- 이는 확률적으로 가질 수 있는 값이 정해지는 변수를 의미
- 이를 사용하면, 내가 가질수있는 값의 불확실한 것을 정량적으로 표현이 가능하다.
probability distribution : 확률분포
- 모든 값에 대해서 일어날 수 있는 확률을 나타낸 것
- 모든 값의 합은 1이여야 한다.
- 모든 값의 확률은 0이상 1이하.
- 이산 확률 분포와 연속 확률 분포로 나뉜다.
- 연속 확률 분포는 각각의 값을 확률 밀도라고 말한다. 또한 이를 확률 밀도 함수라고도 한다.
- 연속 확률 분포는 x가 특정한 구간에 있을 확률을 구할수 있다. 해당 확률은 특정 구간의 곡선 아래 면적에 해당된다.
- 연속 확률 분포는 모든 x에서 확률밀도가 0이상이여야한다. 또한 전체 구간에서의 적분값은 1이다.
observed value : 관측값 or 관측 데이터
sample : 샘플 or 표본
uniform distribution : 균등분포
[a,b]에서의 동일한 확률분포를 가지는 균등분포
norbal distribution : 정규 분포 or 가우스 분포
- 만약에 평균이 0이고, 표준편차가 1이라면, 이를 표준 정규 분포라고 한다.
평균이 0이고, 표준편차가 1인 정규분포. 종 모양 곡선을 보여줌
각각 평균이 -3 , 0 , 5이며, 표준편차는 모두 1이다.
각각 표준편차는 0.5 , 1 , 2이며, 평균은 0이다. 표준편차가 클수록 산이 가파르다. 반면에 작을수록 산이 완만해진다.
central limit theorem : 중심 극한 정리
- 어떠한 확률분포든 샘플의 크기가 커질수록 정규분포에 가까워진다는것을 의미
N=1
N=3
N=6
N=10