정지홍 2022. 12. 28. 16:57

중심위치의 측도

평균:(x1+x2+......+xn)/n

표본평균: 엑스바(표본의 평균)

모평균: 뮤 (모집단의 평균)

극단값(이상점,outlier):다른 대부분의 자료보다 아주 크거나 작은 값

평균은 극단값에 영향을 받는다.

극단값 존재시 극단값을 버리고 나머지 자료로부터 평균을 구하는 것이 더 의미 있다.

중앙값:자료를 크기수 정렬시 중앙에 놓이는 값

중앙값은 이상점에 영향받지 않는다.

자료에 이상점이 존재시에 평균보다 중앙값이 중심위치의 측도로 더 큰 의미 가짐.

최빈값:자주 나오는 값

최빈값과 중앙값은 하나의 자료에 여러 개의 값이 나올 수 있어서 수리적인 분석이 어려워서 사용되지 않고 있다.

 


산포도

 

산포도:자료가 평균과 같은 중심위치에서 얼마만큼 떨어져 있느냐를 측정하는 측도

산포도로 쓰이는 것은 분산과 표준편차이다

편차:평균-자료값(각각 편차들의 크기는 데이터들이 평균으로부터 얼마나 넓게 퍼져있는가를 나타내는 측도,합은 0)

분산(variance):(편차의 제곱의 합)/자료의 수

모분산은 모집단의 분산, 표본분산은 표본의 분산이며 표본분산계산시 분모를 (자료의 수)가 아닌 (자료의 수-1)을 사용.

표준편차:분산의 제곱근

변동계수(coefficient of variation):두 종류의 자료의 산포를 비교할때 사용, 두 종류의 자료값 차이가 클때 사용

변동계수(v)=s(표본표준편차)/x바(표본평균)

범위(range):자료의 최댓값-자료의 최솟값

사분위수IQR:Q1은 반절의 앞에 부분, Q3는 반절의 뒷부분, Q2는 중앙값

사분위범위=Q3-Q1

 


상대적 위치의 측도

 

백분위수:제P백분위수는 자료값 중 P%가 그 값보다 작거나 같고 (100-P)%가 그 값보다 크거나 같게 하는 값

제25,50,75백분위수는 각각 Q1,Q2,Q3에 해당한다.

Z점수:어떤 특정한 자료값이 평균으로부터 표준편차의 몇 배만큼 떨어져있는가 측정

z-score=x-평균/표준편차

 

체비셰프의 법칙(Chebyshev's Rule):어떠한 확률분포라도 평균으로부터 표준편차의 k배 이내에 최소 전체의

100x(1-1/k^2)%들어있다.

p{모평균-k*모표준편차 ≤ x ≤ 모평균+k*모표준편차} ≥1-1/k^2

 


집단화된 자료

집단화된 자료에서는 계급값을 사용하며 계급값은 각 계급구간의 중간점이다.

누적도수:i번째 계급의 누적도수는 첫번째부터 i번쨰까지의 모든 계급의 도수를 합한것