chapter09
상관분석:변수와 변수사이의 관계가 있는지
회귀분석:변수와 변수사이의 관계식에 대한 추론, 변수가 직선관계면 선형회귀 곡선이면 곡선회귀
상관분석
표본상관계수r:산점도에서 대략적으로 파악할수 있는 두 변수의 관계를 하나의 수로 나타내는 방법, 값은 항상 -1과 1사이.
기울기가 양수면 +1, 기울기가 음수면 -1과 가깝다. 그리고 1 or -1에 가까울 수록 직전 주위에 밀접된것이며 이는 서로 직선관계가 강함을 의미. 0에 가까우면 직선관계가 약하다는 것을 의미하지만 변수 사이에 관계가 없음을 의미하는 것은 아니다. 이 값은 모상관계수와 표본추출에 따른 확률에도 영향 받음
표본상관계수r은 모상관계수p의 추론에 사용
상관계수의 검정은 귀무가설 : p=0이라 두고 검정통계량으로는 표본상관계수 r을 사용.
기각역은 p>0: r>=r알파(n-2) . p<0: r<=r알파(n-2) 이다.
회귀분석
설명변수:영향을 주는 변수
응답변수≒독립변수≒종속변수:영향을 받는 변수
회귀분석은 설명변수로부터 종속변수의 값을 예측하는것
설명변수가 1개면 단순회귀분석, 2개이상이면 다중회귀분석이라한다.
단순선형회귀의 미지의 직선관계를 Y=a+bx+e라하자 여기서 e는 N(0,분산)인 오차항을 나타낸다.
여기서 직관관계식은 모회귀선이라한다. 모회귀선을 y햇=a햇+b햇x으로 추정시 오차제곱합을 최소로 추정하는 것을 최소제곱법이라하며 이때 구해지는 a햇,b햇값을 최소제곱통계량이라한다. 또한 이 값들로 구해지는 직선을 추정회귀직선이라한다.
추정회귀직선을 이용허요 설명변수의 값 xi에 대응하는 반응변수의 추측값을 구해보면 실제와 다르게 나타나며 이들의 차를 잔차라고 한다. 이들의 값이 작을수로 실제 관측결과를 잘 설명해주는 것이다.
오차제곱합SSE(error sum of squares):잔차의 제곱합
평균제곱오차MSE(mean squares error):SSE/n-2 , 오차항의 분산을 추정, d,
MSE는 추정회귀직선에서 얻는 예측값과 관측값이 얼마나 다르게 나타나는지 요약해줌
회귀제곱합SSR(regression sum of squares):총제곱합에서 이 값이 차지하는 부분이 커야 관측결과를 잘 설명해주는 것이다.
총제곱합SST(total sum of squares)=SSE-SSR
총제곱합은 설명변수x를 고려하지 않을때의 추정에 따르는 오차의 크기를 나타냄
오차제곱합은 설명변수x를 고려한 회귀모형에서의 추정에 따르는 오차의 크기
SST에 비하여 SSE가 작으면 회귀모형에 의한 자료의 설명이 좋다
(기울기가 양수인 직선이 있다고 가정. x절편은 음수 y절편은 양수로 가정. y절편아래는 회귀제곱합(회귀에 의해 설명되는 부분) y절편위에는 오차제곱합(오차항에 기인). 이 둘의 합은 SST이다)
총제곱합에서 회귀제곱합이 차지하는 비중을 결정계수라한다. r^2=SSR/SST
단순선형회귀모형에서 Y=a+bx+e 기울기인 b는 모회귀계수라 한다. 귀무가설이 사실이라면 설명변수 x가 반응변수를 설명하는데에 의미가 없다는 뜻이다. 이러한 뜻에서 이 가설 검정을 회귀직선의 유의성검정이라한다.