다중선형회귀분석 spss - dajungseonhyeonghoegwibunseog spss

SPSS 통계분석

SPSS 회귀분석 및 해석 방법 (SPSS 다중회귀분석)

SPSS 회귀분석 (Linear Regression Analysis) 방법을 살펴보겠습니다. 

회귀분석이란, 

정량적 변수(점수화 할 수 있는 변수)가 정량적 변수에 미치는 영향을 

검증하고자 할 때 사용하는 분석입니다. 

단순회귀분석은 독립변수가 한 개가 종속변수에 미치는 영향을 검증하는거고, 

다중회귀분석은 독립변수 여러 개가 종속변수에 미치는 영향을 검증하는거에요. 

단순회귀분석이나 다중회귀분석이나, 

방법에서는 동일하기 때문에, 다중회귀분석 예시로 볼게요. 

예를 들면, 휴대폰의 디자인 만족도와 기능 만족도가 

전반적 만족도에 미치는 영향에 대해 분석을 하겠습니다. 

1. [분석] - [회귀분석] - [선형] 을 선택합니다. 

2. 독립변수에는 '디자인 만족도'와 '기능 만족도'를, 

   종속변수에는 '전반적 만족도'를 넣어줍니다. 

   그리고 "통계량" 메뉴에 들어갑니다. 

3. 독립변수의 다중공선성 여부를 파악하기 위해 "공선성 진단"을 체크하고, 

   잔차의 독립성 여부를 검증하기 위해 "Durbin-Watson"을 체크합니다. 

   그리고 "계속", "확인"을 클릭해주면 됩니다. 

그러면 결과가 나타나는데요. 

먼저 모형 요약에서는 

R제곱과 수정된 R제곱, 그리고 Durbin-Watson 값이 나왔네요. 

R제곱독립변수가 종속변수를 얼마나 설명하는지를 의미하는 통계량입니다. 

여기서는 .459로 나타났기 때문에, 약 45.9%를 설명한다고 할 수 있습니다. 

수정된 R제곱은 변수가 많아지면 무조건 높아지는 R제곱의 단점을 보완한 R제곱입니다. 

여기서 수정된 R제곱은 .457로 나타났네요. 

R제곱과 큰 차이가 나지 않을수록 좋은 모형이라고 할 수 있습니다. 

요즘은 논문에서 R제곱과 수정된 R제곱을 모두 표기하는 게 일반적입니다. 

한편 Durbin-Watson1에서 3 사이의 값을 보이면, 

잔차의 독립성에 큰 문제가 없다고 할 수 있는데, 

여기선 1.874로 나타나 잔차의 독립성이 충족된 것으로 판단됩니다. 

다음으로 분산분석에서는, 

F값에 대한 유의확률을 확인해야 하는데, 

유의확률(p값)이 0.05보다 작으면, 

회귀모형이 적합하다고 할 수 있습니다. 

마지막으로 계수에서는, 

VIF값을 먼저 봐야 하는데, VIF가 10 미만이면, 다중공선성에는 문제가 없다고 합니다. 

다중공선성이란, 너무 비슷한 변수가 독립변수에 포함된 경우를 말하는데, 

여기서는 VIF값이 모두 1점대로 작으므로, 다중공선성 문제는 없는 것으로 나타났네요. 

다음으로 변수의 유의성을 확인하기 위해 유의확률을 볼게요. 

유의확률이 0.05보다 작으면, 그 변수가 종속변수에 유의한 영향을 미친다고 할 수 있어요. 

디자인 만족도와 기능 만족도의 유의확률이 모두 0.05보다 훨씬 작게 나타났네요. 

즉, 디자인 만족도와 기능 만족도는 전반적 만족도에 유의한 영향을 미치는 것으로 판단됐네요. 

베타값을 볼까요? 

디자인 만족도는 .129, 기능 만족도는 .596으로 나타났습니다. 

둘 다 플러스 값이기 때문에, 

디자인 만족도와 기능 만족도는 전반적 만족도에 정(+)의 영향을 미친다고 할 수 있습니다. 

그리고 베타 값이 기능 만족도가 훨씬 크기 때문에, 

기능 만족도가 디자인 만족도 보다는 전반적 만족도에 더 큰 영향을 미친다고 할 수 있겠네요. 

결과적으로 휴대폰 회사에서는, 고객들의 전반적인 만족도를 높이기 위해서는, 

디자인보다는 기능에 중점적인 개선을 해야한다고 결론을 낼 수 있겠네요. 

아래는 논문에서 주로 표현하는 표의 형태입니다. 

참고하시구요. 

이상 SPSS로 회귀분석을 하는 방법 소개였습니다. 


참고.  카이제곱 검정​   독립표본 t-검정​   대응표본 t-검정​ ​  일원배치분산분석

        상관관계 분석

메르스가 창궐하고 있다. 처음에는 진짜 감기처럼 쉽게 생각했고, 건강한 사람은 반드시 완치될거라고 생각했다.

그런데 35세의 삼성병원 의사마저 에크모(ECMO; 체외혈액순환기)를 통해서 생명이 유지되고 있다고 하니 이제야 비로소 실감이 나기 시작했다.

우리나라 최고의 병원에서, 질병이라면 최고의 전문가 조차 피해가지 못한다니... 전염병이란 무섭긴 무서운가 보다.

그런데 호환, 마마, 메르스 보다 무서운것은 아이들이 학교에 가지 못하는 웃지 못할 상황...

어찌하랴... 나에게 주어진 운명인것을...

그래서 나는 오늘도 공부에 매진해본다.

전염병이 돈다고 해서, 치사율이 높다고 해서 내가 두려움에 떨고 있을 필요는 없으니까...

회귀분석은 표준 회귀분석, 위계적 회귀분석, 단계적 회귀분석, 로지스틱 회귀분석 등과 같이 종류가 매우 다양하다.

그 중에서 다중회귀분석은 지난 시간에 했던 단순회귀분석의 확장판으로 선형 모델을 기초로 독립변수가 2개 이상일 때 사용된다.

내 아내는 두 아들의 키에 민감하다.. ㅡㅡ;

분명 9살, 7살임에도 또래 아이들보다 작다며 슬퍼한다. 물론 시선은 나를 향해 있다. ㅜㅜ

그러면서도 "5세 이하까지 무료" 라는 놀이공원 및 뷔페 식당 문구를 보면 흐믓한 미소를 짓기도 한다.

갈톤도 나의 키와 비슷했을까?

회귀분석은 갈톤의 "아버지와 아들의 키 연관성 연구"에서 비롯되었다고 한다.

아버지의 키가 크면 대체적으로 아들도 키가 크다. 아버지가 작으면 아들도 작다. 그러나 아버지가 매우 크다고 해서 아들이 반드시 큰 것은 아니었으며, 반대로 아버지가 매우 작다고 해서 아들 또한 매우 작은 것은 아니었다. 

아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질이 있다는 것을 갈톤이 연구를 통하여 발견하였고, 여기에서 회귀(regression)란 단어를 사용하였다고 한다.
 

가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다... ^^


상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며, 독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다. 다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.


변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을 단순회귀 분석, 독립변수가 두개 이상인것을 다중회귀분석이라 한다. 그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고, 회귀 분석은 인관관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를 분석하는 것이다.

화살표의 방향을 보면 이해하는 데 도움이 될 것이다.


앞에서도 얘기했지만 독립변수는 영향을 미치는 변수 즉, 원인변수이며, 종속변수는 영향을 받는 변수 즉, 결과 변수이다. 따라서 아무런 상관이 없는 변수가 아닌 서로 논리적 타당성이 있는 변수를 독립변수와 종속변수로 설정해야 한다. 다중 회귀분석의 가장 기본적인 과업은 상수 및 각 베타회귀계수를 구하는 것이다.

두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 하며, 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것이다(회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음).

위의 회귀식에서 ∧ (hat; 추정자)은 잔차(residual)를 의미하며 종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다.

단순회귀식에 봤던 것과는 달리 엡실론(ε ; epsilon)이 사라지고 종속변수 Y와 베타회귀 계수에 ∧ (hat; 추정자) 를 붙인것을 볼 수 있다. 회귀식을 표기할 때 엡실론이 들어가면 hat 을 빼야하고, hat 이 들어가면 엡실론을 삽입하면 된다. 둘의 의미는 같고 표기 방식만 다를 뿐이다.

회귀분석에서 변수들은 다음과 같은 전제 조건을 필요로 한다. 

첫번째로 독립변수와 종속변수는 서로 선형적 관계가 있어야 한다. 다시말해 독립변수값이 변하면 종속변수도 일정하게 변해야 한다는 것이다.

두번째로 종속변수의 관측치와 예측치 간의 차이를 오차항이라 하는데 이러한 오차항의 일정한 분산과 정규 분포를 해야 한다.

세번째로 오차항의 독립성이 필요한데 쉽게 말해 변수들이 통계적으로 서로 독립적이어야 한다는 것이다. 독립변수는 종속변수에 영향을 미쳐야 하는데 독립변수끼리 또는 종속변수끼리 영향을 서로 미치게 되면 안된다는 것이며, 이렇게 영향을 미치는 정도를 다중공선성이라 한다. 다중공선성은 독립변수가 여러개 즉, 다중회귀분석에서 적용되는 개념이므로 다음에 다시 언급할 것이다..


상관분석에서 상관관계의 정도를 나타내는 계수가 바로 상관계수(R ; correlation coefficient)였다. 이 상관계수를 제곱한 값이 바로 결정계수(R2 ; coefficient of determination) 이다. 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가? 다시말해 독립변수가 종속변수를 얼마나 잘 설명하고 있는가를 나타낸 계수이다.

결정계수는 상관계수와 마찬가지로 0 < R2 < 1 사이의 값을 가지며, 일반적으로 0.65 (65%) 보다 클 경우 회귀식을 잘 설명한다고 판단한다.

하지만 명확한 기준은 없는것 같다.

결정계수가 조금은 낮게 나왔더라도 연구자가 그 이유에 대해 충분히 입증할 수 있으면 가능할 것이라 생각되며, 아래 슬라이드의 Dancey의 등급을 참고해도 좋을것 같다.

수정된 결정계수는 다중회귀분석에서 나오는 개념으로 독립변수의 수가 늘어날 수록 결정계수가 높아지는 단점이 있어 이를 보완하기 위해 도입되었다. 따라서 다중회귀분석에서는 결정계수가 아닌 수정된 결정계수를 논문에 언급해야 한다. 하지만 많은 논문에서 결정계수만 언급되고 있는데, 논문 심사자 및 학회지의 특성에 따라 적절하게 쓰면 될것 같다.


상관분석에서 언급했던 Dancey의 상관계수 등급이다. 결정계수 또한 상관계수의 제곱이므로 이 등급을 같이 사용할 수 있다. 결정계수는 최소한 Moderate 등급은 되어야 하며, P 값이 0.05보다 낮게 나왔더라도 Weak 등급 이하는 회귀식을 적용하는 의미가 없어진다. 예를들어 결정계수가 0.3 이라면, 독립변수가 종속변수를 설명하는 정도는 30%에 불과하며, 70% 다른 원인에 의해 변화된다는 얘기가 되어버리는 것이다. 


회귀분석을 하게되면 결과에 분산분석 표가 등장한다.

여기에서의 분산분석은 세 그룹간의 평균차이 검정이 아닌 회귀선이 통계적으로 유의한지 여부를 검정하는 것이다.

따라서 분산분석의 P 값이 귀무가설을 기각 (P<0.05) 하여야 한다는 얘기가 된다.

이 분산분석의 가설은 다음과 같다.

H0 : 회귀선이 유의하지 않다 (β0).

H1 : 회귀선이 유의하다 (β≠ 0).


다른 평균 분석들에서는 주로 정규성만 검증하면 됐었는데 회귀분석에서는 검증해야 할 항목이 많다.

회귀식을 다시 한번 살표보면, 

y = β0 β1x + ε1

여기에서 y = 종속변수, β0 = 상수, β= 회귀계수, ε= 잔차를 의미한다.

회귀분석의 기본 가정사항 중 잔차의 독립성이 있다.

잔차가 다른 잔차에 영향을 미치게 되는 경우를 자기 상관이라고 하는데 자기 상관이 높으면 분석의 신뢰성을 잃게 된다.

잔차의 독립성은 Durbin-Watson 값으로 판단하게 되는데 0에 가까울수록 양의 자기상관, 4에 가까울수록 음의 자기상관이 있다고 판단하며, 2에 가까울수록 자기 상관이 없다고 판단한다. 보통 1.5 ~ 2.5 사이의 값을 적용하는것 같다.


잔차의 정규성은 데이터탐색 기능을 이용하는게 아니라 위와 같이 그래프를 보고 판단한다.

위와 같은 그래프를 정규 P-P 도표라고 하는데 대각선을 중심으로 데이터들이 균일하게 분포되어 있어야 한다.

만약 어느 한 데이터가 대각선으로부터 많이 떨어져 있다면 그 데이터를 삭제하거나 다시 측정해 볼 필요가 있다. 


위와 같이 대각선에 다른 무리들과 떨어져 있는 값을 이상값이라 한다. 이상값이 많을수록 결정계수는 낮아지며, 그만큼 회귀식의 설명력 또한 낮아지게 된다.

이상값을 판별하는 것은 "표준화""쿡의 거리""표준화 DFFIT" 옵션을 통해 확인할 수 있다.

통계 옵션에서 위의 세가지를 체크하게 되면 SPSS의 데이터보기 창에 새로운 데이터가 생성되며, 표준화의 절대값이 3 미만이어야 하고, 쿡의 거리 절대값이 1 미만 그리고 표준화 DFFIT 절대값은 2 미만으로 나와야 한다.

마지막으로 회귀분석은 등분산을 하고 있어야 하는데, 이는 모두 회귀분석 결과에서 확인할 수 있다.


다중 공선성은 다중회귀분석에서 매우 중요한 개념이다. 독립변수가 여러 개일 경우 그 변수들 끼리 상관관계가 높을 경우 잘못된 결과가 도출될 수 있다. 일반적으로 독립변수들 끼리의 상관계수가 90% 이상이면 공선선이 있다고 판단하는데 SPSS에서는 VIF 즉, 분산확대인자가 10 이상으로 나올 경우 다중 공선성이 있다고 판단한다.

VIF 외에도 공차한계를 통해서도 다중공선성을 판단할 수 있다. 마찬가지로 공차한계도 SPSS 의 결과 표에서 확인할 수 있다.

공차한계는 공성선을 점검하기 위해 많이 사용되는 지표로서 한 독립변수가 다른 독립변수들에 의해 설명되지 않는 부분을 의미한다. 공차한계 값이 작을 수록 다중 공선선이 높다고 판단한다.

VIF는 공차한계의 역수로 계산되는데 절대치는 없으나 일반적으로 공차한계는 0.1 이하, VIF는 10 이상일 때 다중 공선선이 높다고 판단하며 공선성을 낮추기 위해서는 상관관계가 높은 독립변수를 제거하거나 단계선택방식을 사용하여 분석하기도 한다.

위의 표에서 빨간색 음영이 되어 있는 VIF 값들을 보았을 때 모두 10 보다 훨씬 크게 나타나있다. 여기에서 X4 변수가 282.513으로 가장 높가 나타나 있는데 X4를 제거하고 다시 분석해보면 VIF 가 10 미만으로 내려간 것을 확인 할 수 있다. 또한 P 값 역시 X4 제거 전과 후에 변화가 심하게 나타난 것을 확인할 수 있다.

다중 공선성이 의심되면 아래의 상황을 의심해 볼 수 있다.

1.  Data 수에 비해 과다한 독립변수를 사용했을 때

2. 독립변수들의 상관계수가 크게 나타날 때

3. 한 독립변수를 회귀모형에 추가하거나 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때

4. 새로운 Data를 추가하거나 기존의 Data를 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때

5. 중요하다고 생각되어지는 독립변수에 대한 P 값이 크게 나타나 통계적 차이가 없을 때 (회귀계수의 부호가 과거의 경험이나 이론적인 

    면에서 기대되는 부호와 정반대일 때)

다중 공선성이 발생되면, 회귀 모형의 적합성이 떨어지고, 다른 중요한 독립변수가 모형에서 제거 될 가능성이 높다. 또한 결정계수의 값이 과대하게 나타날 수 있거나 설명력은 좋은데 예측력이 떨어질 수 있게된다.

다음은 예제를 통하여 다중회귀분석에 대해 더 알아보도록 한다.

첨부파일에 있는 Multiple regression.sav 파일을 다운 받은 후 SPSS 에서 오픈한다.

심장의 좌심실에서 나가는 대동맥의 뿌리 부분을 대동맥근이라고 하고 대동맥판막이 있는 부분을 Annulus 라고 하는데 나이가 들거나 체표면적(BSA)에 따라서 늘어날 수 있다. 이것을 통계적으로 분석해보고자 한다.

회귀분석은 반드시 연속형 변수만 가능하다. 만약 범주형 변수가 있다면 더미변수로 변환해서 해야 된다. 일단 더미변수 변환은 다음에 하기로 하고 지금은 독립변수1=BSA, 독립변수2=Age 로 설정하고 종속변수는 Annulus로 설정하였다. 세 변수 모두 연속형으로 측정된 변수이다.


회귀분석의 연구가설은 다음과 같다.

귀무가설 : 모든 독립변수는 Annulus의 직경에 영향을 미치지 않을 것이다. 즉, 회귀선이 유의하지 않다는 것을 의미하며 β1 = 0 으로 표기할 수 있다.

대립가설 : 독립변수 중 적어도 하나는 Annulus 직경에 영향을 미칠 것이다. 즉, 회귀선이 유의하다. 적어도 한 개의 회귀선은 유의하다는 것을 의미하며 β1 ≠0 으로 표기할 수 있다.

분석과정은 산점도를 통해 어느정도 라인성이 있을것인지 판단해본다. 그리고 상관분석을 수행해야 되지만 여기서는 상관분석은 생략하고 곧 바로 다중회귀분석으로 들어간다.

산점도는 그래프(G) => 차트작성기(C...) => 산점도/점 도표 => 산점도 행렬을 통해서 확인할 수 있다. 단순회귀분석과 다른 점은 단순산점도가 아닌 산점도 행렬을 통해서 여러개의 독립변수와 한개의 종속변수 간의 산점도를 한번에 평가하는 것이다.

산점도에서 라인성 평가가 끝나면 분석(A) => 회귀분석(R) => 선형(L)... 의 과정을 통해 다중회귀분석을 수행한다.

첨부된 Multiple regression.sav 파일을 오픈한다.

데이터 보기(D)를 보면 성별, 연령, Heart rate, BSA, Annulus 변수의 값들이 보일 것이다.

변수 보기(V) 항목으로 이동하면 각 변수들에 대한 특성들을 정의 할 수 있다.

성별을 제외한 모든 변수는 연속형 변수로서 척도(S) 로 설정되어 있는 것을 볼 수 있다.

상관분석 및 회귀분석의 특징 중 하나는 독립변수 및 종속변수 모두 반드시 연속형 변수여야 한다는 것을 우린 이미 알고 있다. 다만, 범주형 변수의 경우 더미변수로 처리해야 한다. 더미변수를 활용한 회귀분석은 다음 시간에 다루어 본다.


산점도 그래프를 위해 그래프(G) => 차트 작성기(C)... 를 클릭한다.

확인을 클릭한다.

차트 작성기는 여러 종류의 차트들을 만들 수 있도록 가이드를 제시해준다.

우리는 산점도를 그릴 것이므로 산점도/점 도표 를 선택 후 오른쪽에서 산점도 행렬 을 클릭한다.

산점도 행렬을 클릭하면 위의 빈 공간에 행렬의 모습이 나타난다.

독립변수와 종속변수를 모두 선택 후 마우스로 클릭한 채로 "분산행렬입니까?" 항목으로 끌어다 놓는다.

대력적인 산점도가 보여진다.

확인을 클릭한다.

이렇게 해서 행렬 산점도가 그려졌다.

독립변수와 종속변수를 하나씩 그려보고 싶다면 단순산점도를 하면되고, 한꺼번에 보고 싶다면 행렬 산점도를 선택하면 된다.

종속변수가 Annulus 이고 종속변수가 Age, Heart_rate, BSA 이므로 어느 축을 가상으로 설정하여 보도록한다.

보통 종속변수가 Y 축이므로, 가장 아래쪽에 있는 3개 그래프를 보도록 한다.

Annulus-Age 그래프는 거의 선형성이 없어 보인다. 있다면 주변으로 이상치 들이 너무 많이 보인다. 그렇다면 이상치를 삭제하거나 R 스퀘어 값이 낮게 나올 수 있다는 것을 예상해 볼 수 있다.

Heart_rate 역시 이상치가 많이 보이지만 Age 보다는 약간의 선형성이 형성되어 있다.

마지막 Annulus-BSA 그래프는 제대로 된 양의 선형성을 보여주고 있다.

이것만 보아도 회귀분석이 잘 될것인가, 어느 변수가 의미가 있을 것인가를 예상해 볼 수 있다.

이제 실제 분석을 해보기 위해 분석(A) ==> 회귀분석(R) ==> 선형(L)... 메뉴를 차례로 클릭한다.

선형 회귀분석 대화상자가 나타났다.

Annulus를 종속변수(D): 로 보내고 나머지 Age, Heart_rate, BSA 를 독립변수(I): 항목으로 보낸다.

오른쪽 메뉴의 통계(S)... 를 클릭한다.

단순회귀분석에서는 기술통계와 Durbin-Watson 만 추가로 클릭하면 됐었다.


하지만 다중회귀분석에서는 매우 중요한 추가 항목이 있다.

독립변수의 갯수가 늘어날수록 R 스퀘어 값은 증가하는 경향이 있어 그 값을 그대로 사용하면 신뢰도가 떨어질 수 있으므로 R 제곱 변화량(S) 기능을 통하여 수정된 R 제곱 값을 확인해야 한다.

그외 독립변수들 끼리의 상관성이 있는지 조사하기 위해 공선성 진단(L) 를 클릭한다.

계속 을 클릭하고 빠져나온다.

다음 오른쪽 메뉴의 도표(T)... 를 클릭한다.

각 항목들은 다음과 같은 의미를 가지고 있다.

DEPENDNT : 종속변수를 의미

*ZPRED : 표준화된(평균=0, 분산=1) 예측값을 의미 ==> X

*ZRESID : 표준화된(평균=0, 분산=1) 잔차(오차)를 의미 ==> Y

*DRESID : 삭제된 잔차를 의미

*ADJPRED : 수정된 예측값을 의미

*SRESID : 스튜던트화된 잔차를 의미

*SDRESID : 스튜던트화된 삭제된 잔차를 의미

변수들의 분포도를 보기 위해 표준화된 예측값인 *ZPRED 를 X: 에, 잔차인 ZRESID 는 Y: 에 입력한다.

히스토그램(H)과 정규 확률 도표(R) 를 선택하고 계속 클릭한다.

다음 오른쪽 메뉴에서 저장(S)... 를 클릭한다.

이 메뉴에서는 이상치들을 판별할 수 있는 기능을 제공한다.

표준화(A), 표준화 DFFIT, 쿡의 거리(K) 를 클릭한다.

회귀분석에서 이 세가지는 항상 셋트로 클릭하길 바란다.

계속을 클릭한다.

회귀분석을 추정하는 방식에는 Enter, 단계적, 제거, 후진, 전진 의 5가지 방법을 제공한다.

Enter와 단계적 방식을 주로 사용한다.

통계학자들은 다양한 방법들의 통계 방법을 제공하는데 기준이 어떻게 되느냐에 따라 결과 값이 달라질 수 있다.

그런 의미에서 통계를 공부하면 다양하게 활용할 수 있는 능력이 배양되고, 내 논문의 통계 결과가 본인의 생각과 다르게 나왔을 때 다른 분석 방법을 통해 의미있는 결과를 만들어낼 수 있다.

따라서 Enter로 해보았을 때, 또는 단계적 방법을 적용해 보았을 때 분석 결과가 마음에 안든다면 제거, 후진, 전진까지 모두 해보기 바란다.

그렇게 하면 본인이 원하는 결과 값을 얻을 수도 있다.

각각의 개념들에 대해서는 위로 올라가서 확인하길 바란다.

먼저 Enter 를 선택하고 확인을 클릭한다.

기술통계를 통해 간단하게 평균 및 표준편차를 확인할 수 있다.

회귀분석의 변수들은 모두 연속형 변수이니까...

회귀분석은 기본적으로 선형성을 바탕으로 분석한다.

그래서 선형회귀분석이라고도 한다.

선형성이라는 말은 상관분석에서 처럼 상관계수와 관련이 있다는 말이다.

따라서 회귀분석 한번으로 피어슨 상관계수까지 확인이 가능하다.

종속변수 Annulus 를 기준으로 피어슨 상관계수를 확인해 보자.

Age 는 0.345 로 나왔으니 상관성이 있다고 보기는 어렵다. 다음 Heart_rate 역시 0.385 로서 비슷한 결과를 얻었다.

그러나 BSA는 0.782 로서 매우 강한 상관관계가 있음을 알 수 있다.

추정방식을 Enter 를 선택했으므로 모든 독립변수들이 입력된 상태에서 분석이 진행된다.

모형 요약 표는 R 제곱값과 조정된 R 제곱 값을 제시해 준다.

먼저 R 값은 피어슨 상관계수를 의미한다. 위에서 보았던 상관 표에 나온것은 종속변수와 독립변수들 간의 1:1 상관계수를 의미한 것이고 여기에서 보여주는 상관계수는 독립변수 BSA, Age, Heart_rate 모두를 묶어서 종속변수와의 관계성을 보여준다.

다음 가장 중요한 R 제곱 값은 0.650 으로 나타났다. 독립변수 세가지는 종속변수에 대해 65% 만큼 설명을 하고 있다.

여기서 R 제곱은 R 스퀘어 또는 결정계수라고 한다.

결정계수는 전체 편차중에 회귀선이 설명하여 줄일 수 있는 비율을 의미한다.

더 쉽게 이야기하면, Y값은 평균과 차이가 발생할 수 밖에 없다.

그  Y값을 추정하는데 있어서, 어느 정도까지는 회귀선으로 설명할 수 있지만, 회귀선으로도 설명할 수 없는 잔차라는 부분이 존재할 수 밖에 없다. 그렇기 때문에, 회귀선이 Y값을 얼마나 설명할 수 있냐를 평균과의 차이 중에 회귀선이 설명할 수 있는 부분이 차지하는 비율로 측정할 수 있다. 그러니, 결정계수 값이 1에 가까울수록 설명력이 높고, 그 만큼 회귀선이 정확한 것이 된다는 것을 검증할 수 있다.

그런데 위에서도 얘기했지만 독립변수의 갯수가 많아지면 많아질수록 R 제곱 값은 높아지는 경향이 있다.

따라서 다중회귀분석에서는 R 제곱 값이 아닌 조정된 R 제곱 값을 사용해야 한다.

하지만 실제 논문을 보게 되면 조정된 R 제곱 값을 표기한 경우는 거의 없었다.

통계 강사에게 문의한 적도 있는데 조정된 R 제곱 값을 쓰는게 원칙이지만 논문을 게제하는 학회지나 리뷰어가 특별히 문제 삼지 않는다면 R 제곱 값을 쓰기도 한다는 것이었다.

얼마 차이는 안나지만 R 제곱 값이 높게 나오니까 논문 저자에게는 아무래도 유리한 측면이 있기 마련이다.

마지막 확인해야 할 것은 Durbin-Watson 값이다. 

2에 가까울수록 자기상관이 없다라고 할 수 있는데 1.826 으로 나왔으므로 분석에 문제가 없는것으로 볼 수 있다.

다음은 분산 분석 표로서 유의확률 값으로 다음을 평가할 수 있다.
 

귀무가설 : 회귀식의 설명력(R2)은 0 이다 (H0 : β1 = 0).

대립가설 : 회귀식의 설명력(R2)은 0 이 아니다 (H0 : β1 ≠0).

왠지 귀무가설, 대립가설이란 말이 나오면 말이 어려워지는것 같다.

쉽게 설명하면 이렇다.

유의확률 P 값이 0.05 이상(P ≥ 0.05) 이면, 이 회귀분석은 의미가 없다 라는 뜻이 되고 P 값이 0.05 미만(P < 0.05) 으로 나타나면 이 회귀분석은 의미가 있다 라고 해석할 수 있다.

따라서 지금 하는 회귀분석이 의미가 있으려면 먼저 분산분석에서 통과를 해야 한다.

위의 결과에서 P=0.000 으로 매우 유의하게 나타났으므로 이 회귀식의 설명력은 의미가 있게 나타난 것이다.

다음은 회귀식을 구성할 수 있는 계수 표이다.

분석결과 비표준계수 베타에 의해   와 같은 회귀식이 도출되며, 변수들의 통계적 유의성을 검정 하기 위하여 표준 계수를 통해 독립변수가 종속변수에 미치는 상대적 영향력을 비교한다. 표준 계수란 단위와 분포의 평균이 변수마다 다르기 때문에 이를 비교해보기 위해서 변환한 수치를 의미한다. 표준 계수는 단순히 비교를 위한 계수이며, 실제로 종속변수값을 구할 때는 표준화 이전의 원래 수치(비표준 계수)를 이용해야 한다.

다중공선성 진단을 위해 공선성 통계 표를 본다.

허용 오차는 0.10 이하, VIF(분산팽창요인)는 10 이상일 때 다중공선성이 있다고 판단하게 되는데 위의 표에서 허용오차 및 VIF 모두 기준 값을 만족하므로 다중공선성이 없다고 판단할 수 있다.

공선성 진단을 위해 사용된 데이터들이다.

다음으로 넘어간다.


잔차 통계 표를 통해 이상치 들이 포함되었는지 확인 할 수 있다.

그런데 이 표 보다는 SPSS 문서의 "데이터 보기(D" 에서 주로 확인한다.

히스토그래을 통해 이상치들이 있는지 정규성 그래프를 통해 대략적으로 판단해본다.

-2와 +2 사이에 데이터들이 위치해 있으면 적정선이다.

P-P 도표는 데이터들의분포를 사선으로 나타낸 것이다. 여기서 이상치가 있다면 사선으로부터 멀리 떨어져 나타날 것이다.

산점도를 통해 가로 축, 세로 축으로 -2 와 +2 를 벗어난 데이터가 있는지 확인한다.

데이터들이 골고루 분포해 있어서 특별히 이상치는 없어 보인다.

만약 이상치가 확인되면 산점도를 더블 클릭하여 데이터의 번호를 확인한 후 "데이터 보기(D)" 창으로 이동한 후 데이터를 삭제하거나 측정이 제대로 되었는지 확인한다.

표준화, 표준화 DFFIT, 쿡의 거리를 체크했으면 "데이터 보기(D)" 문서에 위와 같이 ZRE_1, Coo_1, SDF_1 항목이 새롭게 생성된다.

1. 표준화 ==> ZRE_1 의 값들이 3 보다 큰게 있는지 확인한다.

2. 쿡의거리 ==> Coo_1 의 값들이 1 보다 큰게 있는지 확인한다.

3. 표준화 DFFIT ==> SDF_! 의 값들이 2 보다 큰게 있는지 확인한다.

전체 데이터를 확인한 결과 범위를 벗어나는 이상값은 발견하지 못하였다.

만약 발견이 되었다면 삭제 또는 재 측정 후 다시 회귀분석을 실시해본다.

지금까지의 다중회귀분석을 종합해 보면, 다음과 같다.


위의 표를 토대로 회귀계수 식을 구성해 보면 다음과 같다.

Annulus(y) = -15.214+0.029*Age(x1)+0.029*Heart-rate(x2)+24.715*BSA(x3)

위 과정을 거쳐 독립변수가 유의적일 때, x값이 주어진 경우 y의 값을 추정할 수 있으나, 독립변수가 유의적이지 않으면 x는 y에 영향을 미친다고 할 수 없으므로 x값으로부터 y값을 추정해서는 안된다.

예를들어보면 연령(x1)이 1세 증가하면 Annulus(y)의 크기는 0.029mm 만큼 커지게 되고, BSA(x3)가 1m2 증가하게 되면 Annulus(y)는 24.715mm 만큼 커지게 된다. 하지만 Heart-rate(x2)의 경우 P 값이 0.240으로서 0.05보다 크게 나타났으므로 Heart-rate(x2)의 회귀계수 0.029는 통계적으로 유의하지 않다는 것을 의미한다.

주의 : 발견한 회귀식에 의하여 y값을 추정할 때 원래 사용한 x의 범위 내에서만 가능하다. (Why) 원래 그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기 때문이다.

만약, 동시입력방식(Enter)의 결과가 마음에 안든다면 단계적 방식을 이용하여 분석해 본다.

단계적 다중회귀분석(Stepwise multiple regression analysis)은 여러개의 독립 변수 중 설명력이 가장 높은 독립변수부터 차례 차례 삽입한 다음 의미 없는 독립변수를 제거하는 방식이다.

따라서 동식입력 방식과는 달리 어느정도 설명력이 있는 독립변수들만으로 회귀식을 구성할 수 있게된다.

단계적 분석을 해보기 위해 분석(A) ==> 회귀분석(R) ==> 선형(L)... 메뉴를 차례로 클릭한다.


방법(M): 에서 Enter(동시입력)를 단계적 방식으로 변경한다.


그 외 옵션들은 Enter(동시입력) 방식과 같도록 하고 확인을 클릭한다.

단계적 선택방식의 결과 값이 출력되었다.


모형 요약에서는 R 제곱, 조정된 R 제곱, Durbin-Watson 값을 확인한다.

동시입력 방식과 다른점은 여기서부터 발생한다.

동시입력 방식에서는 모형이 하나만 제시되었던 것에 비해 단계적 방식에서는 두개의 모형을 제시해 주었다.

물론 유효한 독립변수의 수가 많을수록 더 많아질 수도 있고, 유효한 독립변수가 1개 뿐이라면 나머지는 제거되고 1개의 모형만 제시될 수도 있다.

여기에서는 Heart_rate 변수가 제거되었다. 독립변수가 제거되었다는 것은 종속변수를 설명하지 못한다 또는 인과관계가 성립하지 못한다는 뜻이기도 하다.

모형 1은 상수와 BSA 만 회귀식에 포함되었고, 모형 2에서는 상수, BSA, Age 까지 모두 포함되었다.

모형 1의 설명력은 0.612로서 독립변수가 BSA가 종속변수 Annulus를 61.2% 설명할 수 있다는 것을 보여준다. 물론 다중회귀분석이기 때문에 조정된 R 제곱이 더 정확한 설명력이다. 조정된 R 제곱은 60.7% 의 설명력을 보여주고 있다.

모형 2의 설명력은 0.802로서 독립변수 BSA와 Age가 모두 포함되었을 때 64.4% 설명력을 보여준다. 조정된 R 제곱은 63.5% 이다.

Durbin-Watson은 1.849로서 1~3 사이의 값을 가지므로 자기상관이 없는것으로 판단한다.


동시입력 방식과 마찬가지로 분산 분석 표로서 유의확률 값으로 다음을 평가할 수 있다.

귀무가설 : 회귀식의 설명력(R2)은 0 이다 (H0 : β1 = 0).

대립가설 : 회귀식의 설명력(R2)은 0 이 아니다 (H0 : β1 ≠0).

왠지 귀무가설, 대립가설이란 말이 나오면 말이 어려워지는것 같다.

쉽게 설명하면 이렇다.

위의 결과에서 두 모형 모두 P=0.000 으로 매우 유의하게 나타났으므로 이 회귀식의 설명력은 의미가 있게 나타난 것이다.

회귀식을 구성할 수 있는 계수 표이다.

동시입력 방식에서는 모형이 1개만 제시되었는데 단계적 방식에서는 모형이 두개가 제시되었다.

위의 모형요약 표와 동일한 구성이다.

먼저 모형 1은 독립변수가 BSA만 투입되었을 때이다. 단계적 방식에서 독립변수 투입 순서는 설명력이 가장 높은 변수부터 투입된다는 것은 알고 가자.

모형 2는 모형 1에서 투입되었던 독립변수에 다음 설명력이 높은 독립변수를 추가한 것이다. 독립변수 BSA와 Age가 함께 투입 되었을 때의 회귀식을 구성할 수 있다.



 

다중공선성 진단을 위해 공선성 통계 표를 본다.

허용 오차는 0.10 이하, VIF(분산팽창요인)는 10 이상일 때 다중공선성이 있다고 판단하게 되는데 위의 표에서 허용오차 및 VIF 모두 기준 값을 만족하므로 다중공선성이 없다고 판단할 수 있다.


 

공선성 진단을 위해 사용된 데이터들이다.

다음으로 넘어간다.

표준화, 표준화 DFFIT, 쿡의 거리를 체크했으면 "데이터 보기(D)" 문서에 위와 같이 ZRE_1, Coo_1, SDF_1 항목이 새롭게 생성된다.

1. 표준화 ==> ZRE_1 의 값들이 3 보다 큰게 있는지 확인한다.

2. 쿡의거리 ==> Coo_1 의 값들이 1 보다 큰게 있는지 확인한다.

3. 표준화 DFFIT ==> SDF_! 의 값들이 2 보다 큰게 있는지 확인한다.

전체 데이터를 확인한 결과 범위를 벗어나는 이상값은 발견하지 못하였다.

만약 발견이 되었다면 삭제 또는 재 측정 후 다시 회귀분석을 실시해본다.

지금까지의 단계적 다중회귀분석을 종합해 보면, 다음과 같다.

위의 표를 토대로 회귀계수 식을 구성해 보면 다음과 같다.

Annulus(y) = -14.860 + 25.620 * BSA(x1) + 0.32 * Age(x2)

단계적 회귀분석을 통해 첫번재 모형인 BSA가 투입되고, 그 다음 모형에 Age 변수가 투입되었다. 그러나 비유의적인 Heart_rate 변수는 제외되었으며, 더 이상 단게적 투입이 진행되지 않고 BSA와 Age 두 변수만 회귀식에 포함되는 최종 모형을 완성하였다.

Toplist

최신 우편물

태그