엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

이 분석 방법은 독립변수에 의한 종속변수의 변화를 비교적 정확히 예측하기 때문에 매우 유용하지만, 현실에서는 여러 독립변수가 함께 변화하면서 서로 영향력을 주기 때문에 다중 선형 회귀분석에서 나타난 종속변수에 대한 영향력과 차이가 있을 수 있어 다중공선성을 제거하는 것이 중요합니다.

* 다중공선성에 대한 부분은 추후에 자세히 다루도록 하겠습니다.

2. Excel을 활용한 다중 선형 회귀분석

다중 선형 회귀분석은 상관분석과 마찬가지로 복잡한 계산식이나 통계 프로그램이 없어도 Excel을 통해 쉽게 계산할 수 있습니다.

* 단순 선형 회귀분석 역시 아래와 동일하게 계산할 수 있습니다.

아래와 같은 순서로 Excel의 데이터 분석 기능을 활용하여 회귀분석을 할 수 있습니다.

데이터(리본 메뉴) > 분석(리본)의 데이터 분석 > 회귀 분석 > Y축 입력 범위 지정 > X축 입력 범위 지정 > 이름표 체크 > 확인

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

* 만약 데이터(리본 메뉴)에서 데이터 분석 버튼이 없는 분들은 파일 > 옵션 > 리본 사용자 지정 > 개발 도구 > Excel 추가 기능 > 분석 도구 체크박스 설정을 하시면 데이터 분석 옵션이 생깁니다.

3. 다중 선형 회귀분석 결과의 해석

해석을 위해서는 상수, 비표준화계수(B), R², F와 유의확률 등 몇 가지 항목들의 개념을 이해할 필요가 있습니다.

* 각 항목들의 개념에 대한 자세한 설명은 마케팅에 활용하는 통계 개념 : 단순 선형 회귀분석 에서 확인할 수 있습니다.

Excel을 활용한 회귀분석을 해석하기에 앞서 엑셀에서는 회귀분석 항목들의 용어가 다소 다르게 표현되기 때문에 각 항목이 무엇인지에 대해 아래의 박스에 정리하였습니다.

· Y 절편 계수 = 상수
· 계수 = 비표준화계수(B)
· 조정된 결정계수 = R²
· 유의한 F = F와 유의확률
· P-값 = 유의확률(P)

회귀분석의 결과를 해석하는 방법은 아래의 예시를 통해 설명하겠습니다.

아래 데이터는 구매(종속변수)에 미치는 앱 오픈, 상품 조회, 검색, 카테고리 조회, 장바구니(독립변수들)의 영향력을 확인하기 위해 Excel의 회귀 분석 결과를 출력한 데이터입니다.

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

회귀분석 결과는 아래의 5가지 과정을 통해 해석할 수 있습니다.

① '조정된 결정계수' 확인

'조정된 결정계수'는 상관계수(R²)를 나타냅니다.

아래와 같이 상관계수(R²)의 값에 따라 상관관계 정도를 확인할 수 있습니다.

상관계수(R²)의 값이 ±0.7 이상일 때 회귀분석의 유의미한 해석이 가능합니다.

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

* 상관관계에 대한 자세한 내용은 마케팅에 활용하는 통계 개념 : 상관분석 에서 확인할 수 있습니다.

② '유의한 F값'이 0.05 미만인지 확인

'유의한 F값', 즉 유의확률 0.05 미만일 때 통계적으로 유의하여 회귀분석의 해석이 가능합니다.

*만약 이 값이 지수 형태(ex. 6E-100)로 나온다면 Ctrl + 1을 누른 뒤 숫자로 표시 형식을 바꾸면 됩니다.

③ 독립변수별 'P-값'이 0.05 미만인지 확인

앱 오픈, 상품 조회 등 독립변수에 해당하는 행의 'P-값'이 0.05 미만일 때 회귀분석의 해석이 가능합니다.

만약 'P-값'이 0.05 이상인 독립변수가 있을 경우 해당 독립변수를 제외하고 회귀분석 결과를 다시 출력합니다.

예시의 경우에는 독립변수 장바구니의 'P-값'이 0.05 이상이라 제외하고 다시 분석을 진행해야 합니다.

④ 독립변수별 '계수' 확인

독립변수의 '계수'는 회귀식에서 특정 독립변수의 종속변수에 대한 영향력을 나타내는 중요한 역할을 합니다.

⑤ 회귀식 작성

회귀식은 아래와 같이 작성할 수 있습니다.

Y(종속변수)=α(Y 절편)+β1(앱 오픈의 계수)·X1(독립변수1)+β2(독립변수2의 계수)·X2(독립변수2)+β3(독립변수3의 계수)·X3(독립변수3).....+β99(독립변수99의 계수)·X99(독립변수99)

아래의 예시에서는 ③ 을 확인한 결과 독립변수 장바구니의'P-값'이 0.05 이상이라 해당 변수를 제외하고 다시 결과를 출력하였습니다.

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

출력된 위 데이터는 ①~⑤과정이 모두 성립되므로 이에 이에 대해 회귀식을 세우면 아래와 같습니다.

Y(구매)=α(Y 절편인 45.23)+β1(앱 오픈의 계수인 0.01)·X1(앱 오픈)+β2(상품 조회의 계수인 -0.01)·X2(상품 조회)+β3(검색의 계수인 0.02)·X3(검색)+β4(카테고리 조회의 계수인 0.04)·X4(카테고리 조회)

∴구매=45.23+0.01·앱 오픈-0.01·상품 조회+0.02·검색+0.04·카테고리 조회

*소수점 셋째 자리에서 반올림

회귀식을 해석하면 구매에 대한 각 앱 이벤트의 영향력은 카테고리 조회(0.04)가 가장 높고 이후로 검색(0.02), 앱 오픈(0.01) 순이며, 상품 조회(-0.01)는 오히려 구매에 마이너스 영향력이 있다고 해석할 수 있습니다.

반응형

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


단순선형회귀 (1)


  회귀분석은 변수 사이의 관계를 알아내는 통계 기법입니다. 독립변수를 통해 종속변수를 예측하는데, 독립변수와 종속변수가 각각 하나고 둘 사이 관계가 선형이라고 가정하는 회귀분석이 단순선형회귀입니다.

 

  지난 시간에는 (현실을 모델로 만든 회귀모형의 기댓값인 회귀식의 표본추정식인) 추정회귀식을 구해 봤습니다. 최고제곱법으로 식을 찾았습니다. 과연 이 식이 적합한지 영희를 예로 들어 설명했습니다. 이제 두 번째 질문, 과연 xy가 통계적으로 유의미한 관계인지 답해 보려고 합니다.

 

유의성 검정



단순선형회귀 모형


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



단순선형회귀 회귀식

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


  회귀식에 x값을 넣으면 y값이 나옵니다. 그런데 이 값은 y가 아닙니다. 정확히는 y의 기댓값이죠. 단순선형회귀 모형에는 오차항이 있는데, 오차항은 정규분포를 따릅니다. 따라서 y도 분포를 가지는 값입니다. 우리가 추세선으로 구하는 값은 y의 기댓값이었죠.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

 

단순선형회귀모형에서 오차항에 대한 가정은 다음과 같습니다.


1) 오차항은 확률변수다.

2) 오차항은 모든 x마다 분산이 같다.

3) 오차항은 독립이다(어떤 x에 대한 오차항이 다른 x에 대한 오차항과 무관).

4) 오차항은 정규분포를 따른다.

 

  이 가정들, 특히 4번 가정 때문에 오차항을 포함하는 y도 확률변수처럼 행동합니다. 단순선형회귀분석에서 선을 긋고 x를 식에 넣어 구한 yy값이 아니라 y의 기댓값, 평균임을 다시 강조합니다. xy에 관계가 있는지 검사하는 과정에 이게 필요한가 싶지만, 곧 필요해집니다.

 

  이제 유의성 검정을 해 보죠. 유의성 검정은 두 변수가 과연 유의미한 관계인지 검사하는 과정입니다.



엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

 

  회귀식에서 x의 기울기가 0이면, x가 있는 항은 통째로 0이 됩니다. x값이 y에 아무런 영향을 주지 못합니다. 그런데 관계가 있다고 말할 수 있을까요? 따라서 우리는 저 β1이 0인지 아닌지 판단해야 합니다. 유의성을 검정하는 방법은 크게 두 가지, t검정과 F검정이 있습니다.

 


잠깐. 두 가지 검정을 시작하기 전에 알아야 할 식


평균제곱오차(MSE) - SSE를 자유도로 나눈 값. 오차항 분산의 불편추정량


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


평균제곱오차의 제곱근은 추정값의 표준오차라고 부름.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


 

t검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



2. 회귀식 기울기(β1)의 표준편차를 구한다. β는 모집단 모수이므로 추정회귀식으로 추정해 구한다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



3. 검정통계량 t를 구한다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



4. 자유도 n-2인 스튜던트 t분포에서 절댓값이 검정통계량 이상인 양측 날개 면적을 p값으로 한다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



5. p값이 유의수준 이하면 귀무가설을 기각한다.


 

F검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.



2. 평균제곱회귀(MSR)를 구한다. SSR을 회귀자유도로 나눈 값으로, 회귀자유도는 일단 독립변수의 수라고 생각한다. 단순선형회귀에서 독립변수는 하나이므로 회귀자유도는 1이다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



3. F비를 구한다. MSR/MSE.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



4. 자유도가 1, n-2F분포에서 F비 오른쪽의 날개 넓이를 p값으로 한다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



5. p값이 유의수준 이하면 귀무가설을 기각한다.

 

 

참고 : 독립변수가 하나라면 t검정과 F검정의 결과는 같습니다.

 

주의 : 통계적 유의성은 인과와 다릅니다.

 





신뢰구간과 예측구간



  추정회귀식도 세웠고, 식이 (영희보다) 적합한지도 검정했고, 두 변수가 통계적으로 유의미한 관계에 있는지도 파악했습니다. 이제 하루 공부 시간에 따른 기말고사 점수를 예측할 수 있을 겁니다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


 

  추정회귀식에 따르면 x=2.5일 때 y는 약 60.7입니다. 그럼 하루에 2.5시간 공부하는 학생은 기말고사 점수가 60.7이라고 말할 수 있을까요? 바로 결정하기 전에 짚고 넘어갑시다. ‘하루에 2.5시간 공부하는 학생은 누굽니까?

 


'하루에 2.5시간 공부하는 학생'의 뜻


1 : 하루에 2.5시간 공부하는 학생 전부. 따라서 하루에 2.5시간 공부하는 학생의 기말고사 점수는 이들 점수의 평균이다.


2 : 하루에 2.5시간 공부하는 특정 누군가. 예를 들어 2.5시간 공부하던 17살 김민수 학생의 기말고사 점수를 추정한다는 뜻이다.

 

1y값의 평균을 예측합니다. 2y 개별값을 예측합니다. 아시다시피 y는 값이 아니라 확률분포입니다. 따라서 뜻 1이든 2든 정해진 값이 아니라 범위, 구간을 구해야 합니다.

 

1은 표본회귀로 y값의 평균, 즉 모집단 회귀(E(y))를 추정합니다.

2는 표본회귀로 모집단 회귀를 넘어 실제 값을 추정합니다.



엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs



  상식적으로 뜻 2가 더 맞추기 어렵겠죠. 따라서 신뢰수준이 같다면 뜻 2로 구한 구간이 뜻 1로 구한 구간보다 넓을 수밖에 없습니다.

 

1로 구한 구간은 신뢰구간(Confidence interval),

2로 구한 구간은 예측구간(Prediction interval)이라고 합니다.

 

 

신뢰구간



  신뢰구간 공식은 다음과 같습니다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


 

신뢰구간 식에서 무얼 알 수 있을까요?


- xx평균과 같을 때 신뢰구간이 제일 좁습니다.

- 자료 크기 n이 클수록 신뢰구간이 좁습니다.

 

 

예측구간




  예측구간 공식은 다음과 같습니다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


 

예측구간 식에서 무얼 알 수 있을까요?


- 자료크기와 신뢰수준이 같다면 예측구간은 신뢰구간보다 넓습니다.(y 평균이 아니라 y 개별값을 구하기는 더 어려우니 같은 정확도가 필요할 때 범위는 더 넓겠죠.)

- 예측구간 역시 신뢰구간처럼 x가 평균일 때 제일 좁습니다.

 




 

엑셀에서 단순선형회귀 하기



  엑셀 회귀분석을 이용하면 추정회귀식, 결정계수, 추정값의 표준오차, t검정과 F검정 결과까지 전부 한 번에 볼 수 있습니다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs

엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


 

[데이터 분석] - [회귀분석]에 들어갑니다.


엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


  x,y축 입력 범위, 신뢰수준을 입력합니다.

  '이름표'에 체크하면 맨 위 셀은 제목으로 취급합니다.

  '이름표'에 체크했으면 입력범위는 제목도 포함시켜야 합니다.



엑셀 회귀분석 y절편 p값 - egsel hoegwibunseog yjeolpyeon pgabs


  '확인'을 누르면 회귀분석 결과가 나타납니다. 추정회귀식에 쓸 계수와 y절편, 결정계수, 표준 오차, t검정과 F검정 결과가 나타납니다. 보시다시피 t검정 p값과 F검정 p값이 똑같습니다.

반응형

공유하기

게시글 관리

구독하기설찬범의 파라다이스

저작자표시 비영리 변경금지

  • 카카오스토리
  • 트위터
  • 페이스북

'엑셀 > 엑셀로 통계하기' 카테고리의 다른 글

엑셀로 통계하기 24 - 다중회귀분석  (2)2018.06.25엑셀로 통계하기 23 - 잔차분석  (0)2018.06.22엑셀로 통계하기 21 - 단순선형회귀(1)  (0)2018.06.20엑셀로 통계하기 20 - 모비율 비교와 독립성 검정  (0)2018.06.15엑셀로 통계하기 19 - 분산분석 이원배치법  (0)2018.06.14