데이터 분석/Excel

엑셀로 회귀분석하기

cjangela 2025. 7. 2. 22:28

[커널아카데미 데이터 분석 부트캠프 8일 차 복습 - 엑셀 회귀분석]

1. 회귀분석 개념

1) 회귀분석 개념

  • 회귀분석은 독립변수 x가 한 단위 변화할 때, 종속변수 y가 얼마나 변화하는지에 대한 관계를 파악하는 분석이다. 즉, x와 y의 관계를 파악하는 분석이다.
  • 회귀분석은 인과관계를 파악하는 것은 아니다. 다만, 상관분석에 비해 한 방향으로만 해석이 가능하다는 점이 특징이다.

2) 회귀식

  • 회귀식을 사용할 때는 β(베타)를 사용하며, x절편 앞에 놓인 β는 기울기를 의미한다.
  • 종속변수는 우리가 알고 싶은 값이자, 우리가 통제할 수 없는 변수를 의미한다.
  • 독립변수는 우리가 알고 있는 값이자, 우리가 통제할 수 있는 변수를 의미한다. 독립변수의 개수는 내가 임의대로 설정할 수 있다.

2. 회귀분석 목적

  • 두 변수 간의 관계를 파악해서 우리가 알고 싶은 값, 즉 종속변수를 예측하는 것을 의미한다.

3. 회귀분석 종류

  • 회귀분석은 회귀모형의 모양에 따라, 독립변수의 개수에 따라 구분된다.
  • 회귀분석에서 함수식이 선형 함수식일 때는 선형회귀분석이며, 함수식이 선형 함수식이 아닐 때는 비선형회귀분석이다.
  • 선형회귀분석에서 독립변수(x)가 한 개일 때는 단순선형회귀분석이며, 독립변수(x)가 여러 개일 때는 다중선형회귀분석이다.
반응형

4. 단순선형회귀분석

1) 원리

  • 회귀분석은 독립변수와 종속변수의 관계를 파악하는 것이다. 단순회귀분석은 독립변수(x)가 변할 때, 종속변수(y)가 어떻게 변하는지를 가장 잘 설명해 주는 직선을 찾는 것이다. 즉, 데이터 간에 관계를 가장 잘 설명하는 직선을 찾는 것, 즉 '오차'항이 더 적은 직선을 분석하는 방법을 의미한다.

2) 실습

번호 공부시간(X1) 수면시간(X2) 시험점수(Y)
1 1.0 8.0 55
2 2.0 7.5 56
3 3.0 7.0 58
4 4.0 6.5 61
5 5.0 6.0 66
6 6.0 6.0 70
7 7.0 5.5 73
8 8.0 5.0 77
9 9.0 5.0 87
10 10.0 4.5 83
  • 다음과 같은 예제 데이터가 있다고 했을 때, 공부시간 - 시험점수 간의 단순선형회귀분석을 진행해보려 한다.

데이터 → 데이터 분석 → 회귀분석을 선택한다.

데이터 분석 선택
통계 데이터 분석

  • 만일 데이터 분석 틀이 없을 시에는 아래 링크를 통해 설치하세요.

👇 2025.06.30 - [데이터 분석/Excel] - Excel 통계 데이터 분석 도구 설치하기

 

Excel 통계 데이터 분석 도구 설치하기

분산분석, 상관분석, 기술 통계 등 여러 통계 기법들을 활용하기 위해서는 대부분 spss, python 등 별도의 프로그래밍 도구를 활용합니다. 그러나 엑셀로도 다양한 통계 기법들을 활용할 수 있다는

cjangela.tistory.com

 

Y축 입력 범위X축 입력 범위를 목록까지 포함하여 입력하고, '이름표'까지 선택한다.

엑셀 회귀분석 진행과정

 

③ 출력 옵션을 지정한다. 같은 시트에 입력하고자 하면 출력 범위를 지정해 주면 되고, 다른 시트에 입력하고자 하면 새로운 워크시트를 선택하면 된다.

  • 나는 같은 시트 내에 출력 범위를 지정해 주었다. 출력 범위는 그냥 원하는 범위를 선택만 하면 된다.

회귀분석 진행과정

 

④ 확인을 누르면, 회귀분석 결과값이 다음과 같이 출력되는 것을 확인할 수 있다.

회귀분석 진행과정

3) 평가와 해석

  • 단순선형회귀분석의 해석은 3가지만 확인하면 된다. 결정계수, 유의한 F, Y절편과 X1의 계수이다.

회귀분석 평가와 해석

 

① 결정계수

  • 결정계수는 0 ~ 1의 값을 가지며, 1에 가까울수록 회귀 모형이 실제 값을 잘 설명한다.
  • 위의 결과값을 보았을 때, 결정계수는 0.954이다. 이 경우, 회귀 모형이 실제 데이터의 95.4%를 설명할 수 있다는 뜻이다.

② 유의한 F

  • F값이 0.05미만이면 회귀 모형이 유의미하므로 사용이 가능하다. 즉 0.05 미만일 경우에는 귀무가설을 기각할 수 있다.
  • 위의 결과값을 보았을 때, 유의한 F는 1.21126E-06으로 약 0.00000121126이다. 0.05보다 작은 값이므로 귀무가설을 기각할 수 있다.
    • 참고로 E-06은 10의 -6 제곱을 의미한다. 아주 작은 수를 의미하므로 이 표현이 나타나면 0.05보다 작다고 보면 된다.
  • 귀무가설에 대한 설명은 다음 링크를 참고하면 된다.

👇2025.06.03 - [데이터 분석] - 양적 연구자를 위한 필수 통계 용어 5가지(1) - 변수, 가설검정, 유의 수준과 p-값, 상관관계, 회귀분석

 

양적 연구자를 위한 필수 통계 용어 5가지(1) - 변수, 가설검정, 유의수준과 p-값, 상관관계, 회귀

양적방법론을 바탕으로 논문을 작성하는 대학원생들은 통계를 기본적으로 알아야겠죠. 만일 통계 프로그램을 돌리지 못하더라도, 전체적인 틀을 구성하고 결과를 해석할 수 있는 기본 용어들

cjangela.tistory.com

 

③ Y절편과 X1의 계수

  • y = ax + b에서 Y절편은 b값을 X1값은 a(기울기)를 뜻한다. 즉 이 계수를 통해 회귀식을 완성할 수 있다.
  • 위의 결과값을 토대로 이 모형의 회귀식은 y = 3.66x + 48.47 이 된다.

5. 다중선형회귀분석

1) 원리

  • 다중선형회귀분석은 독립변수가 2개 이상일 때, 독립변수들과 종속변수 간의 관계를 파악하는 분석이다.
  • 이때는 독립변수들 간에 상관관계가 없어야 한다. 따라서 독립변수 간 상관관계가 먼저 이루어져야 한다.

2) 실습

① 단순선형회귀분석과 동일하게 데이터 → 데이터 분석 → 회귀분석을 선택한다.

② Y축 입력 범위와 X축 입력 범위를 목록까지 포함하여 선택하며, 단순선형회귀분석과 다르게 X축 입력범위에 원하는 독립변수를 전부 포함시킨다.

다중회귀분석 실습

 

출력 옵션을 지정한 후, 확인을 누르면 다음과 같은 결과값이 나타난다.

다중회귀분석 결과값

3) 평가와 해석

  • 다중선형회귀분석은 다음 3가지를 확인하면 된다. 조정된 결정계수, 유의한 F, Y절편과 각 독립변수의 계수 및 p-value이다.

 

① 조정된 결정계수

  • 결정계수는 독립변수의 개수가 늘어날수록 자연스럽게 증가하게 된다. 이는 결정계수 판단을 흐리게 만들기에, 이러한 상황을 방지하기 위해 penalty를 주게 된 것이 조정된 결정계수이다.
  • 조정된 결정계수도 기존 결정계수와 마찬가지로 0~1 값을 가지며, 1에 가까울수록 회귀모형 값을 잘 설명한다.
  • 위의 값은 0.966으로, 실제 데이터의 96.6%를 설명할 수 있다는 뜻이다.

② 유의한 F

  • F값이 0.05 미만이면, 회귀 모형이 유의미하다는 것이다.
  • 위의 결과값은 2.92757E-06이므로 0.05보다 작아 귀무가설을 기각할 수 있다.

③ Y절편과 각 독립변수의 계수 및 P-Value

  • Y절편과 각 독립변수의 계수는 다중선형회귀분석의 회귀식을 만들어준다.
    • 위의 값을 보면, 이 모형의 회귀식은 y = 7.2144x1 + 9.4578x2 - 28.7722가 될 수 있다.
  • 각 독립변수의 P-Value를 통해 P 값이 0.05보다 작은 변수들이 종속 변수 Y의 변동을 설명할 수 있는 변수라고 보는 것이다.
    • 위의 값을 보면, 공부시간(X1)이 0.05보다 작으므로, 종속변수인 성적의 변동을 잘 설명할 수 있다고 판단할 수 있다.