[커널아카데미 데이터 분석 부트캠프 8일 차 복습 - 엑셀 회귀분석]
1. 회귀분석 개념
1) 회귀분석 개념
- 회귀분석은 독립변수 x가 한 단위 변화할 때, 종속변수 y가 얼마나 변화하는지에 대한 관계를 파악하는 분석이다. 즉, x와 y의 관계를 파악하는 분석이다.
- 회귀분석은 인과관계를 파악하는 것은 아니다. 다만, 상관분석에 비해 한 방향으로만 해석이 가능하다는 점이 특징이다.
2) 회귀식
- 회귀식을 사용할 때는 β(베타)를 사용하며, x절편 앞에 놓인 β는 기울기를 의미한다.
- 종속변수는 우리가 알고 싶은 값이자, 우리가 통제할 수 없는 변수를 의미한다.
- 독립변수는 우리가 알고 있는 값이자, 우리가 통제할 수 있는 변수를 의미한다. 독립변수의 개수는 내가 임의대로 설정할 수 있다.
2. 회귀분석 목적
- 두 변수 간의 관계를 파악해서 우리가 알고 싶은 값, 즉 종속변수를 예측하는 것을 의미한다.
3. 회귀분석 종류
- 회귀분석은 회귀모형의 모양에 따라, 독립변수의 개수에 따라 구분된다.
- 회귀분석에서 함수식이 선형 함수식일 때는 선형회귀분석이며, 함수식이 선형 함수식이 아닐 때는 비선형회귀분석이다.
- 선형회귀분석에서 독립변수(x)가 한 개일 때는 단순선형회귀분석이며, 독립변수(x)가 여러 개일 때는 다중선형회귀분석이다.
4. 단순선형회귀분석
1) 원리
- 회귀분석은 독립변수와 종속변수의 관계를 파악하는 것이다. 단순회귀분석은 독립변수(x)가 변할 때, 종속변수(y)가 어떻게 변하는지를 가장 잘 설명해 주는 직선을 찾는 것이다. 즉, 데이터 간에 관계를 가장 잘 설명하는 직선을 찾는 것, 즉 '오차'항이 더 적은 직선을 분석하는 방법을 의미한다.
2) 실습
번호 | 공부시간(X1) | 수면시간(X2) | 시험점수(Y) |
1 | 1.0 | 8.0 | 55 |
2 | 2.0 | 7.5 | 56 |
3 | 3.0 | 7.0 | 58 |
4 | 4.0 | 6.5 | 61 |
5 | 5.0 | 6.0 | 66 |
6 | 6.0 | 6.0 | 70 |
7 | 7.0 | 5.5 | 73 |
8 | 8.0 | 5.0 | 77 |
9 | 9.0 | 5.0 | 87 |
10 | 10.0 | 4.5 | 83 |
- 다음과 같은 예제 데이터가 있다고 했을 때, 공부시간 - 시험점수 간의 단순선형회귀분석을 진행해보려 한다.
① 데이터 → 데이터 분석 → 회귀분석을 선택한다.
- 만일 데이터 분석 틀이 없을 시에는 아래 링크를 통해 설치하세요.
👇 2025.06.30 - [데이터 분석/Excel] - Excel 통계 데이터 분석 도구 설치하기
Excel 통계 데이터 분석 도구 설치하기
분산분석, 상관분석, 기술 통계 등 여러 통계 기법들을 활용하기 위해서는 대부분 spss, python 등 별도의 프로그래밍 도구를 활용합니다. 그러나 엑셀로도 다양한 통계 기법들을 활용할 수 있다는
cjangela.tistory.com
② Y축 입력 범위와 X축 입력 범위를 목록까지 포함하여 입력하고, '이름표'까지 선택한다.
③ 출력 옵션을 지정한다. 같은 시트에 입력하고자 하면 출력 범위를 지정해 주면 되고, 다른 시트에 입력하고자 하면 새로운 워크시트를 선택하면 된다.
- 나는 같은 시트 내에 출력 범위를 지정해 주었다. 출력 범위는 그냥 원하는 범위를 선택만 하면 된다.
④ 확인을 누르면, 회귀분석 결과값이 다음과 같이 출력되는 것을 확인할 수 있다.
3) 평가와 해석
- 단순선형회귀분석의 해석은 3가지만 확인하면 된다. 결정계수, 유의한 F, Y절편과 X1의 계수이다.
① 결정계수
- 결정계수는 0 ~ 1의 값을 가지며, 1에 가까울수록 회귀 모형이 실제 값을 잘 설명한다.
- 위의 결과값을 보았을 때, 결정계수는 0.954이다. 이 경우, 회귀 모형이 실제 데이터의 95.4%를 설명할 수 있다는 뜻이다.
② 유의한 F
- F값이 0.05미만이면 회귀 모형이 유의미하므로 사용이 가능하다. 즉 0.05 미만일 경우에는 귀무가설을 기각할 수 있다.
- 위의 결과값을 보았을 때, 유의한 F는 1.21126E-06으로 약 0.00000121126이다. 0.05보다 작은 값이므로 귀무가설을 기각할 수 있다.
- 참고로 E-06은 10의 -6 제곱을 의미한다. 아주 작은 수를 의미하므로 이 표현이 나타나면 0.05보다 작다고 보면 된다.
- 귀무가설에 대한 설명은 다음 링크를 참고하면 된다.
👇2025.06.03 - [데이터 분석] - 양적 연구자를 위한 필수 통계 용어 5가지(1) - 변수, 가설검정, 유의 수준과 p-값, 상관관계, 회귀분석
양적 연구자를 위한 필수 통계 용어 5가지(1) - 변수, 가설검정, 유의수준과 p-값, 상관관계, 회귀
양적방법론을 바탕으로 논문을 작성하는 대학원생들은 통계를 기본적으로 알아야겠죠. 만일 통계 프로그램을 돌리지 못하더라도, 전체적인 틀을 구성하고 결과를 해석할 수 있는 기본 용어들
cjangela.tistory.com
③ Y절편과 X1의 계수
- y = ax + b에서 Y절편은 b값을 X1값은 a(기울기)를 뜻한다. 즉 이 계수를 통해 회귀식을 완성할 수 있다.
- 위의 결과값을 토대로 이 모형의 회귀식은 y = 3.66x + 48.47 이 된다.
5. 다중선형회귀분석
1) 원리
- 다중선형회귀분석은 독립변수가 2개 이상일 때, 독립변수들과 종속변수 간의 관계를 파악하는 분석이다.
- 이때는 독립변수들 간에 상관관계가 없어야 한다. 따라서 독립변수 간 상관관계가 먼저 이루어져야 한다.
2) 실습
① 단순선형회귀분석과 동일하게 데이터 → 데이터 분석 → 회귀분석을 선택한다.
② Y축 입력 범위와 X축 입력 범위를 목록까지 포함하여 선택하며, 단순선형회귀분석과 다르게 X축 입력범위에 원하는 독립변수를 전부 포함시킨다.
③ 출력 옵션을 지정한 후, 확인을 누르면 다음과 같은 결과값이 나타난다.
3) 평가와 해석
- 다중선형회귀분석은 다음 3가지를 확인하면 된다. 조정된 결정계수, 유의한 F, Y절편과 각 독립변수의 계수 및 p-value이다.
① 조정된 결정계수
- 결정계수는 독립변수의 개수가 늘어날수록 자연스럽게 증가하게 된다. 이는 결정계수 판단을 흐리게 만들기에, 이러한 상황을 방지하기 위해 penalty를 주게 된 것이 조정된 결정계수이다.
- 조정된 결정계수도 기존 결정계수와 마찬가지로 0~1 값을 가지며, 1에 가까울수록 회귀모형 값을 잘 설명한다.
- 위의 값은 0.966으로, 실제 데이터의 96.6%를 설명할 수 있다는 뜻이다.
② 유의한 F
- F값이 0.05 미만이면, 회귀 모형이 유의미하다는 것이다.
- 위의 결과값은 2.92757E-06이므로 0.05보다 작아 귀무가설을 기각할 수 있다.
③ Y절편과 각 독립변수의 계수 및 P-Value
- Y절편과 각 독립변수의 계수는 다중선형회귀분석의 회귀식을 만들어준다.
- 위의 값을 보면, 이 모형의 회귀식은 y = 7.2144x1 + 9.4578x2 - 28.7722가 될 수 있다.
- 각 독립변수의 P-Value를 통해 P 값이 0.05보다 작은 변수들이 종속 변수 Y의 변동을 설명할 수 있는 변수라고 보는 것이다.
- 위의 값을 보면, 공부시간(X1)이 0.05보다 작으므로, 종속변수인 성적의 변동을 잘 설명할 수 있다고 판단할 수 있다.
'데이터 분석 > Excel' 카테고리의 다른 글
엑셀의 기본 원리 이해하기 - 종류 및 참조 등 (0) | 2025.07.04 |
---|---|
Excel 통계 데이터 분석 도구 설치하기 (0) | 2025.06.30 |
[Excel] COUNT 함수로 데이터 개수 세기! (0) | 2025.06.30 |
엑셀에서 발생할 수 있는 오류 8가지, 오류 원인과 해결 방법까지 총정리🧐 (0) | 2025.06.26 |