데이터 분석

양적 연구자를 위한 필수 통계 용어 5가지(1) - 변수, 가설검정, 유의수준과 p-값, 상관관계, 회귀분석

cjangela 2025. 6. 3. 16:30

양적방법론을 바탕으로 논문을 작성하는 대학원생들은 통계를 기본적으로 알아야겠죠. 만일 통계 프로그램을 돌리지 못하더라도, 전체적인 틀을 구성하고 결과를 해석할 수 있는 기본 용어들은 알아두어야 합니다. 이번 글에서는 우리가 양적 방법을 통한 분석할 때, 필수적으로 알아야 할 용어 5가지에 관해 설명해 보려 합니다.

1. 변수(Variable)

가장 기본적인 개념이죠. 변수(Variable)입니다.

변수는 정해지지 않은 임의의 값을 표현하기 위해 사용되는 기호로, 변하는 숫자라고 생각하시면 됩니다. 논문에서 변수를 논할 때, 변수는 우리가 관찰하고자 하는 값을 의미하기도 합니다. 변수 간의 관계 양상을 파악하기 위해서는 종속변수독립변수 그리고 통제 변수로 구분하여 연구 모형을 설정합니다.

  • 독립변수(Independent Variable) : 변인에 영향을 미치거나 예언하는 변인을 의미합니다. 즉, 연구자가 조작하거나, 어떠한 영향을 미칠 수 있다고 가정하는 변수를 말합니다.
  • 종속변수(Dependent Variable) : 독립변수에 의해 영향을 받는 결괏값으로, 종속되어 있다고 하여 이러한 이름이 붙여진 것입니다.
  • 통제 변수(Control Variable) : 외생적 요인으로, 어떠한 효과를 관찰하기 위하여 실험적으로 조직되거나 혹은 통제된 변수를 의미합니다. 즉, 분석 과정에서 방해가 될 수 있으므로 통제하여 영향을 제거하려는 변수입니다.

예를 들어, '교육 수준이 소득에 영향을 미친다'라는 가설을 설정했을 때, 독립변수와 종속변수는 다음과 같습니다.

  • 독립변수 : 교육 수준
  • 종속변수 : 소득

만일, 변수 구분을 명확하게 하지 않는다면, 연구의 방향성과 해석 과정에서 혼란을 줄 수 있습니다. 따라서 연구 모형을 설계하는 초반에 명확히 구분하고 시작하는 것이 좋습니다.

2. 가설검정(Hypothesis Testing)

양적연구를 진행할 때, 가장 먼저 우리는 가설을 설정하게 됩니다. 그리고 우리가 세운 가설이 옳은지를 파악하기 위해 분석을 진행하는 것이죠. 그러면 분석 이후에 우리가 설정한 가설이 유의미한지를 판단하는 절차가 필요하겠죠. 그것이 바로 가설검정입니다.

보통, 가설검정을 하기 위해서는 검정할 수 있는 귀무가설대립가설을 설정합니다. 이에 따라 분석 결과가 우연인지 아닌지를 수치상으로 판단하는 것이죠.

  • 귀무가설(null hypothesis) : 처음부터 버릴 것을 예상하는 가설로, 차이가 없거나 의미 있는 차이가 없는 경우의 가설을 의미합니다. 이는 통계적으로 유의미하지 않을 때 참이 되는 개념입니다.
  • 대립가설(alternative hypothesis) : 연구 가설로, 귀무가설에 대립하는 명제입니다. 즉, 통계적으로 유의미할 때, 귀무가설은 기각되고 대립가설이 참이 되는 개념입니다.

예를 들어, 'A 지역과 B 지역 만족도의 평균에 차이가 있다'는 가설을 검정하고자 할 때, 귀무가설과 대립가설은 다음과 같습니다.

  • 귀무가설 : 두 지역 간 차이가 없다.
  • 대립가설 : 두 지역 간 차이가 있다.

이때 p-값을 활용하여 결과를 해석하며, 귀무가설의 기각·채택 여부를 판단합니다.

3. 유의 수준(α)과 유의확률(p-value)

위의 가설검정 결과를 해석하기 위해서는 유의 수준(α)과 유의확률(p-value)을 어떻게 해석하는지가 매우 중요합니다. 가설검정 결과 해석의 대표적인 지표이지요.

  • 유의 수준(α) : 유의 정도를 판단하는 기준값으로, '이 정도의 확률은 우연이라고 볼 수 있다'는 기준선입니다. 일반적으로 0.05(5%)를 기준으로 사용합니다.
  • 유의확률(p-value) : 우연히 발견했을 가능성을 수치로 나타낸 것으로, 실제 데이터에서 나타난 통계량이 귀무가설이 참이라는 전제하에 관측될 확률을 의미합니다.

예를 들어, p-value가 0.03이고 유의 수준이 0.05라면, p < α이므로 귀무가설은 기각됩니다. 이에 따라 연구자는 대립가설을 채택하게 되는 것이죠. 결괏값을 통해 귀무가설의 채택과 기각을 결정하는 것으로, 연구의 신뢰도와 해석에 직접적인 영향을 미칠 수 있어 정확한 이해가 바탕이 되어야 합니다. 

4. 상관관계(Correlation)

우리가 사용할 데이터가 서로 상관이 있어야 결과를 도출할 수 있겠죠. 하지만 우리가 단순하게 보는 것과 달리 실제 상관 여부가 있는지를 판단하는 기준이 바로 상관관계입니다.

상관관계는 두 변수 간의 관련 정도를 나타냅니다. 흔히 피어슨 상관계수(Pearson's r)를 통해 상관관계를 파악하곤 합니다.

  • 피어슨 상관계수는 -1~1 사이의 값을 가지며,
    • +1에 가까울수록 정적 상관(한쪽이 오르면 다른 쪽도 오름)
    • -1에 가까울수록 부적 상관(한쪽이 오르면 다른 쪽은 내림)
    • 0에 가까울수록 관련성이 없으므로 의미합니다.

예를 들어, '학습 시간'과 '성적'은 일반적으로 정적 상관관계를 가지며, '스트레스'와 '집중력'은 부적 상관관계를 가질 수 있겠죠. 상관계수는 관계의 방향성과 강도를 판단하는 데 매우 유용합니다. 그러나 인과관계는 보장하지 않으며, 인과관계와 상관관계는 전혀 다른 개념임을 기억해야 합니다.

5. 회귀분석(Regression Analysis)

양적 분석할 때, 주로 활용하는 방법 중에 하나죠. 회귀분석입니다.

회귀분석은 연속형 변수들에 대해 두 변수 간의 관계성을 측정하는 것으로, 하나 이상의 독립변수가 종속변수에 어떤 영향을 미치는 지를 분석하는 대표 통계 기법입니다. 회귀분석에서도 독립변수의 개수에 따라 단순회귀와 다중회귀로 나누어집니다.

  • 단순회귀(Simple Regression) : 하나의 독립변수만을 사용하는 경우입니다.
  • 다중회귀(Multiple Regression) : 여러 개의 독립변수를 사용하는 경우입니다.

회귀분석을 해석하기 위해서는 회귀계수를 활용합니다. 회귀계수(β)는 독립변수가 1만큼 증가할 때, 종속변수가 얼마나 변화하는지를 보여주는 것입니다. 이러한 회귀계수는 유의성과 설명력(R²) 등 다양한 해석 지표와 함께 사용됩니다.


이 5가지의 통계 개념은 양적 연구 과정에서 아주 기본적으로 사용되는 기초입니다. 변수 설정부터 가설 수립, 분석, 검정 결과 해석까지 논문 전반에 걸쳐 반복적으로 등장합니다. 각 개념을 이해해야 참고할 수 있는 논문들을 잘 읽을 수 있으므로 미리 익혀두는 것이 좋습니다.