데이터 분석

pandas 기초 (1) : 데이터 프레임, pandas 패키지 불러오기, 데이터 불러오기, 데이터 확인 / 주피터 노트북

cjangela 2025. 2. 7. 14:40

 

데이터 분석을 위한 기본 작업 중 하나가 데이터를 효율적으로 다루는 것이죠. 파이썬의 대표적인 데이터 분석 라이브러리인 Pandas를 활용하면, 데이터프레임 형태로 데이터를 조작하고 분석할 수 있습니다. 이번 글에서는 주피터 노트북(Jupyter Notebook)을 활용하여 Pandas를 이용한 데이터 불러오기 및 기본적인 확인 방법에 대해 다뤄보겠습니다.

1. 주피터 노트북 기본 사용법

  • 주피터 노트북은 데이터 분석 및 프로그래밍을 편리하게 수행할 수 있는 환경을 제공합니다. 기본적인 단축키는 다음과 같습니다.
▲ Enter : 선택한 셀을 편집할 수 있도록 활성화
▲ Shift + Enter :  현재 셀 실행 및 다음 셀로 이동
▲ Esc : 명령 모드로 전환 (셀 선택 및 관리 기능)
▲ Esc 상태에서 M : '마크다운(Markdown)' 모드로 문서작성 가능
▲ A : 선택한 셀 위에 새로운 셀 추가
▲ B : 선택한 셀 아래에 새로운 셀 추가
▲ X : 선택한 셀 삭제
▲ Z : 삭제한 셀 복구

2. pandas 패키지 불러오기

  • pandas는 데이터를 불러오고 조작하는 데 필수적인 라이브러리입니다. Pandas를 사용하기 위해서는 먼저 라이브러리를 불러와야 합니다. 일반적으로 다음과 같은 방식으로 pd라는 별칭(alias)을 사용하여 가져옵니다.
# pandas 패키지 불러오기
import pandas as pd

3. 데이터 불러오기

  • 서울시 열린 데이터광장에서 제공하는 데이터를 활용하여 데이터를 불러오는 방법을 살펴보겠습니다.
  • 예제 데이터는 "서울시 지하철호선별 역별 승하차 인원 정보. csv" 파일입니다.
  • 다음 코드를 실행하면 해당 데이터를 데이터 프레임으로 불러올 수 있습니다.
df = pd.read_csv("./s_data/서울시 지하철호선별 역별 승하차 인원 정보.csv", encoding='cp949')
  1. pd.read_csv('파일경로')
    - csv 파일을 읽어와 데이터프레임으로 변환
    - 만일 csv 파일이 아닌 tsv 형식의 파일이라면, sep = "\t"를 추가해 주시면 됩니다.
  2. "./s_data/서울시 지하철호선별 역별 승하차 인원 정보.csv"
    - 파이썬 실행 공간에 s_data란 파일을 만들어 '서울시 지하철호선별 역별 승하차 인원 정보. csv'를 저장하였기에 파일 경로를 지정해 준 것입니다.
  3. encoding='cp.949'
    - 한글 데이터를 올바르게 불러오기 위해 사용하는 인코딩 옵션입니다.
    - 에러명: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte
    - 위와 같은 에러명이 발생하였을 때 사용할 수 있는 코드입니다.
    * encoding='UTF-8' : 또 다른 인코딩 방식으로 이 코드를 작성해야 하는 경우도 있습니다.

4. 데이터 확인하기

  • 데이터를 불러온 후, 기본적인 확인 작업을 진행해야 합니다. 다음과 같은 주요 기능을 활용하여 데이터의 구조를 파악할 수 있습니다.

1) 처음 5개 행 보여주기

  • 데이터프레임의 첫 5개 행을 출력하여 데이터가 어떻게 구성되어 있는지 확인할 수 있습니다.
df.head()

head() 이용해 데이터 확인하기

2) 마지막 5개 행 보여주기

  • 데이터의 끝부분을 확인하고 싶다면, tail()을 사용하여 마지막 5개 행을 확인할 수 있습니다.
df.tail()

tail() 이용해 마지막 5개 행 보여주기

3) 데이터 타입 확인하기

  • 해당 데이터가 Pandas의 데이터프레임인지 확인할 수 있습니다.
type(df)

type을 이용해 데이터 타입 확인하기

4) 데이터 형태(행, 열) 확인하기

  • shape를 사용하면 데이터프레임의 크기(행, 열 개수)를 확인할 수 있습니다.
  • columns를 활용하면 데이터프레임이 포함하는 열의 이름을 확인할 수 있습니다.
# 행과 열 확인하기
df.shape

# 열 확인하기
df.columns

shape를 이용해 데이터 형태 확인하기

5) 각 열의 데이터 타입 확인하기

  • 각 열이 숫자형인지, 문자형인지 등을 확인할 수 있습니다. 데이터 타입을 파악하면 이후 데이터 처리 및 변환이 용이해집니다.
df.dtypes

dtypes를 이용해 데이터프레임 값의 자료형 확인하기

6) 데이터프레임의 주요 정보 확인하기

  • info()를 사용하면 데이터프레임의 전체적인 개요를 확인할 수 있습니다. 이 함수는 데이터의 행 수, 열 수, 각 열의 데이터 타입 및 누락된 값의 개수(결측값) 등을 제공합니다.
df.info()

info를 이용해 데이터프레임 주요 정보 확인하기


이번 글에서는 Pandas를 활용하여 데이터를 불러오고, 기본적인 확인 작업을 수행하는 방법을 살펴보았습니다. 데이터 분석을 진행하기 전, 이러한 기초 작업은 필수적으로 수행해야 합니다. 감사합니다:-)