데이터 분석/Python

pandas (2) : 데이터 추출 방법 정리 / 주피터 노트북

cjangela 2025. 2. 10. 21:49
반응형

 

데이터 분석을 진행하기 위해 가장 먼저 해야 할 일은 데이터를 추출하는 것입니다. 데이터를 불러오고, 원하는 값들을 선택하여 분석할 준비를 마치는 과정은 데이터 분석의 기본입니다. 이번 글에서는 pandas 패키지를 활용하여 데이터를 불러오고, 특정 컬럼(열)이나 행을 선택하는 방법을 설명하겠습니다.

1. 데이터 불러오기

  • 데이터를 추출하기 전에 가장 먼저 해야 할 작업은 데이터를 불러오는 것입니다.
  • 데이터 불러오기는 다음 내용을 참고하면 됩니다.

2025.02.07 - [데이터 분석 관련] - pandas 기초 (1) : 데이터 프레임, pandas 패키지 불러오기, 데이터 불러오기, 데이터 확인 / 주피터 노트북

 

pandas 기초 (1) : 데이터 프레임, pandas 패키지 불러오기, 데이터 불러오기, 데이터 확인 / 주피터 노

데이터 분석을 위한 기본 작업 중 하나가 데이터를 효율적으로 다루는 것이죠. 파이썬의 대표적인 데이터 분석 라이브러리인 Pandas를 활용하면, 데이터프레임 형태로 데이터를 조작하고 분석할

cjangela.tistory.com

2. 특정 열(컬럼) 선택하기

  • 데이터프레임에서 특정한 열을 선택하는 방법은 여러 가지가 있습니다.
  • 특정한 열 하나만 선택하고 싶다면, df["열이름"] 또는 df.열이름을 사용할 수 있습니다.
df["호선명"]

데이터 추출하기

1) 시리즈(Series) 데이터 확인하기

  • 시리즈(Series)는 1차원의 데이터를 의미합니다.
  • 시리즈의 데이터 타입, 데이터 앞부분, 뒷부분을 확인해 보겠습니다.
# 시리즈 데이터 타입 확인하기
type(df["호선명"])

# 시리즈 데이터 앞부분 확인하기
subway_se = df["호선명"]
subway_se.head()

# 시리즈 데이터 뒷부분 확인하기
subway_se.tail()

시리즈 데이터 확인하기 - head, tail

2) 여러 열 추출하기

  • 여러 열을 한 번에 선택하고 싶다면, 리스트 형태로 열 이름을 저장하면 됩니다.
  • 아래 코드를 실행하면 호선명, 역명, 승차총승객수 열을 포함하는 새로운 데이터 프로엠이 형성됩니다.
subset = df[["호선명", "역명", "승차총승객수"]]
subset

여러 열의 데이터 추출하기

3. 특정 행 선택하기

  • 행을 선택하는 방법도 여러 가지가 있습니다. 인덱스를 기준으로 선택하는 loc과 행 번호를 기준으로 선택하는 iloc이 있습니다.

1) loc을 활용한 행 선택

  • 인덱스를 기준으로 행 데이터를 추출하는 것입니다. 여러 개의 행을 선택하고 싶다면, 리스트 형태로 입력하면 됩니다.
df.head()
df.loc[1]

loc을 이용해 인덱스를 기준으로 행 단위의 데이터 추출값

2) iloc을 활용한 행 선택

  • iloc은 행 번호를 기준으로 행 데이터를 추출하는 것입니다.
df.iloc[1]

iloc을 이용하여 행 번호 기준 행 데이터 추출값

3) loc과 iloc의 차이점

  • loc은 데이터프레임에서 설정된 인덱스를 기준으로 데이터를 불러오는 것이며,
  • iloc은 행 번호의 순서를 기준으로 데이터를 선택한다.

4. 행과 열 함께 선택하기

  • loc과 iloc을 통해 행과 열을 함께 추출할 수 있습니다.
  • loc과 iloc 둘 다, [행, 열] 순서로 값을 입력해야 합니다.

1) loc을 활용한 행과 열 선택

# 행 전체와 "호선명" 열을 추출하고자 함
df.loc[:, "호선명"]

# 행 전체와 "호선명"과 "역명"의 열을 추출하고자 함
df.loc[:, ["호선명", "역명"]].head()

loc을 이용하여 행과 열을 동시에 추출하는 방법

2) iloc을 활용한 행과 열 선택

  • iloc은 행 번호를 입력하여 출력이 가능합니다. 행과 열 번호를 조합하여 선택할 수 있습니다.
df.iloc[:, [2, 3, -1]]

iloc을 이용하여 행과 열 동시에 추출


이번 글에서는 pandas를 활용하여 데이터를 불러오고, 특정 열과 행을 선택하는 다양한 방법을 살펴보았습니다.

이러한 기본적인 데이터 추출 방법을 익히면, 데이터를 분석하고 가공하는 작업을 보다 쉽게 수행할 수 있습니다. 감사합니다:-)