본문으로 건너뛰기
실습하기

데이터 처리를 위한 강력한 도구, Pandas

품목별 매출, 시간별 고객 유입 등 X축과 Y축으로 구성된 데이터를 다룰 때, 이러한 데이터는 일반적으로 행(Row)열(Column)로 구성된 표 형태를 띠게 됩니다.

Pandas는 파이썬에서 표 형식의 데이터를 다루기 위해 가장 널리 사용되는 패키지 중 하나입니다.

Pandas를 활용하면 데이터를 불러오고 저장하는 기초적인 작업부터, 데이터 필터링 및 정렬, 통계 분석까지 다양한 작업을 체계적으로 수행할 수 있습니다.


Pandas의 데이터 구조 2가지

Pandas의 핵심 데이터 구조 2가지는 시리즈(Series)데이터프레임(DataFrame)입니다.


1. 시리즈(Series)

시리즈는 1차원 배열과 같습니다.

엑셀의 한 열(Column)과 비슷한 개념으로, 데이터가 순차적으로 나열됩니다.

각 데이터는 고유의 인덱스(Index, 데이터의 위치를 나타내는 식별자)를 가지며, 이 인덱스를 통해 데이터에 접근할 수 있습니다.

시리즈 생성 예시
import pandas as pd

# 시리즈 생성
data_series = pd.Series([10, 20, 30, 40])

print(data_series)
# 출력 결과
# 0 10
# 1 20
# 2 30
# 3 40
# dtype: int64

2. 데이터프레임(DataFrame)

데이터프레임은 2차원 배열로, 여러 개의 시리즈가 모여 만들어진 구조입니다.

행과 열이 모두 존재하며, 각 열은 서로 다른 데이터 타입을 가질 수 있습니다.

엑셀의 표(스프레드시트)와 유사합니다.

시리즈 생성 예시
import pandas as pd

# 품목별 매출 데이터프레임 생성
data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})

print(data_frame)
# 출력 결과
# 품목 매출
# 0 사과 1000
# 1 바나나 2000
# 2 딸기 1500
# 3 포도 3000

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!