본문으로 건너뛰기
실습하기

데이터프레임으로 데이터 다루기

Pandas의 데이터프레임은 엑셀과 같은 표 형식의 데이터를 체계적으로 다루기 위한 데이터 구조입니다.

데이터프레임은 여러 개의 시리즈로 구성된 2차원 배열이며, 행과 열이 모두 존재합니다.

아래는 품목과 매출 데이터를 담은 데이터프레임을 생성하고, 데이터를 조작하는 간단한 코드 예시입니다.

데이터 조작 예시
import pandas as pd

# 데이터프레임 생성
data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})

# 특정 열 선택
sales = data_frame['매출']
print("sales:", sales)

# 조건에 맞는 행 필터링
filtered_data = data_frame[data_frame['매출'] > 1500]
print("filtered_data:", filtered_data)

# 데이터 정렬
sorted_data = data_frame.sort_values(by='매출', ascending=False)
print("sorted_data:", sorted_data)

  1. sales = data_frame['매출'] 코드는 데이터프레임에서 '매출' 열만 선택하여 시리즈로 반환합니다.
print(sales) 출력 결과
0    1000
1 2000
2 1500
3 3000
Name: 매출, dtype: int64

  1. filtered_data = data_frame[data_frame['매출'] > 1500] 코드는 '매출' 열의 값이 1500보다 큰 행만 필터링하여 새로운 데이터프레임을 생성합니다.
print(filtered_data) 출력 결과
    품목    매출
1 바나나 2000
3 포도 3000

  1. sorted_data = data_frame.sort_values(by='매출', ascending=False) 코드는 '매출' 열을 기준으로 내림차순 정렬한 데이터프레임을 반환합니다.
print(sorted_data) 출력 결과
    품목    매출
3 포도 3000
1 바나나 2000
2 딸기 1500
0 사과 1000

최대, 최소, 평균값 계산하기

데이터프레임 특정 열의 최대값, 최소값, 평균값을 계산하는 메서드는 다음과 같습니다.

  • max(): 최대값

  • min(): 최소값

  • mean(): 평균값

아래 코드는 '매출' 열의 최대값, 최소값, 평균값을 계산하는 예시입니다.


최대, 최소, 평균값 계산
import pandas as pd

data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})

# 최대값
max_sales = data_frame['매출'].max()
# 최대값: 3000 출력
print(f'최대값: {max_sales}')

# 최소값
min_sales = data_frame['매출'].min()
# 최소값: 1000 출력
print(f'최소값: {min_sales}')

# 평균값
mean_sales = data_frame['매출'].mean()
# 평균값: 1875.0 출력
print(f'평균값: {mean_sales}')

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!