데이터프레임으로 데이터 다루기
Pandas의 데이터프레임
은 엑셀과 같은 표 형식의 데이터를 체계적으로 다루기 위한 데이터 구조입니다.
데이터프레임은 여러 개의 시리즈로 구성된 2차원 배열
이며, 행과 열이 모두 존재합니다.
아래는 품목과 매출 데이터를 담은 데이터프레임을 생성하고, 데이터를 조작하는 간단한 코드 예시입니다.
데이터 조작 예시
import pandas as pd
# 데이터프레임 생성
data_frame = pd.DataFrame({
'품목': ['사과', '바나나', '딸기', '포도'],
'매출': [1000, 2000, 1500, 3000]
})
# 특정 열 선택
sales = data_frame['매출']
print("sales:", sales)
# 조건에 맞는 행 필터링
filtered_data = data_frame[data_frame['매출'] > 1500]
print("filtered_data:", filtered_data)
# 데이터 정렬
sorted_data = data_frame.sort_values(by='매출', ascending=False)
print("sorted_data:", sorted_data)
sales = data_frame['매출']
코드는 데이터프레임에서 '매출' 열만 선택하여 시리즈로 반환합니다.
print(sales) 출력 결과
0 1000
1 2000
2 1500
3 3000
Name: 매출, dtype: int64
filtered_data = data_frame[data_frame['매출'] > 1500]
코드는 '매출' 열의 값이 1500보다 큰 행만 필터링하여 새로운 데이터프레임을 생성합니다.
print(filtered_data) 출력 결과
품목 매출
1 바나나 2000
3 포도 3000
sorted_data = data_frame.sort_values(by='매출', ascending=False)
코드는 '매출' 열을 기준으로 내림차순 정렬한 데이터프레임을 반환합니다.
print(sorted_data) 출력 결과
품목 매출
3 포도 3000
1 바나나 2000
2 딸기 1500
0 사과 1000