데이터셋 구조: 특성과 레이블
머신러닝에서 데이터셋은 보통 다음과 같이 구성됩니다.
Features (X)
: 모델이 예측을 하기 위해 사용하는 입력 변수. 예: 나이, 키, 구매 횟수 등.Labels (y)
: 모델이 예측하려는 목표 변수. 예: 이메일이 스팸인지 여부, 아파트 가격 등.
지도학습에서는 모델이 features
와 labels
사이의 관계를 학습합니다.
데이터셋 불러오기
앞서 사용한 붓꽃(Iris) 데이터셋은 Scikit-learn에서 기본적으로 제공하는 데이터셋입니다.
붓꽃(Iris) 데이터셋 불러오기
from sklearn.datasets import load_iris
iris = load_iris()
# 특성(Features, X) - 형태: (샘플 수, 특성 수)
X = iris.data
print("특성 배열의 형태:", X.shape)
print("첫 번째 샘플의 특성:", X[0])
# 레이블(Labels, y) - 형태: (샘플 수,)
y = iris.target
print("레이블 배열의 형태:", y.shape)
print("첫 번째 레이블:", y[0])
특성 이름과 레이블 이름 확인
다음 코드를 사용해 붓꽃 데이터셋의 특성 이름과 레이블 이름을 확인할 수 있습니다.
특성 이름과 레이블 이름
print("특성 이름:", iris.feature_names)
print("레이블(타깃) 이름:", iris.target_names)
다음은 특성과 레이블에 대한 요점은 다음과 같습니다.
-
Features
는 모델이 예측을 하기 위해 사용하는 정보입니다. -
Labels
는 학습 시 정답을 의미합니다. -
X
: 입력 특성, 2차원 배열 형태(n_samples, n_features)
. -
y
: 타깃 레이블, 1차원 배열 형태(n_samples,)
. -
데이터를
X
와y
로 올바르게 구성하는 것은train_test_split()
나.fit()
같은 사이킷런 함수들을 사용하기 위한 필수 조건입니다. -
특성과 레이블을 적절히 분리하는 것이 학습용 데이터 준비의 첫 단계입니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!