본문으로 건너뛰기
실습하기

데이터셋 구조: 특성과 레이블

머신러닝에서 데이터셋은 보통 다음과 같이 구성됩니다.

  • Features (X): 모델이 예측을 하기 위해 사용하는 입력 변수. 예: 나이, 키, 구매 횟수 등.
  • Labels (y): 모델이 예측하려는 목표 변수. 예: 이메일이 스팸인지 여부, 아파트 가격 등.

지도학습에서는 모델이 featureslabels 사이의 관계를 학습합니다.


데이터셋 불러오기

앞서 사용한 붓꽃(Iris) 데이터셋은 Scikit-learn에서 기본적으로 제공하는 데이터셋입니다.

붓꽃(Iris) 데이터셋 불러오기
from sklearn.datasets import load_iris

iris = load_iris()

# 특성(Features, X) - 형태: (샘플 수, 특성 수)
X = iris.data
print("특성 배열의 형태:", X.shape)
print("첫 번째 샘플의 특성:", X[0])

# 레이블(Labels, y) - 형태: (샘플 수,)
y = iris.target
print("레이블 배열의 형태:", y.shape)
print("첫 번째 레이블:", y[0])

특성 이름과 레이블 이름 확인

다음 코드를 사용해 붓꽃 데이터셋의 특성 이름과 레이블 이름을 확인할 수 있습니다.

특성 이름과 레이블 이름
print("특성 이름:", iris.feature_names)
print("레이블(타깃) 이름:", iris.target_names)

다음은 특성과 레이블에 대한 요점은 다음과 같습니다.

  • Features는 모델이 예측을 하기 위해 사용하는 정보입니다.

  • Labels는 학습 시 정답을 의미합니다.

  • X: 입력 특성, 2차원 배열 형태 (n_samples, n_features).

  • y: 타깃 레이블, 1차원 배열 형태 (n_samples,).

  • 데이터를 Xy로 올바르게 구성하는 것은 train_test_split().fit() 같은 사이킷런 함수들을 사용하기 위한 필수 조건입니다.

  • 특성과 레이블을 적절히 분리하는 것이 학습용 데이터 준비의 첫 단계입니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!