AI를 학습시킬 때 사용하는 데이터 형식
AI 모델을 학습시키기 위해서는 데이터를 AI가 이해할 수 있는 형식으로 변환해야 합니다.
이번 수업에서는 AI를 학습시키는 데 사용되는 주요 데이터 파일 형식인 CSV
, JSON
, XML
에 대해 알아보겠습니다.
CSV
CSV
는 Comma-Separated Values의 약자로, 표(Table) 형식의 데이터를 저장 및 전송합니다.
각 행(가로줄)은 하나의 데이터를 표현하며 나타내며, 각 열은 데이터의 특정 속성을 나타냅니다.
각 열의 값은 쉼표(,)로 구분됩니다.
예를 들어 학생들의 이름별 수학 및 영어 성적을 저장하는 CSV 파일은 다음과 같이 표현될 수 있습니다.
이름,수학,영어
김철수,85,90
최영희,88,80
CSV는 .csv
파일 확장자를 가진 텍스트 파일로 저장되며, Microsoft Excel, Google Sheets, 데이터베이스 프로그램 등 다양한 데이터 관리 프로그램에서 쉽게 열고 편집할 수 있습니다.
JSON
JSON(JavaScript Object Notation)은 주로 웹 및 모바일 애플리케이션에서 데이터 저장 및 교환을 위해 사용됩니다.
JSON은 객체(Object)와 배열(Array)로 구성되며, 객체는 중괄호 { }
로, 배열은 대괄호 [ ]
로 감싸져 있습니다.
// 대괄호로 감싼 배열
[
// 중괄호로 감싼 객체
{
"이름": "김철수",
"수학": 85,
"영어": 90
},
{
"이름": "최영희",
"수학": 88,
"영어": 80
}
]
JSON 형식의 데이터 여러개를 1줄에 하나씩 나열해서 저장하는 데이터 파일 형식을 JSONL(JSON Lines)이라고 합니다.
{"이름": "김철수", "수학": 85, "영어": 90}
{"이름": "최영희", "수학": 88, "영어": 80}
OpenAI의 AI 모델이나 범용적인 머신러닝 모델을 학습시킬 때, JSONL 형식의 데이터 파일을 사용하는 경우가 많습니다.
XML
XML(eXtensible Markup Language)은 주로 데이터의 계층 구조를 표현하는 데 사용됩니다.
XML의 주요 요소는 다음과 같습니다:
-
태그:
< >
로 감싸진 데이터로, 데이터의 계층 구조를 표현합니다.- 태그는 시작 태그와 종료 태그로 나뉩니다.
- 시작 태그는
<태그명>
, 종료 태그는</태그명>
으로 표시됩니다.
-
속성: 태그 내에 추가 정보를 제공하기 위해 사용됩니다.
- 태그에 속성을 추가하려면
<태그명 속성명="속성값">
형식을 사용합니다. - 예:
<학생 성별="남">
은 학생 태그에 성별 속성을 추가한 예입니다.
- 태그에 속성을 추가하려면
아래는 JSON 예시를 XML로 표현한 것입니다.
<학생명단>
<학생>
<이름>김철수</이름>
<수학>85</수학>
<영어>90</영어>
</학생>
<학생>
<이름>최영희</이름>
<수학>88</수학>
<영어>80</영어>
</학생>
</학생명단>
이미지 관련 AI 모델을 학습시킬 때는 .jpg
, .png
등의 이미지 파일 형식을 사용합니다.
이미지 파일은 픽셀 값으로 구성되며, AI 모델은 이 픽셀 값을 입력으로 받아 이미지를 인식하고 분류합니다.
이렇게 AI 모델을 학습시키기 위한 데이터 파일 형식은 다양하며, 모델 설계 방식에 따라 적절한 데이터 형식을 선택하여 사용해야 합니다.
다음 내용이 궁금하다면?
코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!