AI에서 모든 정보는 숫자로 표현됩니다
AI에게 이미지란 "사진"이 아니라 숫자의 배열입니다. 우리가 고양이 사진을 본다고 생각해보겠습니다. 사람의 눈에는 털, 눈, 귀 같은 형태가 보이지만, 컴퓨터에게 그 이미지는 작은 점들의 집합일 뿐입니다. 이 작은 점 하나를 픽셀(pixel)이라고 부릅니다.

픽셀이란?
픽셀은 이미지의 가장 작은 단위입니다. 디지털 화면은 수많은 픽셀로 이루어져 있습니다. 예를 들어 가로 1000개, 세로 1000개의 픽셀로 이루어진 이미지라면 총 100만 개의 작은 점이 모여 하나의 그림을 만드는 것입니다.
각 픽셀은 단순한 점이 아니라 숫자로 표현된 색 정보를 담고 있습니다.
흑백 이미지의 경우, 각 픽셀은 보통 0부터 255 사이의 숫자 하나로 표현됩니다.
- 0 → 완전한 검정
- 255 → 완전한 흰색
- 128 → 중간 밝기
즉, 흑백 이미지는 다음과 같은 숫자 표로 나타낼 수 있습니다.
예시: 5x5 흑백 이미지
| 0 | 0 | 0 | 0 | 0 |
| --- | --- | --- | --- | --- |
| 0 | 255 | 255 | 255 | 0 |
| 0 | 255 | 0 | 255 | 0 |
| 0 | 255 | 255 | 255 | 0 |
| 0 | 0 | 0 | 0 | 0 |
위 표는 중앙이 검정색(0)이고 그 주변이 흰색(255)으로 둘러싸인 단순한 형태를 나타냅니다. 가장자리는 모두 검정색입니다.
컬러 이미지는 어떻게 표현될까?
컬러 이미지는 한 단계 더 복잡합니다. 각 픽셀은 R(빨강), G(초록), B(파랑) 세 가지 색상 값을 각각 0부터 255 사이의 숫자로 표현하며, 이를 RGB 방식이라고 합니다. 이때 RGB 값은 순서대로 빨강, 초록, 파랑의 밝기 강도를 의미합니다.
예를 들면 다음과 같습니다.
- (255, 0, 0) → 빨강
- (0, 255, 0) → 초록
- (0, 0, 255) → 파랑
- (255, 255, 255) → 흰색
- (0, 0, 0) → 검정
- (255, 255, 0) → 노랑
5x5 컬러 이미지는 다음과 같이 표현할 수 있습니다.
예시: 5x5 컬러 이미지
| (255, 0, 0) | (0, 255, 0) | (0, 0, 255) | (255, 255, 255) | (0, 0, 0) |
| --------------- | ------------- | ------------- | --------------- | --------------- |
| (255, 255, 0) | (0, 255, 255) | (255, 0, 255) | (128, 128, 128) | (64, 64, 64) |
| (192, 192, 192) | (128, 0, 0) | (0, 128, 0) | (0, 0, 128) | (128, 128, 0) |
| (0, 128, 128) | (128, 0, 128) | (64, 64, 64) | (192, 192, 192) | (255, 255, 255) |
| (0, 0, 0) | (255, 0, 0) | (0, 255, 0) | (0, 0, 255) | (255, 255, 0) |
위 픽셀 표는 아래와 같이 다양한 색이 섞여 있는 이미지를 나타냅니다.
위 예시는 매우 작은 이미지이지만, 실제 AI가 처리하는 이미지는 보통 1024×1024 픽셀 이상입니다. 이는 한 장의 사진이 수백만 개의 픽셀로 이루어져 있음을 의미합니다. 각 픽셀은 세 가지 색상 값을 가지므로, AI는 결국 수백만 개의 숫자 조합을 다루는 셈입니다.
위와 같은 고양이 사진도 AI에게는 결국 수백만 개의 숫자로 이루어진 행렬일 뿐입니다.
AI는 이 숫자를 어떻게 활용하나요?
AI는 "이 동물은 고양이다"처럼 의미를 이해해서 판단하지 않습니다. 대신 고양이 이미지에서 반복적으로 등장하는 숫자 패턴을 학습합니다.
예를 들어 고양이 사진이 수십만 장 주어진다고 가정해 봅시다. AI는 데이터 속에서 다음과 같은 반복을 발견합니다.
- 특정 밝기 변화가 일정한 간격으로 나타난다.
- 둥근 형태 주변에 어두운 점 두 개가 자주 등장한다.
- 위쪽에 삼각형 형태의 밝기 패턴이 반복된다.
즉, AI는 사람처럼 고양이의 "귀"와 "눈"이라는 개념을 인식하는 것이 아니라, 고양이 이미지에서 자주 나타나는 픽셀 기반 숫자 배열의 반복 구조를 학습합니다. 그리고 이런 패턴이 나타날수록 고양 이일 확률이 높다고 판단하는 계산을 점점 더 정교하게 만들어 갑니다.
소리도 숫자로 표현됩니다
AI에게 소리도 결국 숫자의 흐름입니다.
소리는 공기가 떨리면서 생기는 진동입니다. 마이크는 이 떨림을 아주 짧은 시간 간격으로 측정합니다. 그리고 "지금 얼마나 세게 떨렸는지"를 숫자로 기록합니다. 이렇게 하면 소리는 긴 숫자 배열로 바뀝니다.
예시: 소리 파형 일부
[0.02, 0.15, 0.30, 0.10, -0.05, -0.20, -0.10, 0.05 ...]
이 숫자들은 시간에 따라 소리가 얼마나 강하게 흔들렸는지를 보여줍니다. 값이 크면 큰 소리, 작으면 작은 소리입니다.
사람은 이 소리를 듣고 "안녕하세요"라고 이해합니다. 하지만 AI는 이 숫자들의 변화 패턴을 봅니다.
예를 들어 "안"이라는 소리를 말할 때는 항상 비슷한 숫자 흐름이 나타납니다. "녕"이라는 소리도 마찬가지입니다. AI는 수많은 음성을 들으면서 이런 숫자 패턴이 어떤 단어와 자주 함께 등장하는지 학습합니다.
즉, AI는 소리를 '듣는' 것이 아니라, 시간에 따라 변하는 소리의 숫자 패턴을 분석해 그에 해당하는 단어를 예측하는 것입니다.
이미지와 마찬가지로 소리 역시 결국 숫자로 표현되며, AI는 그 숫자들 속에서 반복되는 구조를 찾아내는 방식으로 작동합니다.
텍스트는 어떻게 숫자가 되나요?
이미지와 소리가 숫자로 표현되듯이, 텍스트도 결국 숫자로 바뀌어야 AI가 처리할 수 있습니다. 컴퓨터는 글자의 '뜻'을 직접 이해하지 못하기 때문입니다. 먼저 글자를 잘게 나누고, 그 조각에 번호를 붙입니다.