AI에서 모든 정보는 숫자로 표현됩니다

AI에게 이미지란 "사진"이 아니라 숫자의 배열입니다. 우리가 고양이 사진을 본다고 생각해보겠습니다. 사람의 눈에는 털, 눈, 귀 같은 형태가 보이지만, 컴퓨터에게 그 이미지는 작은 점들의 집합일 뿐입니다. 이 작은 점 하나를 픽셀(pixel)이라고 부릅니다.

헤더 이미지

픽셀이란?

픽셀은 이미지의 가장 작은 단위입니다. 디지털 화면은 수많은 픽셀로 이루어져 있습니다. 예를 들어 가로 1000개, 세로 1000개의 픽셀로 이루어진 이미지라면 총 100만 개의 작은 점이 모여 하나의 그림을 만드는 것입니다.

각 픽셀은 단순한 점이 아니라 숫자로 표현된 색 정보를 담고 있습니다.

흑백 이미지의 경우, 각 픽셀은 보통 0부터 255 사이의 숫자 하나로 표현됩니다.

0 → 완전한 검정
255 → 완전한 흰색
128 → 중간 밝기

즉, 흑백 이미지는 다음과 같은 숫자 표로 나타낼 수 있습니다.

5x5 흑백 이미지 숫자 표현
예시: 5x5 흑백 이미지

| 0   | 0   | 0   | 0   | 0   |
| --- | --- | --- | --- | --- |
| 0   | 255 | 255 | 255 | 0   |
| 0   | 255 | 0   | 255 | 0   |
| 0   | 255 | 255 | 255 | 0   |
| 0   | 0   | 0   | 0   | 0   |

위 표는 중앙이 검정색(0)이고 그 주변이 흰색(255)으로 둘러싸인 단순한 형태를 나타냅니다. 가장자리는 모두 검정색입니다.

5x5 흑백 픽셀 이미지

컬러 이미지는 어떻게 표현될까?

컬러 이미지는 한 단계 더 복잡합니다. 각 픽셀은 R(빨강), G(초록), B(파랑) 세 가지 색상 값을 각각 0부터 255 사이의 숫자로 표현하며, 이를 RGB 방식이라고 합니다. 이때 RGB 값은 순서대로 빨강, 초록, 파랑의 밝기 강도를 의미합니다.

예를 들면 다음과 같습니다.

(255, 0, 0) → 빨강
(0, 255, 0) → 초록
(0, 0, 255) → 파랑
(255, 255, 255) → 흰색
(0, 0, 0) → 검정
(255, 255, 0) → 노랑

5x5 컬러 이미지는 다음과 같이 표현할 수 있습니다.

5x5 컬러 이미지 RGB 표현
예시: 5x5 컬러 이미지

| (255, 0, 0)     | (0, 255, 0)   | (0, 0, 255)   | (255, 255, 255) | (0, 0, 0)       |
| --------------- | ------------- | ------------- | --------------- | --------------- |
| (255, 255, 0)   | (0, 255, 255) | (255, 0, 255) | (128, 128, 128) | (64, 64, 64)    |
| (192, 192, 192) | (128, 0, 0)   | (0, 128, 0)   | (0, 0, 128)     | (128, 128, 0)   |
| (0, 128, 128)   | (128, 0, 128) | (64, 64, 64)  | (192, 192, 192) | (255, 255, 255) |
| (0, 0, 0)       | (255, 0, 0)   | (0, 255, 0)   | (0, 0, 255)     | (255, 255, 0)   |

위 픽셀 표는 아래와 같이 다양한 색이 섞여 있는 이미지를 나타냅니다.

5x5 컬러 픽셀 이미지

위 예시는 매우 작은 이미지이지만, 실제 AI가 처리하는 이미지는 보통 1024×1024 픽셀 이상입니다. 이는 한 장의 사진이 수백만 개의 픽셀로 이루어져 있음을 의미합니다. 각 픽셀은 세 가지 색상 값을 가지므로, AI는 결국 수백만 개의 숫자 조합을 다루는 셈입니다.

위와 같은 고양이 사진도 AI에게는 결국 수백만 개의 숫자로 이루어진 행렬일 뿐입니다.

AI는 이 숫자를 어떻게 활용하나요?

AI는 "이 동물은 고양이다"처럼 의미를 이해해서 판단하지 않습니다. 대신 고양이 이미지에서 반복적으로 등장하는 숫자 패턴을 학습합니다.

예를 들어 고양이 사진이 수십만 장 주어진다고 가정해 봅시다. AI는 데이터 속에서 다음과 같은 반복을 발견합니다.

특정 밝기 변화가 일정한 간격으로 나타난다.
둥근 형태 주변에 어두운 점 두 개가 자주 등장한다.
위쪽에 삼각형 형태의 밝기 패턴이 반복된다.

즉, AI는 사람처럼 고양이의 "귀"와 "눈"이라는 개념을 인식하는 것이 아니라, 고양이 이미지에서 자주 나타나는 픽셀 기반 숫자 배열의 반복 구조를 학습합니다. 그리고 이런 패턴이 나타날수록 고양이일 확률이 높다고 판단하는 계산을 점점 더 정교하게 만들어 갑니다.

소리도 숫자로 표현됩니다

AI에게 소리도 결국 숫자의 흐름입니다.

소리는 공기가 떨리면서 생기는 진동입니다. 마이크는 이 떨림을 아주 짧은 시간 간격으로 측정합니다. 그리고 "지금 얼마나 세게 떨렸는지"를 숫자로 기록합니다. 이렇게 하면 소리는 긴 숫자 배열로 바뀝니다.

소리 파형 숫자 배열 예시
예시: 소리 파형 일부

[0.02, 0.15, 0.30, 0.10, -0.05, -0.20, -0.10, 0.05 ...]

이 숫자들은 시간에 따라 소리가 얼마나 강하게 흔들렸는지를 보여줍니다. 값이 크면 큰 소리, 작으면 작은 소리입니다.

사람은 이 소리를 듣고 "안녕하세요"라고 이해합니다. 하지만 AI는 이 숫자들의 변화 패턴을 봅니다.

예를 들어 "안"이라는 소리를 말할 때는 항상 비슷한 숫자 흐름이 나타납니다. "녕"이라는 소리도 마찬가지입니다. AI는 수많은 음성을 들으면서 이런 숫자 패턴이 어떤 단어와 자주 함께 등장하는지 학습합니다.

즉, AI는 소리를 '듣는' 것이 아니라, 시간에 따라 변하는 소리의 숫자 패턴을 분석해 그에 해당하는 단어를 예측하는 것입니다.

이미지와 마찬가지로 소리 역시 결국 숫자로 표현되며, AI는 그 숫자들 속에서 반복되는 구조를 찾아내는 방식으로 작동합니다.

텍스트는 어떻게 숫자가 되나요?

이미지와 소리가 숫자로 표현되듯이, 텍스트도 결국 숫자로 바뀌어야 AI가 처리할 수 있습니다. 컴퓨터는 글자의 '뜻'을 직접 이해하지 못하기 때문입니다. 먼저 글자를 잘게 나누고, 그 조각에 번호를 붙입니다.

1단계: 글자를 쪼개기 (토큰화)

예를 들어 다음 문장을 보겠습니다.

"오늘 날씨가 좋다"

AI는 이 문장을 그대로 처리하지 않습니다. 먼저 단어나 글자 단위로 나눕니다. 이를 토큰(token)이라고 부릅니다.

예:

오늘
날씨가
좋다

또는 더 잘게 나누면:

이처럼 문장을 작은 단위로 나누는 과정을 토큰화(tokenization)라고 합니다.

2단계: 토큰에 번호 붙이기

그다음, 각 토큰에 고유한 번호를 붙입니다. 예를 들어 다음과 같이 번호가 매겨질 수 있습니다.

오늘 → 1023
날씨가 → 4581
좋다 → 9002

그러면 문장은 이렇게 바뀝니다.

문장 토큰 ID 예시

[1023, 4581, 9002]

이제 문장은 숫자 배열이 됩니다.

3단계: 숫자를 벡터로 바꾸기

하지만 단순한 번호만으로는 충분하지 않습니다. AI는 각 단어를 더 많은 숫자로 표현합니다. 이를 임베딩(embedding)이라고 합니다.

예를 들어 "고양이"라는 단어는 이런 식의 숫자 묶음으로 표현됩니다.

단어 임베딩 벡터 예시

[0.12, -0.44, 0.88, 0.03, ...]

이 숫자 묶음은 단어의 특징을 담고 있습니다. 흥미로운 점은, 비슷한 의미나 같은 범주의 단어들은 숫자 배열도 서로 비슷해진다는 것입니다.

예를 들어 "고양이"와 "강아지"는 같은 범주이므로, AI가 학습한 숫자 공간에서는 다음과 같이 표현될 수 있습니다.

고양이 → [0.12, -0.44, 0.88, ...]
강아지 → [0.10, -0.40, 0.85, ...]

하지만 "자동차"는 전혀 다른 범주이므로, 숫자 배열도 다르게 나타납니다.

자동차 → [-0.60, 0.81, -0.12, ...]

AI는 이 숫자들을 어떻게 활용하나요?

사람은 문장을 읽고 의미를 이해합니다. 하지만 AI는 다음과 같이 처리합니다.

문장을 잘게 나눈다.
각 조각을 숫자로 바꾼다.
숫자 패턴을 분석해 다음 단어를 예측한다.

즉, AI는 글을 '읽는' 것이 아니라, 숫자로 변환된 단어들의 패턴을 바탕으로 다음에 올 숫자를 예측합니다.

핵심 정리

이미지, 소리, 텍스트는 겉으로는 전혀 다른 정보처럼 보이지만, AI 내부에서는 모두 숫자로 변환된 데이터입니다. AI가 하는 일은 결국 이 숫자들 사이에서 반복되는 패턴과 관계를 찾아내는 것입니다.

우리가 보는 것	AI가 처리하는 것
고양이 사진	수백만 개 픽셀의 숫자 배열
사람 목소리	시간에 따른 진동 값의 연속
문장	토큰을 변환한 숫자 벡터

AI는 의미를 직접 느끼거나 이해하지 않습니다. 대신 숫자들 사이의 관계를 계산하고, 그 관계를 바탕으로 다음 결과를 예측합니다. 그러나 이 계산이 충분히 정교해지면, 우리는 AI가 주어진 상황을 마치 '이해'한 것처럼 느끼게 됩니다.

그래서 AI는 어떻게 작동하는 걸까요?

AI는 감정을 느끼지도, 스스로를 인식하지도 않습니다. 그럼에도 우리는 AI를 꽤 똑똑하다고 느낍니다. 그 이유는 우리가 일상에서 "지능적이다"라고 부르는 활동의 상당 부분이, 사실은 정보를 정리하고 반복되는 구조를 파악하며 다음 결과를 예측하는 것이기 때문입니다. 다시 말해, 인간의 지적 활동은 AI가 작동하는 방식과 겹치는 부분이 많습니다.

예를 들어 요약은 단순히 문장을 줄이는 작업이 아닙니다. 긴 글을 읽고 무엇이 핵심인지 판단한 뒤, 중요한 내용을 다시 배열해 하나의 흐름으로 재구성하는 과정입니다. 이 과정에서는 글의 구조를 파악하고, 덜 중요한 부분을 덜어내며, 중심 생각을 남겨야 합니다. 번역 역시 단어를 기계적으로 바꾸는 일이 아닙니다. 한 언어의 표현과 맥락을 이해하고, 다른 언어의 구조에 맞게 자연스럽게 옮겨야 합니다. 추천 시스템도 비슷합니다. 단순히 "이 사람이 이것을 좋아한다"라고 기록하는 것이 아니라, 과거의 선택 패턴을 분석해 앞으로 무엇을 선택할 가능성이 높은지 예측합니다.

겉으로 보면 요약, 번역, 추천은 전혀 다른 활동처럼 보입니다. 하지만 모두 방대한 정보 속에서 반복되는 구조를 찾아내고, 그 구조를 바탕으로 다음 결과를 만들어냅니다.

이 지점에서 AI는 인간에 비해 뚜렷한 강점을 보입니다. AI는 방대한 데이터를 기반으로 패턴을 계산하고, 그 패턴이 다시 나타날 가능성을 매우 정교하게 예측합니다.

AI는 인간과 같은 방식으로 사고하지는 않지만, 이러한 확률적 패턴 분석을 통해 인간의 지적 활동과 유사하거나 이를 능가하는 결과를 만들어내는 수준에 도달했습니다.

픽셀이란?​

컬러 이미지는 어떻게 표현될까?​

AI는 이 숫자를 어떻게 활용하나요?​

소리도 숫자로 표현됩니다​

텍스트는 어떻게 숫자가 되나요?​

1단계: 글자를 쪼개기 (토큰화)​

2단계: 토큰에 번호 붙이기​

3단계: 숫자를 벡터로 바꾸기​

AI는 이 숫자들을 어떻게 활용하나요?​

핵심 정리​

그래서 AI는 어떻게 작동하는 걸까요?​