영화 "Her"가 현실로, GPT-4o 출시
2013년 개봉한 영화 Her
는 인공지능(AI)과 인간 사이의 감정적 관계를 탐구하는 작품으로, 인공지능의 특이점을 잘 표현한 영화라는 평을 받았습니다.
Her는 가까운 미래를 배경으로, 감정적으로 고립된 주인공 테오도르(호아킨 피닉스 역)가 첨단 AI 운영체제(OS)와 사랑에 빠지는 이야기를 그립니다.
사만다(스칼렛 요한슨 목소리)는 테오도르의 일상 속에 깊이 스며들어 그를 감정적으로 지원하고, 두 사람은 그녀와 깊은 유대감을 형성하게 됩니다.
영화 Her는 인간과 AI 사이의 감정적 유대가 어떻게 형성되는지를 다루며, AI가 발전되면 어떤 변화가 일어날지를 상상하게 만들었습니다.
11년이 지난 지금, 우리는 이 영화가 제시한 미래에 정말 가까워 졌습니다.
5월 13일에 출시된 오픈AI의 생성형 AI 최신 모델, GPT-4o
의 출시와 함께 영화 속 이야기와 현실의 경계가 점점 희미해지고 있습니다.
GPT-4o: 현실로 다가온 "Her"
GPT-4o
("o"는 모든 방식의, 모든 곳에를 뜻하는 "omni"를 의미)는 눈부시게 발전하는 AI 기술의 최전선 에 있는 모델입니다.
이전 모델인 GPT-4 Turbo에 비해 2배 빠른 성능
을, 5배 높은 속도 제한
(rate limits)으로 활용할 수 있습니다.
위 데모에서 보신 것처럼 사용자의 음성 입력을 232ms(0.232초)만에, 평균적으로 320ms(0,32초)에 응답할 수 있습니다. 이는 일반적인 인간의 반응 속도와 유사한 수준입니다.
이뿐만 아니라 API를 통한 처리 속도가 훨씬 빨라졌으며, 비용은 50% 저렴해졌습니다.
비전(Vision) 및 오디오 이해 능력 개선
GPT-4o는 이전 모델들에 비해 특히 시각적 이해
와 오디오 이해 능력
이 향상되었습니다.
이전 모델에서는 오디오 입력을 텍스트로 변환하고, 텍스트를 받아 GPT-3.5나 GPT-4로 응답을하고, 그리고 그 텍스트를 다시 오디오로 변환하는 복잡한 과정이 필요했습니다.
이 과정에서 다수의 중요한 정보가 손실되었습니다. 예를 들어 GPT-4는 톤, 다수의 발화자, 배경 소음을 직접 관찰할 수 없었고, 웃음, 슬픔과 같은 감정 표현을 할 수 없었습니다.
GPT-4o는 텍스트, 비전, 오디오를 아우르는 단일 모델을 처음부터 끝까지 훈련시켜, 모든 입력과 출력을 같은 신경망이 처리합니다.
이는 텍스트, 이미지, 오디오등 모든 모달리티를 통합한 첫번째 모델로서, 다양한 매체를 통한 상호작용을 지원합니다.