실무에 활용하는 AI 이미지 분석
이제 AI에게도 시력이 생겼습니다.
이미지, 비디오, 오디오 등 여러 유형의 데이터를 처리하는 멀티 모달(Multimodal) 기술 덕분에, AI로 이미지를 분석하고 처리하는 것이 훨씬 쉬워졌습니다.
멀티 모달은 여러 유형의 데이터를 동시에 처리하는 기술을 의미합니다.
2023년 OpenAI는 이미지 분석에 특화된 GPT Vision을 출시하며 인공지능으로 디테일한 이미지 분석까지 가능하다는 것을 증명했으며, 이후 이미지 분석 기능을 GPT-4o를 거쳐 현재의 GPT-5 계열 모델에 통합해 왔습니다.
AI가 이미지를 분석하는 방법
AI가 이미지를 분석하는 방법은 크게 세 단계로 나눌 수 있습니다.
이미지 인식
입력받은 이미지를 작은 조각들로 나누고, 각 조각을 분석해서 이 조각이 무엇을 나타내는지 판단합니다.
특징 추출
이미지를 분석해 특정한 패턴 및 중요 요소들을 찾습니다.
이미지 내 특징적인 요소들을 랜드마크(Landmark)라고 하며, 사람 얼굴의 눈, 코, 입, 귀 등이 랜드마크의 예시입니다.
내용 해석
마지막으로, 찾은 특징들을 조합해서 이미지 전체가 무엇을 의미하는지 판단합니다.
예를 들어 나무와 하늘, 그리고 사람이 있는 조각들을 모두 조합해서 "공원에서 산책하는 사람"이라고 이미지를 해석합니다.
AI를 이미지 분석에 어떻게 활용할까요?
AI를 이미지 분석에 사용하는 방법은 매우 다양합니다. 대표적 AI 활용 사례는 다음과 같습니다.
이미지에서 텍스트 데이터 추출
명함 이미지에서 전화번호를 추출하거나, 영수증 이미지에서 금액을 추출하는 등 이미지에서 텍스트를 추출할 수 있습니다.
이렇게 이미지 속 문자를 텍스트로 추출하는 것을 OCR(광학 문자 인식)이라고 합니다.
이미지 분류 자동화
수천장, 수만장의 이미지를 분류할 때, AI를 활용하면 훨씬 빠르고 정확하게 분류할 수 있습니다.
데이터 분석
그래프, 차트, 표 등의 이미지를 분석해서 데이터를 추출하거나, 이미지를 분석해서 데이터를 시각화할 수 있습니다.
예를 들어, 주식 차트 이미지를 분석해서 주식 가격을 추출하거나, 지도 이미지를 분석해서 인구 밀도를 시각화할 수 있습니다.
이미지 분석에 특화된 프롬프트 엔지니어링 방법
이미지 분석을 위한 프롬프트를 작성할 때 다음과 같은 방법을 활용하면 더 정확한 결과를 얻을 수 있습니다.