실무에 활용하는 AI 이미지 분석
이제 AI에게도 시력
이 생겼습니다.
이미지, 비디오, 오디오 등 여러 유형의 데이터를 처리하는 멀티 모달(Multimodal) 기술 덕분에, AI로 이미지를 분석하고 처리하는 것이 훨씬 쉬워졌습니다.
멀티 모달
은 여러 유형의 데이터를 동시에 처리하는 기술을 의미합니다.
2023년 OpenAI는 이미지 분석에 특화된 GPT Vision
을 출시하며 인공지능으로 디테일한 이미지 분석까지 가능하다는 것을 증명했으며, 이후 이미지 분석을 GPT-4o
모델에 통합시켰습니다.
AI가 이미지를 분석하는 방법
AI가 이미지를 분석하는 방법은 크게 세 단계로 나눌 수 있습니다.
이미지 인식
입력받은 이미지를 작은 조각들로 나누고, 각 조각을 분석해서 이 조각이 무엇을 나타내는지 판단합니다.
특징 추출
이미지를 분석해 특정한 패턴 및 중요 요소들을 찾습니다.
이미지 내 특징적인 요소들을 랜드마크(Landmark)
라고 하며, 사람 얼굴의 눈, 코, 입, 귀 등이 랜드마크의 예시입니다.
내용 해석
마지막으로, 찾은 특징들을 조합해서 이미지 전체가 무엇을 의미하는지 판단합니다.
예를 들어 나무와 하늘, 그리고 사람이 있는 조각들을 모두 조합해서 "공원에서 산책하는 사람"이라고 이미지를 해석합니다.
AI를 이미지 분석에 어떻게 활용할까요?
AI를 이미지 분석에 사용하는 방법은 매우 다양합니다. 대표적 AI 활용 사례는 다음과 같습니다.
이미지에서 텍스트 데이터 추출
명함 이미지에서 전화번호를 추출하거나, 영수증 이미지에서 금액을 추출하는 등 이미지에서 텍스트를 추출할 수 있습니다.