실무에 활용하는 AI 이미지 분석
이제 AI에게도 시력
이 생겼습니다. 이미지, 비디오, 오디오 등 여러 유형의 데이터를 처리하는 멀티 모달(Multimodal) 기술 덕분에, AI로 이미지를 분석하고 처리하는 것이 훨씬 쉬워졌습니다.
2023년 OpenAI는 이미지 분석에 특화된 GPT Vision
을 출시하며 인공지능으로 디테일한 이미지 분석까지 가능하다는 것을 증명했으며, 이후 이미지 분석을 GPT-4o
에 통합시켰습니다.
AI가 이미지를 분석하는 방법
-
이미지 인식:
- 입력받은 이미지를 작은 조각들로 나눕니다.
- 각 조각을 분석해서 이 조각이 무엇을 나타내는지 알아봅니다.
- 예를 들어, 어떤 조각은 하늘, 어떤 조각은 나무, 또 어떤 조각은 사람의 얼굴일 수 있습니다.
-
특징 추출:
- 이미지를 분석하하며 특정한 패턴 및 중요 요소들을 찾습니다.
- 예를 들어, 사람의 얼굴을 찾을 때는 눈, 코, 입 같은 특징을 찾습니다.
-
내용 해석:
- 마지막으로, 찾은 특징들을 조합해서 이미지 전체가 무엇을 의미하는지 판단합니다.
- 예를 들어, 나무와 하늘, 그리고 사람이 있는 조각들을 모두 조합해서 "공원에서 산책하는 사람"이라고 이미지를 해석합니다.
AI 이미지 분석을 어떻게 활용할까요?
-
이미지에서 텍스트 데이터 추출:
- 명함 이미지에서 전화번호를 추출하거나, 영수증 이미지에서 금액을 추출하는 등 이미지에서 텍스트를 추출할 수 있습니다.
- 이렇게 이미지 속 문자를 텍스트로 추출하는 것을 OCR(광학 문자 인식)이라고 합니다.
-
이미지 분류 자동화:
- 수천장, 수만장의 이미지를 분류할 때, AI를 활용하면 훨씬 빠르고 정확하게 분류할 수 있습니다.
- 예를 들어, 수만장의 고양이 이미지와 강아지 이미지를 분류하는 것이 가능합니다.
- 이렇게 반복 작업을 AI로 자동화 할 때는 OpenAI API(소프트웨어 간의 상호 작용을 돕는 규칙 및 도구)가 필요합니다.
-
데이터 분석:
- 그래프, 차트, 표 등의 이미지를 분석해서 데이터를 추출하거나, 이미지를 분석해서 데이터를 시각화할 수 있습니다.
- 예를 들어, 주식 차트 이미지를 분석해서 주식 가격을 추출하거나, 지도 이미지를 분석해서 인구 밀도를 시각화할 수 있습니다.
이미지 분석에 특화된 프롬프트 엔지니어링 방법
1. 이미지 맥락 및 결과물 명시하기
이미지의 배경 정보나 관련된 맥락을 제공하면 더 나은 정확한 결과를 얻을 수 있습니다.
프롬프트 예시:
-
이 이미지는 자연 속에서 찍힌 사진입니다. 주요 물체를 3개 식별해 주세요.
-
이 사진은 명함입니다. 이름, 직책, 연락처를 추출해 주세요.
-
아래 그래프는 2023년 하반기 도서 판매 매출을 나타냅니다. 그래프에서 매출액, 도서 종류를 추출해 표로 정리해 주세요.
2. 세부 사항 강조하기
이미지의 특정 부분, 텍스트, 또는 물체를 분석하도록 지시합니다.
프롬프트 예시:
-
이 이미지의 오른쪽 상단 구석에 있는 텍스트를 추출해 주세요.
-
이 사진의 중앙에 있는 인물을 설명해 주세요.
-
이 그래프에서 2023년 7월의 매출액을 추출해 주세요.
3. 답변 출력 형식 지정
CSV(엑셀과 같은 스프레드시트에서 사용하는 컴마 구분 값), 표(Table), 목록(List), 문장(Sentence) 등 출력 형식을 확실하게 명시합니다.
프롬프트 예시:
-
그래프에서 추출된 값을 엑셀에 활용하기 위해 CSV 형식