본문으로 건너뛰기
실습하기

실무에 활용하는 AI 이미지 분석

이제 AI에게도 시력이 생겼습니다. 이미지, 비디오, 오디오 등 여러 유형의 데이터를 처리하는 멀티 모달(Multimodal) 기술 덕분에, AI로 이미지를 분석하고 처리하는 것이 훨씬 쉬워졌습니다.

2023년 OpenAI는 이미지 분석에 특화된 GPT Vision을 출시하며 인공지능으로 디테일한 이미지 분석까지 가능하다는 것을 증명했으며, 이후 이미지 분석을 GPT-4o에 통합시켰습니다.


AI가 이미지를 분석하는 방법

  1. 이미지 인식:

    • 입력받은 이미지를 작은 조각들로 나눕니다.
    • 각 조각을 분석해서 이 조각이 무엇을 나타내는지 알아봅니다.
    • 예를 들어, 어떤 조각은 하늘, 어떤 조각은 나무, 또 어떤 조각은 사람의 얼굴일 수 있습니다.
  2. 특징 추출:

    • 이미지를 분석하하며 특정한 패턴 및 중요 요소들을 찾습니다.
    • 예를 들어, 사람의 얼굴을 찾을 때는 눈, 코, 입 같은 특징을 찾습니다.
  3. 내용 해석:

    • 마지막으로, 찾은 특징들을 조합해서 이미지 전체가 무엇을 의미하는지 판단합니다.
    • 예를 들어, 나무와 하늘, 그리고 사람이 있는 조각들을 모두 조합해서 "공원에서 산책하는 사람"이라고 이미지를 해석합니다.

AI 이미지 분석을 어떻게 활용할까요?

  1. 이미지에서 텍스트 데이터 추출:

    • 명함 이미지에서 전화번호를 추출하거나, 영수증 이미지에서 금액을 추출하는 등 이미지에서 텍스트를 추출할 수 있습니다.
    • 이렇게 이미지 속 문자를 텍스트로 추출하는 것을 OCR(광학 문자 인식)이라고 합니다.
  2. 이미지 분류 자동화:

    • 수천장, 수만장의 이미지를 분류할 때, AI를 활용하면 훨씬 빠르고 정확하게 분류할 수 있습니다.
    • 예를 들어, 수만장의 고양이 이미지와 강아지 이미지를 분류하는 것이 가능합니다.
    • 이렇게 반복 작업을 AI로 자동화 할 때는 OpenAI API(소프트웨어 간의 상호 작용을 돕는 규칙 및 도구)가 필요합니다.
  3. 데이터 분석:

    • 그래프, 차트, 표 등의 이미지를 분석해서 데이터를 추출하거나, 이미지를 분석해서 데이터를 시각화할 수 있습니다.
    • 예를 들어, 주식 차트 이미지를 분석해서 주식 가격을 추출하거나, 지도 이미지를 분석해서 인구 밀도를 시각화할 수 있습니다.

이미지 분석에 특화된 프롬프트 엔지니어링 방법

1. 이미지 맥락 및 결과물 명시하기

이미지의 배경 정보나 관련된 맥락을 제공하면 더 나은 정확한 결과를 얻을 수 있습니다.

프롬프트 예시:

  • 이 이미지는 자연 속에서 찍힌 사진입니다. 주요 물체를 3개 식별해 주세요.

  • 이 사진은 명함입니다. 이름, 직책, 연락처를 추출해 주세요.

  • 아래 그래프는 2023년 하반기 도서 판매 매출을 나타냅니다. 그래프에서 매출액, 도서 종류를 추출해 표로 정리해 주세요.


2. 세부 사항 강조하기

이미지의 특정 부분, 텍스트, 또는 물체를 분석하도록 지시합니다.

프롬프트 예시:

  • 이 이미지의 오른쪽 상단 구석에 있는 텍스트를 추출해 주세요.

  • 이 사진의 중앙에 있는 인물을 설명해 주세요.

  • 이 그래프에서 2023년 7월의 매출액을 추출해 주세요.


3. 답변 출력 형식 지정

CSV(엑셀과 같은 스프레드시트에서 사용하는 컴마 구분 값), 표(Table), 목록(List), 문장(Sentence) 등 출력 형식을 확실하게 명시합니다.

프롬프트 예시:

  • 그래프에서 추출된 값을 엑셀에 활용하기 위해 CSV 형식으로 정리해 주세요.

  • 명함에서 추출된 이름, 직책, 연락처를 목록으로 정리해 주세요.


이미지 분석 프롬프트 예제

위 방법을 활용해 이미지 분석 프롬프트를 아래와 같이 작성할 수 있습니다.

명함 텍스트 추출 예제
제공된 이미지는 비즈니스 명함입니다.

명함에서 이름, 직책, 연락처, 이메일을 추출해 주세요.

추출된 정보는 CSV 형식으로 정리해 주세요.
  • 이미지 맥락: 비즈니스 명함

  • 추출 세부사항: 이름, 직책, 연락처, 이메일

  • 답변 출력 형식: CSV 형식


실습

프롬프트 예제를 보내고 AI의 답변을 비교해 보세요.