Gemini: Google 생태계와 멀티모달을 품은 대화형 AI

Gemini는 Google이 개발한 AI 모델로, 처음부터 텍스트·이미지·음성·영상을 동시에 처리하도록 만들어졌습니다. 여기에 Gmail, Google Docs, YouTube 같은 Google 서비스와 직접 연결된다는 점이 다른 AI와 차별화됩니다.

이번 장에서는 Gemini가 어떤 방향으로 만들어졌는지, 어떤 상황에서 잘 맞는지 살펴보겠습니다.

다양한 형식의 정보를 이해하는 멀티모달 AI

대부분의 AI는 텍스트 처리 모델로 시작해, 나중에 이미지나 음성 기능을 덧붙이는 방식으로 발전했습니다. Gemini는 다릅니다. 텍스트, 이미지, 음성, 영상, 코드를 처음부터 함께 이해하도록 만들어진 모델입니다.

이렇게 여러 형태의 정보를 함께 처리하는 멀티모달(Multimodal) AI인 Gemini는 여러 다양한 형태의 정보를 동시에 받아들여 맥락을 파악합니다.

예를 들어 이런 활용이 가능합니다.

사진을 찍어 "이 식물 이름이 뭐야?"라고 묻기
강의 영상을 올리고 "핵심 내용 세 가지만 뽑아줘"라고 요청하기
길거리의 노래를 실시간으로 들려주며 "이 노래 제목이 뭐야?"라고 물어보기

여기에 더해 Gemini는 Google 서비스와 직접 연결됩니다. Gmail 메일 요약, Google Drive 문서 분석, YouTube 영상 내용 정리를 Gemini가 직접 처리합니다. 다른 AI에서는 내용을 복사해 붙여넣어야 했던 작업을, Gemini는 Google 서비스 안에서 바로 해결합니다.

Gemini의 발전 과정

Gemini는 Google이 2023년 Bard라는 이름으로 운영하던 챗봇을 2024년 새 이름으로 바꾸면서 시작되었습니다. 이후 빠른 속도로 버전을 올리며 멀티모달 처리 능력과 긴 문맥 처리 성능을 크게 끌어올렸습니다.

세대	대표 공개 시점	주요 내용
Gemini 1.0	2023-12	Ultra·Pro·Nano 세 가지 크기로 공개. 멀티모달 처음 도입
Gemini 1.5	2024-02	최대 200만 토큰 문맥 처리 지원. 긴 영상·문서 분석이 가능해짐
Gemini 2.0	2025-02	에이전트 기능 강화. Flash·Flash-Lite 등 목적별 모델 다양화
Gemini 2.5	2025-03	'사고 모델' 도입. 답하기 전에 스스로 추론 과정을 거쳐 복잡한 문제에 강해짐
Gemini 3.0	2025-11	추론·코딩 성능 대폭 향상. 복잡한 자율 작업에 최적화

세대마다 모델 이름 뒤에 붙는 Pro·Flash·Nano는 성능과 속도의 균형이 다릅니다. Pro는 복잡한 작업에, Flash는 빠른 응답이 중요한 상황에, Nano는 스마트폰처럼 기기 안에서 직접 실행되는 경우에 씁니다.

Gemini가 특히 강한 상황

사진·영상으로 질문하기

텍스트로 설명하기 어려운 상황에서 멀티모달 기능이 유용합니다. 낯선 표지판을 찍어서 뜻을 묻거나, 냉장고 속 재료를 사진으로 보여주고 "이걸로 뭘 만들 수 있어?"라고 물어볼 수 있습니다. 긴 강의 영상을 올리면 챕터별로 내용을 정리해주고, 특정 장면에서 무슨 일이 일어나는지 설명해줍니다.

Google 서비스 안에서 바로 쓰기

Gemini는 Google 서비스 안에 이미 들어와 있습니다. Gmail에서 긴 메일 스레드를 요약하거나, Google Docs에서 초안을 작성하거나, Google Sheets에서 데이터를 분석하는 일을 별도의 탭 없이 처리할 수 있습니다. 안드로이드 스마트폰에서는 전화, 문자, 알람, 앱 실행까지 Gemini에게 말로 부탁할 수 있습니다.

실시간 정보가 필요한 질문

Google 검색과 연결되어 있어 지금 이 순간의 뉴스, 날씨, 최신 정보를 바탕으로 답변합니다. "오늘 주식 시장 어때?"나 "지금 인천공항의 날씨는?"처럼 실시간 정보가 필요한 질문에 강합니다.

Gemini와 함께 쓸 수 있는 도구들

NotebookLM: 연구, 학습 목적에 특화된 AI 노트

NotebookLM은 Gemini를 기반으로 만든 연구·학습 도구입니다. 일반 Gemini가 인터넷 전체를 참고해 답변한다면, NotebookLM은 내가 올린 자료 안에서만 답변합니다.

PDF, Google Docs, 웹 링크, YouTube 링크 등을 올려두면 그 자료를 읽고 요약·질문 응답·핵심 정리를 헤주며, 인터넷의 불확실한 정보가 섞이지 않기 때문에 신뢰도가 높습니다.

NotebookLM은 주로 다음과 같은 상황에 활용됩니다.

강의 자료 여러 개를 올려두고 시험 범위에서 모르는 내용을 질문하기
논문 여러 편을 올리고 "이 논문들의 공통된 주장이 뭐야?"라고 정리 요청하기
회의록·보고서를 올리고 핵심 결정 사항과 다음 할 일 추출하기

Gemini Code Assist: 코드 작업을 돕는 도구

Gemini Code Assist는 개발자를 위한 코딩 보조 도구입니다. VS Code 같은 코드 편집기에 설치하면 코드를 작성하는 도중 다음에 올 코드를 제안하거나 오류 원인을 설명합니다.

후발주자였지만, 빠르게 따라잡은 AI

ChatGPT가 2022년 말 세상을 놀라게 했을 때, Google은 뒤늦게 Bard를 내놓으며 경쟁에 뛰어들었습니다. 초기 반응은 냉담했습니다. 첫 시연에서 오답을 내놓아 구글 주가가 하루 만에 큰 폭으로 떨어지기도 했습니다.

하지만 그 이후 Google의 행보는 달랐습니다. 불과 2년 사이에 Gemini 1.0, 1.5, 2.0, 2.5, 3.0까지 빠르게 버전을 올리며 성능을 끌어올렸고, 2025년에 발표된 Gemini 3 Pro는 주요 벤치마크에서 경쟁 모델들을 앞서기 시작했습니다.

몇 가지 수치를 보면 이렇습니다. AI의 추론 능력을 측정하는 GPQA Diamond 벤치마크에서 Gemini 3 Pro는 91.9%를 기록했고, 시각 정보 이해를 측정하는 MMMU-Pro에서는 81.2%로 경쟁 모델 중 가장 높은 점수를 보였습니다. 멀티모달 분야에서는 오래전부터 쌓아온 Google의 기술력이 그대로 반영된 결과입니다.

성능만큼이나 사용자 증가도 가파릅니다. Gemini 앱의 글로벌 사용자는 4억 명을 넘어섰고, Android 스마트폰에 기본 AI 어시스턴트로 탑재되면서 사용자들이 따로 앱을 설치하지 않아도 자연스럽게 접하는 구조가 만들어졌습니다. Gmail, Docs, Drive, YouTube와 이미 연결되어 있다는 점도 새로운 사용자를 끌어들이는 데 유리하게 작용합니다.

물론 모든 분야에서 선두는 아닙니다. 코딩 작업에서는 Claude가, 범용적인 대화 능력에서는 ChatGPT가 여전히 강세를 보이는 영역이 있습니다. 그러나 멀티모달 처리와 Google 생태계 연동이라는 고유한 강점을 바탕으로, Gemini는 후발주자라는 꼬리표를 빠르게 떼어내고 있습니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!

다양한 형식의 정보를 이해하는 멀티모달 AI​

Gemini의 발전 과정​

Gemini가 특히 강한 상황​

사진·영상으로 질문하기​

Google 서비스 안에서 바로 쓰기​

실시간 정보가 필요한 질문​

Gemini와 함께 쓸 수 있는 도구들​

NotebookLM: 연구, 학습 목적에 특화된 AI 노트​

Gemini Code Assist: 코드 작업을 돕는 도구​

후발주자였지만, 빠르게 따라잡은 AI​