사람의 두뇌 구조에 AI가 있고, 보고 듣고 말하는 아이콘이 함께 배치되어 있어요.

이제 AI는 보고 듣고 말할 수 있어요

by 커피팟

일상생활에서 AI는 어느덧 당연한 존재가 되어가고 있어요. 이번 글에서는 오픈AI와 메타, 그리고 구글이 실생활에서 보다 광범위하게 쓰일 ‘멀티 모달 AI’를 어떻게 발전시키고 있는지 살펴봤어요. 일부 사용자에게 유용한 기능들이 아니라, 누구나 쉽게 접근해 사용할 수 있는 기능들이 속속 나오고 있다는 점이 중요해요. 스마트폰과 스마트 글래스 등의 하드웨어와 본격적으로 결합하는 모습도 보이고 있고요. 머지않아 누구에게나 개인 비서 있는 시대가 열릴 것 같습니다.

사람이 사물을 받아들이는 방식으로 학습하는 AI

구글 바드(Bard)의 업데이트를 시작으로 빅테크끼리 AI를 둘러싼 비즈니스 경쟁이 벌어질 거란 예상을 전해드린 적이 있어요. 어느새 멀티 모달 LLM*의 시기가 왔거든요. * Multimodal Large Language Models(MLLMs). 텍스트뿐 아니라 이미지, 오디오, 영상 정보도 이해하는 대규모 언어 모델(LLM).

멀티 모달은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이에요. 어떤 현상이나 그것을 받아들이는 방식을 ‘모달리티(modality, 양식, 양상)’라고 하고, 다양한 채널의 모달리티를 동시에 받아들여 학습하고 사고하는 AI를 ‘멀티 모달 AI’라고 해요. 쉽게 말하면 사람이 사물을 받아들이는 방식으로 학습하는 AI라고도 할 수 있죠. 이제는 구글을 필두로 한 빅테크가 앞다투어 LLM의 다음 페이지인 멀티 모달로 넘어가고 있어요.

멀티 모달로 넘어간다는 말은, AI가 카메라를 통해 자신이 보고 있는 걸 이해할 수 있고, 스피커로 들어오는 음성도 이해함을 뜻해요. 소프트웨어에만 머물러 있던 AI가 하드웨어와 결합하면 실제 세계에서 더 폭넓은 소통을 하고 활동할 수 있어요. 동시에 빅테크끼리 개발 속도를 더 내면서, 더 광범위한 경쟁이 빠르게 진행 중임을 의미하기도 합니다.

이제 보고 듣고 말하는 챗GPT

오픈AI는 최근 챗GPT에 이미지 인식 기능과 텍스트를 직접 음성으로 구현하는 TTS(Text-To-Speech) 기능을 추가하며, “이제 챗GPT는 보고, 듣고, 말할 수 있다”라고 공지했습니다.

△ 사진을 올리고 질문을 하면 답변을 하면서 대화를 이어가죠. (이미지: 챗GPT)

위 이미지와 같이, 챗GPT에게 자전거 사진과 함께 안장 내리는 법을 물으면 챗GPT가 이를 인식하고 답변해 줍니다. 대화를 계속해 이어갈 수도 있는데요. “너에게 도구가 있다면 나에게 보여줘. 내가 더 (자세히) 알려줄게”라고 이야기하는 모습을 볼 수 있어요.

사람이 이해가 안 가는 부분을 다시 사진을 찍어 보내는 모습도 보입니다. “이 레버 말이야?”라고 마치 우리가 인간 전문가에게 사진을 보내주며 물어보는 것과 동일하죠.

다양하고 흥미로운 사례들이 쌓이고 있어요. 간단하게는 문제집을 찍어 올리며 답을 알려달라고 한다거나, 집 사진을 올리고 인테리어 제안을 해달라고 하고, 심지어 엑스레이 사진을 올리며 증상을 물어보기도 해요.

이에 챗GPT는 대부분의 상황에서 꽤나 훌륭한 답변을 해주고 있는 걸로 보여요. 어떤 해결책이나 조언보다도 편리하게 받아볼 수 있고, 유효하다고 할 수 있을 정도예요. 물론, 오픈AI는 의학 및 약학과 같은 분야에 대해서는 챗GPT를 무조건 신뢰하지는 말라고 강력히 권고하고 있어요.

△ 사진만 보고 수학 문제도 풀어주고, 인테리어 조언도 바로 해주죠. (이미지: 챗GPT)

응용 사례도 점점 진화하는 중

이미지 생성 AI인 달리(Dall-E)도 버전 2에서 버전 3로 업그레이드됐어요. 달리 역시 오픈AI의 프로그램이에요. 새 버전은 별개의 웹사이트가 아닌 챗GPT에 연동되며, 대화 중 이미지를 바로 생성해 줄 수 있도록 개선되었어요.

이제 사람들은 GPT-4에게 이미지를 보여줘 프롬프트(prompt)를 만들어 달라고 하고, 달리에 그 프롬프트를 적용해 바로 비슷한 느낌의 이미지를 생성하는 사용 사례도 보여주고 있어요.

이미지를 인식하고 생성하는 것과 더불어 챗GPT의 답변을 음성으로 전달해 주는 TTS 기능도 주목할 만해요. TTS 기능 자체가 새로운 건 아니에요. 원래도 사용자의 음성을 텍스트로 입력할 수는 있었지만, 챗GPT의 답변을 음성으로 변환해 주진 못했습니다. 이번 업데이트를 통해, 챗GPT와 정말로 음성 대화를 할 수 있게 된 것이죠.

사용자들은 챗GPT를 영어 선생님처럼 대하거나, 통역사로 활용하기도 해요. 이제 챗GPT가 정말로 인간 개인 비서와 같은 역할을 수행하는 것도 무리는 아니겠죠.

△ 대화를 편하게 할 수 있고, 개인 영어 선생님 역할을 하라고 명령해 사용할 수도 있어요.

메타도 시리(Siri) 같은 AI 장착

메타는 메타 커넥트 2023 행사를 통해 VR/AR 기기인 퀘스트 3, 레이벤 스마트 글래스와 각종 AI 기술들을 선보였습니다. 이렇게 소개한 하드웨어와 AI가 결합되는 지점이 흥미로웠는데요.

새로 업그레이드된 레이벤 스마트 글래스에는 ‘메타 AI’라고 불리는 AI가 기본 탑재되어 있어요. 마치 애플의 시리(Siri)처럼요. 사용자는 메타 AI를 음성으로 호출하여 대화할 수 있고, 현재 스마트 글래스의 카메라가 향해 있는 사물 및 풍경에 대한 대화를 주고받을 수도 있습니다. 메타 역시 이미지와 음성을 이해하고, 대화하는 멀티 모달 AI를 선보였어요.

오픈AI가 달리를 공개한 것과 유사한 행보로, 이번 행사에서 메타는 이미지 생성 모델인 ‘에뮤(Emu)’를 새로 공개했어요. 이를 통해 채팅에서 스티커를 바로 생성하거나, 메타 AI와 채팅하며 이미지를 만들어 달라고 요청하는 등 챗GPT가 할 수 있는 대부분의 일을 동일하게 할 수 있는 메타의 AI 라인업이 갖추어졌어요.

하드웨어와 소프트웨어의 경쟁력을 함께 끌어올리면서 이제 메타도 AI 경쟁에서 결코 뒤처지지 않는 모습을 보여주는 중입니다.

△ 메타의 레이벤 스마트 글래스에도 이미지를 보고 무엇인지 알려주고, 번역도 해주는 AI가 탑재되었어요. (이미지: 메타 커넥트 2023)

스팸 전화도 대신 받아주는 구글

앞서 설명했듯, 멀티 모달 AI로 업데이트한 모습을 가장 먼저 선보인 건 구글의 바드예요. 이번에 새로운 스마트폰 픽셀 8을 공개하는 이벤트에서 구글은 픽셀 폰이라는 하드웨어와 각종 AI 기능이 결합되는 모습을 공개했어요. 기존의 구글 어시스턴트에 AI 모델 바드를 장착해, (역시나) 보고 듣고 말할 수 있게 되었다고 강조했죠.

△ 구글은 이미지 인식에 구글 어시스턴트가 이제 스팸 전화도 대신 받아줍니다. (이미지: 구글)

이번 업데이트에는 사진을 찍어 하이킹 코스를 추천받는다거나, 원치 않는 스팸 전화를 구글 어시스턴트가 대신 받아주는 기능까지 포함되어 있습니다.

또한 구글은 자신들이 가진 이점인 구글 맵, 구글 닥스(Docs) 등의 생산성 도구와의 결합도 강조했어요. 구글 어시스턴트에게 요청한 내용을 바로 구글 닥스로 내보낼 수 있다던가, 특정한 장소로 이동하는 방법을 구글 맵으로 얻어내는 등 구글 어시스턴트가 구글 생태계 내 앱을 적극적으로 이용하는 모습을 보여줬어요.

텍스트를 넘어선 지 오래인 AI

AI는 1년 만에 텍스트 소통만 가능하던 모델에서 이미지, 사운드, 비디오까지 인식할 수 있는 진정한 멀티 모달 AI로 진화하고 있어요. 동시에 스마트폰, 스마트 글래스, 무선 이어폰 등 생활 밀착형 하드웨어 속에도 AI가 속속 적용되고 있죠.

스파이크 존즈 감독의 2013년 SF 멜로 영화 <그녀 Her>처럼 가까운 미래에 우리는 언제 어디서든 원하는 AI를 불러 대화할 수 있는 시대로 진입할 거예요. 이미 많은 변화가 일어난 분야이지만, 콜센터에서 전화를 받는 상담원은 점점 더 AI가 빠르게 대체할 가능성이 높아졌고요. 관광을 하다 모르는 건축물, 유적에 대해 사진을 찍어 바로 AI에게 묻고 답하는 것이 자연스럽게 느껴질 수도 있어요.

△ 2025년 미래의 로스앤젤레스에서 인격형 인공지능 서비스 ‘사만다’와 사랑에 빠진 남자의 이야기를 그렸다. / Photo by Courtesy of Warner Bros. Picture - © 2013 - Untitled Rick Howard Company LLC

이렇게 일상생활 곳곳에 AI가 스며들기 시작하면, 어느새 사람들은 AI가 없던 시대로 돌아가는 걸 상상하기 어려워질 거예요. 지난 1년 사이 워낙 많은 일이 일어나고 있어 변화를 시시각각 체감하지 못할 수 있지만, AI 경쟁은 어느덧 우리 삶에서 AI를 당연한 기능과 존재로 만들고 있습니다.

Writer 준 글로벌 IT 기업에서 일하고 있다. 스타트업, 웹3, AI 등 새로운 기술이 세상을 바꾸는 모습에 관심을 두고 있으며, 관련 소식을 커피팟을 통해 전하고 있다.


Edit 손현 Graphic 이은호, 함영범

본 글은 2023년 10월 10일에 발행된 커피팟 뉴스레터에 기반해 2023년 10월 11일(수) 기준으로 재편집되었습니다.

커피팟 에디터 이미지
커피팟

월스트리트부터 실리콘밸리, 그리고 전 세계 주요 경제 이슈까지. 실질적인 공부와 도움이 되는 이야기를 전하는 해외 비즈니스 뉴스 구독 서비스.

필진 글 더보기
0
0

추천 콘텐츠

연관 콘텐츠