본문 바로가기
NEWSLETTER/산업 LETTER

보고 듣고 말하는 멀티모달 AI 등장, AI 수준이 이정도까지 올라왔다

by 칲 조 2024. 2. 20.
728x90
반응형

AI타임스

 

과제 하거나 일할 때 챗GPT 사용하는 분들 있나요? 재작년에 생성형 AI(인공지능) GPT가 공개된 후, 인공지능이 일상에 성큼 들어왔는데요. 얼마 전 챗GPT를 만든 오픈AI가 새 모델 소라(Sora)’를 내놓자 사람들이 “AI 수준이 이 정도라고?” 하며 깜짝 놀란 적이 있습니다.


소라? 그게 뭔데...?

고화질 카메라로 직접 촬영한 것 같은 영상을 만들어주는 AI 모델입니다. 예전에도 영상을 만들어주는 AI는 있었지만, 소라는 훨씬 더 복잡한 영상을 진짜처럼 만들 수 있다는 점에서 달라요. 예를 들어 서울이 1살 때 영상 만들어줘하면 그 시대의 건물과 옷차림 등까지 반영해 영상을 만들 수 있다고. 심지어 영상 퀄리티도 할리우드 영화만큼 좋습니다. 전문가들은 앞으로 소라 같은 멀티모달 AI’ 시대가 쫙 열릴 거라고 말하고 있죠.

한겨레

😇 멀티모달 AI...? 그건 또 뭐야?

멀티는 여러 개, ‘모달리티(Modality)’는 양식·양상이라는 뜻인데요. 시각·청각 등 다양한 양식으로 된 정보를 받아들이고 학습하는 AI라는 뜻입니다. 예전의 AI와는 뭐가 다르냐면,

✍️ 글 밖의 세상은 몰랐는데

기존 AI는 텍스트를 통해서만 정보를 배우고 처리했습니다. 그러다 보니 단어를 아무리 많이 알아도 단어가 지칭하는 대상이 어떻게 생겼는지, 혹은 실제 세계에서 어떤 의미를 갖는지까지는 이해하지 못했어요.

 

👀 눈과 귀 달리며

AI가 텍스트만 아니라 소리나 이미지도 스스로 학습할 수 있게 되면 AI가 더 똑똑해져요. 사람처럼 이미지·음성·영상 정보를 스스로 해석하고 이해할 수 있는 것.

 

진화하는 AI

멀티모달 AI는 인간을 흉내 내는 AI(=좁은 인공지능·ANI)에서 인간처럼 스스로 생각하는 AI(=인공일반지능·AGI)로 진화하는 데 핵심적인 기술로 뽑힙니다.


... 엄청나네

워낙 핫한 만큼, 내로라하는 기업들이 경쟁 중이에요:

 

구글 제미나이 1.5’

지난주에 공개된 제미나이 1.5 프로는 많은 양의 영상과 음성, 텍스트를 이해하고 빠진 정보까지 추론해 채우는 능력을 갖췄어요. 1시간짜리 영화를 단숨에 분석할 정도입니다.

메타 '에뮤'

작년 11월에 나온 에뮤는 텍스트를 영상으로 바꿔주는 AI인데요. “여기는 이렇게 고쳐줘하고 텍스트로 입력하면 영상을 알아서 수정해 줘요.

네이버 옴니서치

작년에 네이버쇼핑에 적용된 멀티모달 AI예요. 스마트렌즈로 거리에서 본 신발을 사진 찍어서 올리면 똑같거나 비슷한 상품을 찾아줘요.

네이버

카카오 허니비

이미지와 글자가 섞인 콘텐츠를 이해하고 분석할 수 있어요. 예를 들어 이 사진에 있는 사람들이 무슨 대화 할 것 같아?”하고 물으면 추론해서 답해줍니다.

조선일보


앞으로 멀티모달 AI 경쟁은 점점 더 치열해질 텐데요. 딥페이크 등 AI 때문에 새로 생기는 다양한 위험을 규제할 법과 제도를 마련해야 한다는 목소리도 커질 수 있습니다.

728x90
반응형