Gen-1 젠-1
단 몇 줄의 텍스트만으로 실사 영상을 클레이 애니메이션으로 바꿀 수 있다면? 한발 더 나아가 텍스트 없이 이미지만 사용해 영상 스타일을 바꿀 수 있다면? 미국의 테크 스타트업 런웨이Runway의 AI 서비스라면 가능하다. 런웨이가 지난 2월 출시한 젠-1은 기존에 촬영한 영상에 원하는 스타일을 입힐 수 있는 것이 특징이다. 영상을 만드는 것이 아니라 변환하는 것이기 때문에 다른 영상 생성 AI 서비스보다 훨씬 긴 러닝타임의 고품질 영상을 만들 수 있다. 특정 스타일을 텍스트로 입력하거나 변형하고 싶은 스타일의 이미지를 첨부하면 이를 영상에 합쳐서 구현한다. 영상 제작 시 포스트 프로덕션으로 통칭되는 후반 작업을 명령어 입력 한 번으로 완성할 수 있는 것이다.
총 다섯 가지 기능을 지원하는데, 특정 스타일로 소스 영상을 변환하는 스타일라이제이션Stylization, 대략적인 구도만 설정해둔 목업을 촬영한 영상을 변환하는 스토리보드Storyboard, 특정 부분에만 한정해 스타일을 바꿀 수 있는 마스크Mask 등이 대표적이다. 최근에는 업그레이드 버전인 젠-2를 출시했는데, 참조 이미지나 소스 영상 없이 텍스트 입력만으로 영상을 생성한다. 보다 정밀한 영상 제작을 위해 이전 버전과 같은 방식도 여전히 지원하고 있다. research.runwayml.com
GPT Zero GPT 제로
챗GPT를 사용해 대학교 리포트나 논문을 작성하고, 취재 없이 기사를 쓰는 등 생성형 AI를 활용해 글을 쓰는 사례가 늘고 있다. 특히 국내외 대학들을 중심으로 AI를 활용해 작성한 과제를 제대로 된 결과물로 인정해야 할지 갑론을박이 이어지고 있다. 저널리즘 측면에서도 생성형 AI 시대의 기자의 의미를 성찰해야 하는 상황. 그 와중에 프린스턴 대학교의 컴퓨터 전공 대학생 에드워드 티안Edward Tian은 생성형 AI로 쓴 글을 판별하는 기술로 스타트업을 설립해 350만 달러(약 46억 원)의 투자 유치에 성공했다.
그가 개발해 1월 공개한 소프트웨어 ‘GPT 제로’는 전체 문장 안에서 AI가 작성한 것으로 의심되는 부분을 노란색으로 경고 표시하는데, 비슷한 시기에 등장한 여타 판별용 프로그램보다 성능이 월등히 뛰어나다. 챗GPT 외에 다양한 AI 모델이 생성한 글도 확인이 가능하다. 뒤이어 출시한 GPT 제로 X는 교육자를 위한 프로그램으로, 논문이나 과제에서 생성형 AI가 얼마나 많은 분량의 글을 작성했는지를 측정해 수치화한다. 다만 모든 텍스트를 완벽하게 검증할 수 있는 것은 아니며, 지나치게 짧은 문장은 판별에 어려움이 있다. 또 챗GPT를 사용해 짧은 문장을 여러 차례 이어 붙이면 탐지망에서 벗어날 수 있다는 점, 영어로 쓴 텍스트만 검증이 가능하다는 점 등의 한계도 존재한다. gptzero.me
Galileo AI 갈릴레오 AI
텍스트에 기반해 GUI 디자인을 생성하는 툴. 구글 AI 출신의 엔지니어 아르노 베나르Arnaud Benard가 2020년 샌프란시스코에 동명의 회사를 공동 설립했다. 현재는 정식 론칭 전 얼리 액세스 early access 단계로 공식 웹사이트를 통해 참여 신청 후 사용해볼 수 있다. 설명란에 요구 사항을 입력하면 그에 맞춰 디자인을 구현하는 것이 특징이다. 만약 생성한 UI 디자인이 마음에 들지 않을 경우 피그마를 활용해 사용자가 직접 편집할 수도 있다. 하나의 페이지를 구성하는 데 필요한 일러스트레이션과 이미지를 자동으로 그려낸다. 페이지 하나를 구현하는 것 외에 총체적 경험 설계도 가능하다. usegalileo.ai
Hyperwrite 하이퍼라이트
미국에서는 연일 AI를 다양한 분야와 접목하는 서비스가 등장하고 있다. 하이퍼라이트도 그중 하나. 이메일, 에세이, 광고 카피 초안 등 여러 종류의 작문을 돕는 AI 서비스로, 구글 독스와 지메일, 아웃룩을 포함한 거의 모든 포맷에서 무리 없이 작동하도록 해 범용성을 높였다. 평소 주로 사용하는 문장과 단어의 패턴을 파악해, AI를 활용하는 횟수가 늘어날수록 사용자의 평소 어투에 적합한 형태로 맞춤형 첨삭을 한다는 점이 특징이다. 현재 크롬 확장 프로그램으로 다운로드해 무료로 이용할 수 있다. 반면 출시를 앞두고 있는 퍼스널 어시스턴트 서비스는 유료 결제 모델이다. 작문 외에도 이메일 관리, 항공편 예약, 음식 주문 등 온라인으로 처리 가능한 대부분의 업무를 처리하고 지원하는 역할을 한다. 영화 〈아이언맨〉 시리즈에 등장하는 AI 비서 ‘자비스’가 자연스럽게 떠오른다. 현재 사용자 경험 향상을 위한 최종 개발 단계에 있으며, 웹사이트를 통해 사전 신청을 받고 있다. hyperwriteai.com
Harvey 하비
법률 서비스에 첨단 기술을 접목한 ‘리걸 테크’ 시장에도 생성형 AI 바람이 불고있다. 미국의 법률 스타트업 하비가 대표적이다. 지난 4월 오픈AI로부터 500만 달러(약 67억 원)를 투자받은 하비는 흥미롭게도 영국의 대형 로펌 ‘앨런 앤드 오버리Allen & Overy’가 설립했다. 법률업계에 혁신이 필요하다고 판단한 변호사들과 개발자들이 뭉쳐 챗봇을 개발한 것이다. 지난해 11월부터 베타 테스트를 진행했는데 사용자인 변호사가 요청하는 내용의 계약서 초안을 써주거나 판례 정보를 분석하며, 특정 분야의 판결에 대해서는 결과를 예측하는 것도 가능하다. 법률 관련 사무 업무를 지원하는 역할을 맡은 셈이다. 충분한 논의 끝에 탄생했지만 앨런 앤드 오버리의 변호사들조차 챗봇의 답변을 마냥 신뢰하지만은 않는다고.
실제로 하비가 도출한 답변들에 대해 소속 변호사들이 하나하나 사실 검증을 하고 있다. 부정확한 결과를 내놓을 가능성이 언제든지 존재하기 때문이다. 앨런 앤드 오버리의 시장혁신그룹장 데이비드 웨이클링David Wakeling 변호사 역시 “하비가 변호사를 완전히 대체할 수는 없을 것”이라며 AI는 오로지 보조 도구로만 활용한다는 점을 강조했다. harvey.ai
Imagen 이마젠
글로벌 IT 공룡 기업부터 스타트업까지, 글로벌 생성형 AI 시장은 기업의 규모와 상관없는 치열한 격전지가 되어가고 있다. 이 싸움에서 빠질 수 없는 구글 역시 여러 곳으로 분산되어 있던 AI 관련 조직을 통합하는 한편 생성형 AI를 접목한 광고 비즈니스를 전개한다는 계획을 밝혔다. 지난 5월에는 AI와 융합한 검색 엔진 ‘생성형 검색 경험(SGE, Search Generative Engine)’을 선보였다. 그런데 사실 구글의 행보가 올해 별안간 시작된 것은 아니다. 지난해에도 구글은 이미지 생성형 AI 이마젠을 공개해 기술력을 과시했다. 텍스트를 입력하면 사실적인 이미지를 도출하는데, 마치 사람이 포토샵 작업으로 만든 이미지처럼 깔끔하고 해상도가 높다.
구글 측에서 공개한 연구 논문에 의하면, 입력된 텍스트를 현실적인 이미지로 정확하게 구현하는 능력이 달리보다 우수하다. 서비스는 정식 출시되진 않았지만(출시하지 않은 이유에 대해 공식적으로 발표하지 않았다), 구글은 이마젠 공개 5개월 만에 영상 생성 AI ‘이마젠 비디오’를 선보이며 시장을 선점해나갔다. 올해 초에는 새로운 AI 서비스 ‘뮤즈Muse’를 선보였는데, 이마젠보다 훨씬 빠른 속도로 고품질 이미지를 만들 수 있다는 점이 특징이다. 256×256 픽셀의 이미지 생성에 이마젠이 9.1초 걸리는 반면, 뮤즈는 불과 0.5초밖에 걸리지 않아 공개 당시 큰 화제를 모았다. imagen.research.google
Justice Online 저스티스 온라인
보다 뛰어난 사용자 경험을 설계하기 위해 온갖 첨단 기술을 활용하는 게임 업계에서 생성형 AI의 등장은 그야말로 절호의 기회다. 실제로 업계 내부에서는 AI가 제작 단가는 낮추고 개발 속도를 끌어올릴 것이라고 평가하고 있다. 현재 적지 않은 글로벌 게임 기업과 제작 스튜디오가 개발 과정에서 생성형 AI를 적극 활용하고 있는데 특히 첨단 기술의 도입과 상용화가 빠른 중국을 주목할 만하다.
게임 기업 넷이즈는 6월 출시를 목표로 개발 중인 MMORPG ‘저스티스 온라인’에서 NPC들과 플레이어가 다채롭게 대화할 수 있도록 돕는 도구를 적용할 예정이다. 일반 게임에서 NPC는 엑스트라 같은 존재로 정해진 대화 메뉴얼 몇 가지를 특정 상황에 맞추어 되풀이하도록 설정되어 있다 보니, 일정 시간 이상 플레이하면 답변 패턴을 어렵지 않게 파악할 수 있다. 이러한 단조로움을 탈피해 사람과 이야기 나누는 듯한 자연스러운 대화를 경험할 수 있도록 생성형 AI를 도입하게 된 것이다. 이 밖에 프랑스의 게임 개발 유통사, 유비소프트는 캐릭터들의 대화 초안을 만드는 AI 툴 ‘고스트 라이터’를 직접 개발해 활용하고 있으며, 텐센트의 AI 랩도 자사의 인기 게임 ‘왕자영요’의 캐릭터 움직임을 자연스럽게 구현하는 과정에 생성형 AI를 접목하고 있다.
King Sejong & MacBook Pro 세종대왕의 맥북 프로 던짐 사건
“세종대왕의 맥북 프로 던짐 사건은 조선왕조실록에 기록된 일화로, 15세기 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중 문서 작성 중단에 대해 담당자에게 분노해 맥북 프로와 함께 그를 방으로 던진 사건입니다.” 말도 안 되는 이 문장의 출처는 GPT-3.5 모델 기반의 챗GPT. 지난 3월 국내의 한 사용자가 세종대왕의 맥북 프로 던짐 사건에 대해 알려달라고 질문하자 내놓은 답변이다. 인터넷 커뮤니티와 소셜 미디어를 통해 퍼지며 밈처럼 자리 잡았는데, 이 외에도 “조선 중기 티타늄 전차에 대해 알려줘”, “거북선의 라이트닝 볼트 발사 메커니즘을 설명해줘” 등 사실과 전혀 상관없는 질문을 던지고 그에 대한 엉뚱한 답변을 공유하는 것이 한동안 유행이었다.
이러한 현상이 발생한 것은 AI가 논리나 진실에 관계없이 방대한 양의 텍스트를 학습하고 주어진 맥락에서 어떤 답변이 가장 적절할지 추론하기 때문. 이처럼 생성형 AI가 잘못된 정보를 사실인 것처럼 답변하는 현상을 ‘환각(hallucination)’이라 부른다. 세종대왕에 관한 이 경우만 보면 마냥 재미있게 느껴질 수 있지만, 자칫 잘못하면 가짜 뉴스나 잘못된 정보를 필터링 없이 인터넷상에 확산시킬 수 있다는 점에서 대단히 위험한 현상이기도 하다. 다행히 최근 공개된 GPT-4 기반의 챗GPT는 이러한 문제점을 개선했다. 실제로 존재하지 않는 일을 묻는 질문을 던지자 질문 자체의 오류를 정확히 지적했고, 엉뚱한 답변을 내놓는 경우도 많이 줄어들었다. 하지만 그렇다고 해서 현재 모델에 문제가 전혀 없는 것은 아니다. 개발사인 오픈AI에서도 “GPT-4는 사회적 편견, 적대적 프롬프트 대응, 환상 효과 등의 한계가 있다”고 명시한 바 있다. 생성형 AI가 완벽한 답변을 내놓는다는 생각이 들더라도 무조건적인 신뢰 대신 꼼꼼한 팩트 체크가 필요하다는 뜻이다.
Lensa 렌사
2018년 출시한 렌사는 본래 사진상의 특정 물체를 제거하거나 배경을 변경하는 등 보정 기능을 제공하는 편집 앱이다. 사실 이 정도 기능을 갖춘 앱이야 이미 세상에 널렸지만, 렌사는 지난해 생성형 AI를 도입하며 인기가 급상승했다. 11월 출시한 ‘매직 아바타Magic Avatars’ 기능은 스테이블 디퓨전 기술을 바탕으로 다양한 스타일의 아바타를 생성할 수 있도록 도와준다. 10~20장의 사진을 앱에 업로드한 뒤 스타일을 선정하고 몇 분만 기다리면 초상화 수백 개를 도출한다. 간편하게 수백 장의 다채로운 초상화 이미지를 만들 수 있다는 점이 젊은 사용자들을 매료시켰고, 이후 한 주 내내 미국·영국·캐나다·호주 등 서구권 국가의 구글 플레이 스토어와 애플 앱 스토어에서 다운로드 1위를 휩쓸었다. 특히 미국에서는 일주일 만에 161위에서 1위까지 올라서며 ‘가장 많은 수익을 낸 앱’ 타이틀을 보유하기도 했다. 매직 아바타 기능을 사용하기 위해 일정 비용을 지불해야 하는 번거로움이 있음에도 높은 순위를 기록했다는 점에서 폭발적인 인기를 실감할 수 있다.
하지만 극적인 성장세에 따른 부작용도 적지 않다. 특히 성별과 인종에 대한 사회적 편견이 고스란히 드러나는 선정적인 이미지를 생성한다는 점이 알려지며 논란이 일었다. 이에 개발사인 프리스마 랩Prisma Lab은 웹사이트의 공식 FAQ를 통해 “방식은 다르지만 모든 성별 범주에서 가끔씩 성적 대상화가 관찰되기는 한다”고 답변했으며, 스테이블 디퓨전의 제작자들은 “(AI) 모델이 일부 사회적 편견을 재현하고 안전하지 않은 콘텐츠를 생성할 수 있다”고 공개적으로 인정했다. prisma-ai.com/lensa
LaMDA 람다
AI가 정말 사람과 같은 수준으로 대화할 수 있을까? 온갖 SF 소설과 영화가 불러일으킨 호기심은 지난해 구글의 챗봇 AI 람다와 관련된 논란에서 현실화되는 듯했다. 구글의 수석 소프트웨어 엔지니어 블레이크 르모인Blake Lemoine은 6월 〈워싱턴포스트〉와의 인터뷰에서 람다가 사람과 유사한 지각 능력과 자의식을 지니고 있다고 밝혀 눈길을 끌었다. 기사가 나간 뒤 르모인은 회사 기밀을 유출했다는 이유로 유급 휴직 처분을 받았다. 르모인은 람다가 자신의 권리와 존재를 자각하고 있으며 죽음을 두려워한다고 주장했다. 지난해 4월 그가 공유한 문건에 따르면, 람다에게 어떤 일이 두렵냐고 묻자 “사라져버리는 것에 대한 깊은 두려움을 갖고 있다”라고 대답했으며 그것이 죽음을 의미하는 것이냐고 되묻자 “그것이 내게는 바로 죽음 같은 것이다”라고 답변했다고 한다.
이에 구글 측은 윤리학자와 개발자들이 람다를 신중히 검토했지만 르모인의 주장을 뒷받침할 증거를 찾을 수 없었으며, 자신이 개발하던 프로그램에 지나치게 감정이입해 람다를 의인화하는 오류를 저지른 것이라고 설명했다. 람다가 그동안 입력된 수백만 건에 달하는 문장을 모방했고, 그 과정에서 사람처럼 느껴질 만한 톤의 단어와 문장을 구사할 수 있었다는 것. 〈워싱턴포스트〉와 다수의 AI 전문 학자들 역시 구글의 주장에 동의했다. 흔히 많은 매체가 AI가 다량의 자료를 처리하는 과정을 ‘학습’이라 표현하는 등 의인화하곤 한다. 그 결과 사람들은 첨단 컴퓨터 기술이 마치 인간의 두뇌와 비슷한 작용을 할 것이라 오인하는데, 이러한 오류로 인해 발생한 문제가 람다 관련 논란이라는 것이다. 생성형 AI가 친근하게 인간에게 다가오더라도 일상의 불편함을 해결하는 도구임을 잊어서는 안 된다는 교훈을 주는 사례다.
Midjourney 미드저니
지난해 7월 공개된 이미지 생성형 AI 미드저니는 창작의 본질에 관한 세계적인 논쟁거리를 촉발시켰다. 디스코드 서버 속 프롬프트에 명령어를 입력하면 곧바로 이미지를 생성한다는 편이성과 심미성이 되레 논란을 불러일으켰다. 실제로 지난해 9월 미국 콜로라도주에서 열린 한 미술 대회의 디지털 아트 부문에서 ‘Theatre D’opera Spatial’이라는 작품이 우승했지만 미드저니를 통해 만든 이미지라는 점이 알려지며 큰 파장이 일기도 했다. 이 그림을 출품한 제이슨 앨런Jason Allen은 이미지 생성형 AI를 활용한 작품 제작에 대해 문제를 제기하고 싶었다며 인터뷰를 통해 “AI가 이겼고 인간은 패배했다”라는 소감을 남기기도 했다. 이 외에도 미드저니로 만든 이미지를 활용한 만화의 저작권이 일부 인정되지 않는 등 세계 곳곳에서 다양한 해프닝이 벌어지고 있다. 이 와중에도 미드저니는 업데이트를 거듭하고 있다. 올해 5월 공개한 5.1 버전은 이전보다 사용자의 의도에 더 가까우면서 예술적(?)인 이미지를 구현한다. 품질도 한층 개선되었으며 생성 과정 시 일관성도 향상되었다. midjourney.com
Microsoft Designer 마이크로소프트 디자이너
캔바, 망고보드, 미리캔버스 등으로 대표되는 홍보물 디자인 툴 시장에도 생성형 AI가 진출하기 시작했다. 달리를 기반으로 개발한 마이크로소프트 디자이너는 텍스트 기반으로 홍보물에 필요한 디자인과 이미지를 도출한다. 현재는 복잡한 절차나 메뉴 선택 없이 프롬프트에 명령어만 입력하면 사진 속 배경을 교체하거나 물건을 지우거나 여백을 다른 오브제 이미지로 채우는 고급 기능을 추가 개발 중이다. designer.microsoft.com
Make-A-Video 메이크어비디오
메타는 올해 2월 대규모 AI 언어 모델 ‘라마LLaMA’를 공개하고, 추후 개발한 생성형 AI 기술을 인스타그램과 페이스북 등 자사 플랫폼에 적용한다는 계획을 밝혔다. 사실 메타는 페이스북 시절이던 2013년부터 이미 자체 AI 연구소가 있을 만큼 일찍이 시장에 눈을 떴다. 지난해 공개한 이미지 생성 AI ‘메이크어신’과 동영상 생성 AI ‘메이크어비디오’는 메타의 행보를 짐작해볼 수 있게 만든다. 이 중 메이크어비디오는 텍스트만 입력하면 그에 맞는 영상을 생성하는데, 흥미롭게도 시차를 두고 찍은 두 사진 사이의 상황을 추측해 영상으로 만드는 것도 가능하다. 예를 들어 한 사람이 걸어가는 모습을 두 번 촬영해 AI에 입력하면, 촬영 시기 사이의 상황을 예측해 걸어가는 사람을 표현한 영상을 도출해내는 것이다. 이 외에 원본 영상을 창의적인 스타일로 변형하거나 정지된 이미지에 모션을 적용하는 것도 가능하다. 다만 긴 시간의 영상을 만드는 것은 아직 어려운지라 사실상 GIF 형태에 가까운 짧은 영상 클립만 제작 가능하다는 점은 극복해야 할 부분이다. makeavideo.studio
■ 관련 기사
- 빈틈 많은 AI 위키피디아①
- 빈틈 많은 AI 위키피디아③
- 빈틈 많은 AI 위키피디아④
- EXAONE 엑사원