AWS, 차세대 파운데이션 모델 ‘아마존 노바’ 공개
아마존웹서비스(AWS)는 광범위한 작업에서 최첨단 인텔리전스와 가격 대비 성능을 제공하는 차세대 파운데이션 모델(FM)인 ‘아마존 노바(Amazon Nova)’를 발표했다.
아마존 노바 모델은 아마존 베드록(Amazon Bedrock)에서 사용 가능하며, 빠른 텍스트-텍스트 변환 모델인 아마존 노바 마이크로(Amazon Nova Micro)를 비롯해 아마존 노바 라이트(Amazon Nova Lite), 아마존 노바 프로(Amazon Nova Pro) 그리고 텍스트, 이미지, 비디오를 처리하여 텍스트를 생성하는 멀티모달 모델인 아마존 노바 프리미어(Amazon Nova Premier) 등을 포함한다. 아마존은 또한 두 가지 추가 모델로 스튜디오급 이미지 생성을 위한 아마존 노바 캔버스(Amazon Nova Canvas) 및 스튜디오급 비디오 생성을 위한 아마존 노바 릴(Amazon Nova Reel)을 출시했다.
아마존 노바 마이크로는 낮은 비용으로 빠른 지연 시간의 응답을 제공하는 텍스트 전용 모델이다. 아마존 노바 라이트는 이미지, 비디오, 텍스트 입력 처리가 빠른 저비용 멀티모달 모델이고, 아마존 노바 프로는 광범위한 작업에 대해 정확성, 속도, 비용의 최적의 조합을 제공하는 고성능 멀티모달 모델이다. 그리고 아마존 노바 프리미어는 복잡한 추론 작업과 맞춤형 모델 학습을 위한 최고의 교사 모델로 사용되는 아마존의 가장 강력한 멀티모달 모델이다. 아마존 노바 마이크로, 아마존 노바 라이트, 아마존 노바 프로는 현재 정식 사용 가능하며, 아마존 노바 프리미어는 2025년 1분기에 출시될 예정이다.
AWS는 “다양한 업계 표준 벤치마크로 테스트한 결과 아마존 노바 마이크로, 아마존 노바 라이트, 아마존 노바 프로가 각각의 카테고리에서 메타의 라마 3.1, 구글의 제미나이 1.5, 오픈AI의 GPT-4o, 앤스로픽의 클로드 3.5 등 업계 주요 모델과 비교할 때 경쟁력 있는 성능을 보여주었다”고 소개했다.
아마존 노바 마이크로, 라이트, 프로는 200개 이상의 언어를 지원한다. 아마존 노바 마이크로는 128K 입력 토큰의 컨텍스트 길이를 지원하며, 아마존 노바 라이트와 아마존 노바 프로는 300K 토큰 또는 30분의 비디오 처리를 지원하는 컨텍스트 길이를 제공한다. 2025년 초에는 2M 이상의 입력 토큰 컨텍스트 길이를 지원할 예정이다.
AWS는 모든 아마존 노바 모델이 빠르고 비용 효율적이며 고객의 시스템 및 데이터와 쉽게 사용할 수 있도록 설계됐다고 설명했다. 모든 아마존 노바 모델은 주요 AI 기업과 아마존의 고성능 파운데이션 모델을 단일 API를 통해 사용할 수 있게 해주는 완전 관리형 서비스인 아마존 베드록과 통합돼 있다. 고객들은 아마존 베드록을 사용하여 아마존 노바 모델과 다른 파운데이션 모델을 쉽게 실험하고 평가하여 애플리케이션에 가장 적합한 모델을 결정할 수 있다. 또한 이 모델들은 맞춤형 미세조정(fine-tuning)을 지원하여, 고객들이 정확도를 높이기 위해 레이블이 지정된 자체 데이터의 예시들을 모델에 지정할 수 있다. 아마존 노바 모델은 고객의 자체 데이터(텍스트, 이미지, 비디오 포함)에서 가장 중요한 것을 학습하고, 그 후 아마존 베드록이 맞춤형 응답을 제공할 수 있는 개인 미세조정 모델을 훈련시킨다.
이미지 생성 모델인 아마존 노바 캔버스는 텍스트나 이미지 프롬프트로부터 전문가급 이미지를 생성한다. 또한 텍스트 입력을 사용한 이미지 편집 기능과 색상 구성 및 레이아웃 조정을 위한 제어 기능을 제공한다. 그리고 이미지의 출처를 추적할 수 있게 하는 워터마크와 잠재적으로 유해한 콘텐츠의 생성을 제한하는 콘텐츠 관리 등 제어 기능을 내장했다.
아마존 노바 릴은 고객이 텍스트와 이미지로부터 쉽게 고품질 비디오를 생성할 수 있게 해주는 비디오 생성 모델이다. 고객은 자연어 프롬프트를 사용하여 카메라 모션, 회전, 확대/축소 등 시각적 스타일과 속도를 제어할 수 있다. 아마존 노바 릴은 현재 6초 길이의 비디오를 생성하며, 향후 몇 개월 내에 최대 2분 길이의 비디오 생성을 지원할 예정이다.
아마존은 2025년 1분기에 아마존 노바 스피치 투 스피치(speech-to-speech) 모델을 출시할 예정이다. 이 모델은 자연어의 스트리밍 음성 입력을 이해하고, 언어적 신호와 톤이나 박자 같은 비언어적 신호를 해석하며, 낮은 지연 시간으로 자연스러운 인간다운 쌍방향 상호작용을 제공함으로써 대화형 AI 애플리케이션을 변화시키도록 설계됐다.
또한 아마존은 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 이러한 모든 형태로 출력을 생성할 수 있는 혁신적인 모델을 개발하고 있다고 전했다. 이 모델은 2025년 중반에 출시될 예정으로, 콘텐츠를 편집/다른 형태로 변환하거나 모든 형태를 이해하고 생성할 수 있는 AI 에이전트를 구동하는 등 다양한 작업을 수행하는 데 동일한 모델을 사용할 수 있는 애플리케이션 개발을 단순화할 것으로 보인다.
아마존의 로힛 프라사드(Rohit Prasad) 인공 일반 지능(AGI) 수석부사장은 “아마존 내부적으로 약 1000개의 생성형 AI 애플리케이션이 진행 중이며, 애플리케이션 개발자가 여전히 고민하고 있는 문제를 전반적으로 파악하고 있다”면서, “새로운 아마존 노바 모델은 내부 및 외부 개발자들의 이러한 과제 해결을 돕고 지연 시간, 비용 효율성, 맞춤화, 검색 증강 생성(RAG), 에이전트 기능에서 의미 있는 진전을 이루면서 강력한 인텔리전스와 콘텐츠 생성을 제공하고자 한다”고 말했다.
작성일 : 2024-12-05