[케이스 스터디] 유니티 뮤즈의 텍스처/스프라이트 생성 및 파운데이션 모델

책임감 있는 AI 활용 및 향상된 모델 훈련

이번 호에서는 AI를 활용해 실시간 3D 콘텐츠를 제작하는 툴인 유니티 뮤즈(Unity Muse)에서 결과를 생성하는 방법을 설명하고, 유니티의 모델 훈련 방법론 및 새로운 파운데이션 모델 두 가지를 소개한다. ■ 자료 제공 : 유니티 코리아

유니티 뮤즈는 AI 기능을 바탕으로 사용자의 탐색, 아이디어 구상 및 반복 작업을 지원한다. 이러한 기능 중 텍스처(Texture) 및 스프라이트(Sprite)는 자연어와 시각적 입력을 애셋으로 변환한다.

뮤즈를 통해 유니티 에디터에 AI를 도입하면 아이디어를 가시적인 콘텐츠로 빠르게 구현할 수 있으므로, 비전을 더 손쉽게 실현할 수 있다. 프로젝트에 사용 가능한 실제 결과물로 변환할 수 있는 텍스트 프롬프트와 패턴, 색, 스케치를 이용하여 조정 및 반복 작업도 가능하다.

유니티는 뮤즈를 통한 스프라이트 및 텍스트 생성의 기반이 되는 AI 모델에 대한 훈련 기법을 혁신하는데 노력을 들였다. 이를 통해 안전하고 책임감 있으며 다른 크리에이터의 저작권을 존중하는 유용한 결과물을 제공하고자 한다.

AI 모델 훈련

유니티는 뮤즈의 텍스처 및 스프라이트 기능을 선보이면서, 유니티가 보유하거나 라이선스를 받은 독점 데이터를 기반으로 처음부터 훈련을 받은 두 가지 맞춤형 확산 모델도 개발하고 있다.

자체 콘텐츠 라이브러리 확장

데이터 증강은 유니티가 데이터 세트의 스케일과 다양성을 높이기 위해 사용하는 핵심 기술 중 하나로, 이 기술을 이용하여 유니티는 보유 중인 원본 데이터 샘플에서 많은 변형(variation)을 생성할 수 있다. 이러한 역량으로 훈련 세트를 더 풍부하게 만들 수 있으며, 모델이 한정된 샘플을 기반으로 일반화를 수행하는 기능을 향상할 수 있다. 아울러 지오메트리 변환, 색 공간 조정, 노이즈 삽입, 스테이블 디퓨전(Stable Diffusion) 같은 생성형 모델을 통한 샘플 배리에이션 등의 기법을 사용해 데이터 세트를 종합적으로 확장한다.

최근 스테이블 디퓨전과 관련하여, 본래 인터넷에서 수집된 데이터를 기반으로 훈련된 모델이라는 이유로 윤리적인 면에서 우려가 발생한 바 있다. 유니티는 뮤즈의 텍스처 및 스프라이트 기능을 제작하면서, 자체적으로 소유하고 책임감 있게 선별한 원본 데이터 세트를 기반으로 잠재적 확산 모델 아키텍처를 처음부터 훈련하는 방식을 통해 사전 훈련된 모델에 대한 의존도를 낮췄다.

데이터 증강 기법의 일부로 스테이블 디퓨전 모델의 사용을 최소로 제한해 안전하게 사용함으로써, 유니티가 보유한 원본 애셋 라이브러리를 강력하고 다양한 결과물의 저장소로 확장할 수 있었다. 이러한 결과물은 고유하고 독창적이며, 저작권을 가진 어떠한 아트 스타일도 포함하지 않는다. 유니티는 또한 추가로 완화 조치를 적용했으며, 뮤즈의 텍스처 및 스프라이트 기능에 사용되는 유니티의 잠재적 확산 모델을 위한 훈련 데이터 세트는 인터넷에서 수집된 어떤 데이터도 포함하지 않는다.

다음은 앞에서 설명한 증강 기법을 통해 확장되는 콘텐츠의 예시이다.

그림 1

<그림 1>은 원본 데이터 샘플(왼쪽 상단)과 복합적인 증강 기법으로 얻은 합성 배리에이션이다. 두 가지 모두 노이즈 기반(색 공간 조정, 위에서 아래로) 및 생성 기반(왼쪽에서 오른쪽으로)이다.

기존 데이터를 증강한 이후에도 여전히 다양한 소재에서 채워야 하는 부분이 있었다. 이 작업을 위해 행동에 의미 있는 변화가 나타날 때까지 자체 콘텐츠로 스테이블 디퓨전을 훈련시켰다. 또한 이러한 파생 모델을 사용하여 사전 필터링된 소재 목록으로 완전히 새로운 합성 데이터를 만들었다.(그림 2)

그림 2

실제 인력에 의한 검토와 LLM(대규모 언어 모델)을 사용하는 자동화된 추가 필터링을 이러한 소재 목록에 모두 적용함으로써, 유니티의 가이드 원칙을 위반하고 인식 가능한 아트 스타일, 저작권이 있는 머티리얼, 잠재적으로 유해한 콘텐츠가 전혀 포함되지 않은 데이터 세트를 만들겠다는 유니티의 목표에 맞지 않는 합성 이미지가 생성될 가능성을 차단했다.

그 결과 증강되고 완전한 대규모의 합성 이미지 데이터 세트 두 개가 만들어졌고, 여기에는 원치 않는 콘셉트가 포함되지 않았다는 확신이 있었다. 하지만 그러한 확신에도 불구하고, 유니티는 더 많은 필터링을 추가해 모델의 안전성을 보장하고자 했다.

안전하고 유용한 결과물을 위한 추가 데이터 필터링

가장 중요한 사항은 안전 및 개인정보와 부정적인 영향 없이 사용자를 지원하는 툴의 제공이었으므로, 유니티는 추가 데이터 세트 필터링을 위한 별도의 분류기 모델을 개발했다. 이 모델을 사용한 결과, 데이터 세트에 포함된 모든 콘텐츠가 유니티의 AI 원칙에 명시된 표준을 충족하고 추가적인 이미지 품질 검사를 통과할 수 있었다.

리뷰어 모델은 합성 이미지에서 다음 사항을 식별하는 역할을 함께 담당했다.

인식 가능한 사람의 특징이 포함되어 있지 않음
일반적이지 않은 어떤 아트 스타일도 포함되어 있지 않음
어떤 IP 캐릭터나 로고도 포함되어 있지 않음
허용될 수 있는 수준의 품질을 갖추고 있음

4개의 리뷰어 모델이 요구하는 신뢰도 높은 임계 수준을 하나라도 통과하지 못하는 이미지는 데이터 세트에서 폐기되었다. 가장 높은 신뢰도를 보이는 이미지만 필터를 통과해 최종 데이터 세트에 합류할 수 있도록 철저하게 주의를 기울이며, 모델의 결격 사유를 엄격하게 평가했다.

모델 소개

유니티의 유나이트 이벤트에서 뮤즈의 텍스처 및 스프라이트 기능에 대한 얼리 액세스가 발표되었다. 이러한 툴을 지원하는 모델의 첫 번째 반복 수정을 내부적으로 ‘Photo-Real-Unity-Texture-1’ 및 ‘Photo-Real-Unity-Sprite-1’이라고 한다. 이는 스타일화에 대한 기초적인 이해만 갖추도록 설계된 모델로, 주로 포토리얼리즘에 집중되어 있다.

모델을 프로젝트의 기존 스타일에 맞게 가이드하고 싶다면, 유니티의 스타일 훈련 시스템에 약간의 고유 레퍼런스 애셋을 제공하여 콘텐츠를 특정 아트 스타일로 생성하는 방법을 모델에 학습시킬 수 있다. 그렇게 하면 결과물 가이드를 위해 메인 모델과 함께 작동하는 소규모의 후속 모델이 생성된다. 이 소규모 후속 모델은 훈련 담당자나 그 조직에 공개되지 않으며, 유니티는 메인 모델 훈련에 이 콘텐츠를 사용하지 않는다.

포토리얼리즘에 중점을 두는 모델이기 때문에 유니티는 메인 모델을 수많은 다양한 스타일로 훈련시킬 필요가 없었다. 이 아키텍처를 통해 더 손쉽게 책임감 있는 AI를 향한 유니티의 약속을 지키면서 메인 모델을 훈련시킬 수 있으며, 크리에이터가 아트 수준을 더 세부적으로 제어하도록 할 수 있다.

이러한 모델은 시작에 불과하다. 뮤즈의 스마트한 역량은 점점 더 향상되어 더 나은 결과물로 이어질 것이며, 유니티는 그러한 과정에서 모델 향상 로드맵을 통해 모델을 더 높은 완성도로 이끈다는 비전을 내세운다.

Photo-Real-Unity-Texture-1 로드맵

유니티의 텍스처 모델은 모든 분야에서 유용하게 쓰일 수 있다. 큰 규모의 콘셉트를 인식하고 있으며, 이러한 모델을 통해 서로 관련이 없는 여러 콘셉트를 자유롭게 혼합하고 <그림 3>에서 볼 수 있는 ‘메탈 슬라임’ 또는 ‘파란색 크리스탈 유리 암석’ 같은 결과물을 구현할 수 있다.

그림 3

이 모델이 현 단계에서 유용하기는 하지만, 다양한 프롬프트와 입력 방식에 어떻게 반응하는지 학습해 본 결과 단일 단어로 구성된 프롬프트로는 고급 머티리얼 콘셉트를 구현하기 어려울 수도 있다는 사실을 알 수 있었다. 원하는 목표에 맞게 모델을 가이드하는 데에 도움이 되는 방법이 더 있지만, 유니티는 기본 프롬프트의 정확도를 높이고 새로운 모델 가이드 방법을 추가하는 방식으로 사용자가 모델을 계속 더 자유롭게 제어할 수 있도록 할 예정이다.

앞으로 컬러 피커, 추가적인 사전 제작 가이드 패턴, 자체 가이드 패턴 생성을 위한 개선된 시스템 및 기타 새로운 시각적 입력 방법을 추가할 계획이며, 이 모든 사항은 현재 실험 단계에 있다.

Photo-Real-Unity-Texture-1에서 유니티가 가장 중점을 두는 사항은 성과가 저조한 머티리얼 콘셉트를 식별하고 모델 재훈련을 자주 실행하여 전반적인 품질과 기능을 지속적으로 개선하는 것이다. 툴 내 평가 시스템을 통한 사용자의 피드백은 유니티가 모델 기능에서 취약점을 식별하여 더 나은 툴을 만드는 데 도움이 된다. 유니티는 빈도 높은 훈련 일정으로 모델을 빠르게 개선하고, 모델의 사용성을 높이며, 머티리얼 분야에 대한 지식을 축적하고 있다.

Photo-Real-Unity-Sprite-1 로드맵

Photo-Real-Unity-Texture-1과 유사하게 유니티의 기본적인 스프라이트 모델은 전반적으로 유용하며 많은 콘셉트를 인식한다. 툴에 아직 빌트인 애니메이션 기능이 없기 때문에, 유니티는 초기에는 가장 흔하게 사용되는 정적 스프라이트 콘셉트의 품질을 극대화하는데 주력하기로 했다. 기본 모델의 원시 결과물을 <그림 4>에서 확인할 수 있다. 일반적인 사용 사례에서 이는 사용자 훈련 모델에 의해 특정 아트 스타일에 맞게 조정된다.

그림 4

정적 오브젝트는 이미 안정적이지만 유니티는 동물과 인간의 해부학적 정확도를 개선하기 위해 계속 노력하고 있다. 이러한 유형의 소재를 사용할 때 결과가 바람직할 수도 있지만, 사지가 늘어나거나 누락되는 경우 또는 안면이 왜곡되는 경우가 발생할 수도 있다. 이는 책임감 있는 AI 및 사용 가능한 데이터에 대한 엄격한 제한을 지향하는 유니티의 조치에 따른 부작용이라고 할 수 있다. 유니티는 개인정보 보호와 안전을 중요하게 인지하고 있으며, 이로 인해 초기 얼리 액세스 릴리스에서 일부 소재의 품질이 완벽하지 않을 수 있다. 완전히 공백인 스프라이트가 생성될 수도 있으며, 이는 시각적 콘텐츠 검수 필터에 따른 결과이다.

유니티는 Photo-Real-Unity-Sprite-1의 초기 출시 버전에서는 출력 필터링에 관해 신중하게 접근하는 방향을 택했으며, 이로 인해 일부 아트 스타일의 경우 필터링에서 1종 오류가 발생할 수 있다. 유니티는 지속적으로 피드백을 수렴하고 콘텐츠 필터를 개선하면서 점차 제한을 완화할 계획이다.

유니티는 피드백을 수렴하고 책임감 있는 자세로 계속 더 많은 데이터를 소싱하면서 전반적으로 모든 소재의 품질이 빠르게 향상될 것으로 기대하고 있다. Photo-Real-Unity-Sprite-1에도 Photo-Real-Unity-Texture-1과 유사하게 철저한 훈련 일정이 적용될 예정이다.

AI 강화 개발을 향한 유니티의 행보

뮤즈는 책임감 있고 타인의 독창성을 존중하는 방식으로 생성형 AI의 잠재력을 활용해 커뮤니티에 더 강력한 창작물 제어 권한을 부여하려는 유니티의 첫걸음이다. 이 제품은 사용자를 우선으로 고려하여 제작되었으며, 유니티는 사용자의 피드백을 기반으로 변화와 개선을 진행할 예정이다.

유니티는 콘텐츠 제작 업계에서 생성형 AI가 가지는 잠재적 영향력을 인식하며 중요하게 다루고 있다. 이 툴은 크리에이터를 대체하는 것이 아닌, 크리에이터의 역량을 강화하기 위한 노력의 결과이다. 유니티는 크리에이터가 더 많아질수록 세상은 더 매력적인 곳이 될 것이라고 믿으며, 뮤즈와 이를 지원하는 모델을 통해 이러한 사명을 계속 이어간다는 비전을 제시한다.

■ 기사 내용은 PDF로도 제공됩니다.

#태그