• 회원가입
  • |
  • 로그인
  • |
  • 장바구니
  • News
    뉴스 신제품 신간 Culture & Life
  • 강좌/특집
    특집 강좌 자료창고 갤러리
  • 리뷰
    리뷰
  • 매거진
    목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
  • 행사/이벤트
    행사 전체보기 캐드앤그래픽스 행사
  • CNG TV
    방송리스트 방송 다시보기 공지사항
  • 커뮤니티
    업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
  • 디렉토리
    디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
  • 회사소개
    회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
  • 고객지원센터
    고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
  • 쇼핑몰
통합검색 "임베딩"에 대한 통합 검색 내용이 20개 있습니다
원하시는 검색 결과가 잘 나타나지 않을 때는 홈페이지의 해당 게시판 하단의 검색을 이용하시거나 구글 사이트 맞춤 검색 을 이용해 보시기 바랍니다.
CNG TV 방송 내용은 검색 속도 관계로 캐드앤그래픽스 전체 검색에서는 지원되지 않으므로 해당 게시판에서 직접 검색하시기 바랍니다
스노우플레이크, 거버넌스 준수하고 정확도 높인 AI 에이전트 ‘코텍스 에이전트’ 출시
스노우플레이크가 정형 혹은 비정형 데이터에 액세스해 자동으로 업무를 실행하는 AI 에이전트인 ‘코텍스 에이전트(Cortex Agents)’를 출시했다. 이를 통해 기업은 데이터 전문가 없이도 데이터를 검색, 분석해 엔터프라이즈 데이터를 더욱 효과적으로 관리할 수 있게 되었다. 코텍스 에이전트는 퍼블릭 프리뷰로 제공되며, 코텍스 애널리스트(Cortex Analyst)와 코텍스 서치(Cortex Search) 기능을 강화해 자동으로 데이터를 통합, 검색하고, 복잡한 쿼리를 분석해 정확한 답변을 생성한다. 이 과정에서 기업들은 정확성, 효율성 및 거버넌스를 실현할 수 있다, 코텍스 애널리스트는 정형화된 SQL 데이터를 분석하며, 앤스로픽(Anthropic)의 클로드 3.5 소넷(Claude 3.5 Sonnet)을 활용해 텍스트를 SQL로 변환하는 데 정확도를 높였다. 사용자가 자연어로 데이터를 조회하고 인사이트를 도출할 수 있으며 복잡한 추론, 코드 생성, 멀티모달 데이터 분석을 수행할 수 있는 엔터프라이즈급 AI 기능을 제공한다. 코텍스 서치는 텍스트, 오디오, 이미지, 비디오 등 비정형 데이터의 검색 정확도를 높인다. 스노우플레이크는 “오픈AI 임베딩 모델 대비 최소 11% 높은 정확도를 기록하며 다양한 벤치마크 테스트에서 우수한 성능을 입증했다”고 밝혔으며, 이 외에도 대규모 데이터 인덱싱, 맞춤형 벡터 임베딩 모델 선택 기능이 추가됐다.     정확한 데이터 분석, 보안 유지 및 거버넌스 준수는 AI 에이전트가 기업 환경에서 효과적으로 확장되기 위한 필수 요소다. 코텍스 에이전트는 다양한 데이터 소스를 검색하고, 보안 정책을 준수하며 신뢰할 수 있는 결과를 제공하도록 설계됐다. 배포 이후에도 성능과 동작을 지속적으로 모니터링하고 개선할 수 있어, 기업이 AI 에이전트를 안전하게 확장하면서 보안과 컴플라이언스를 유지할 수 있도록 돕는다. 예를 들어, 재무 분석가는 정형 데이터인 수익 데이터와 비정형 데이터인 재무 보고서 및 시장 데이터와 결합해야 하는 경우가 많다. 엔드 투 엔드 거버넌스를 통해 안전하게 AI에 정보를 제공하는 것이 필요한데, 이 때 코텍스 에이전트를 활용하면 된다. 코텍스 에이전트는 두 데이터 소스의 통합, 검색 및 처리를 단순하게 해 기업들은 쉽게 대규모로 고품질 에이전트를 구축할 수 있도록 지원한다.  스노우플레이크의 크리스티안 클레이너만(Christian Kleinerman) 제품 담당 수석 부사장은 “AI 전략은 데이터 전략 없이는 존재할 수 없다”면서, “많은 고객이 AI 가치를 극대화하기 위해 데이터를 체계적으로 관리하고 거버넌스를 구축하는데 어려움을 겪고 있다. 스노우플레이크는 코텍스 에이전트를 통해 고객들이 데이터 전문가가 아니더라도 더욱 쉽게 데이터를 관리하고 실질적인 성과를 얻을 수 있도록 지원하고 있다”고 강조했다.
작성일 : 2025-02-21
엔비디아, 블랙웰 지포스 RTX 50 시리즈 출시
엔비디아가 게이머, 크리에이터, 개발자를 위한 최첨단 소비자용 GPU인 지포스 RTX 50 시리즈 데스크톱과 노트북 GPU(GeForce RTX 50 Series Desktop and Laptop GPU)를 공개했다. 엔비디아 블랙웰(NVIDIA Blackwell) 아키텍처, 5세대 텐서 코어(Tensor Core), 4세대 RT 코어(RT Core)를 기반으로 하는 지포스 RTX 50 시리즈는 뉴럴 셰이더, 디지털 휴먼 기술, 지오메트리, 조명을 포함한 AI 기반 렌더링의 혁신을 제공한다. 엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “PC 게이머, 개발자, 크리에이터를 위한 AI 엔진인 블랙웰이 등장했다. AI 기반의 뉴럴 렌더링과 광선 추적을 융합한 블랙웰은 25년 전 프로그래머블 셰이딩을 도입한 이래 가장 중요한 컴퓨터 그래픽 혁신”이라고 말했다. 현재까지 출시된 지포스 RTX GPU 중 가장 빠른 지포스 RTX 5090 GPU는 920억 개의 트랜지스터를 탑재하고 있으며, 초당 3,352조 이상의 AI 연산(TOPS) 처리 능력을 제공한다. 블랙웰 아키텍처 혁신과 DLSS 4 덕분에 지포스 RTX 5090 GPU는 지포스 RTX 4090 GPU보다 최대 2배 더 우수한 성능을 발휘한다. 지포스 블랙웰은 데스크톱 모델의 모든 기능을 갖춘 노트북에 탑재된다. 이는 탁월한 그래픽 기능과 놀라운 효율성을 포함해 휴대용 컴퓨팅에 상당한 업그레이드를 제공한다. 엔비디아 맥스-Q(Max-Q) 기술의 블랙웰 세대는 배터리 수명을 최대 40%까지 연장하며, 전력이나 성능을 희생하지 않고 세련된 디자인을 유지하는 얇고 가벼운 노트북을 포함한다. 최대 8배의 성능을 향상시키는 엔비디아 DLSS 4 DLSS 4는 렌더링된 프레임당 최대 3개의 프레임을 생성하기 위해 AI를 사용해 프레임 속도를 높이는 멀티 프레임 생성(Multi Frame Generation)을 선보인다. 이 기술은 DLSS 기술 제품군과 함께 작동해 엔비디아 리플렉스(Reflex) 기술로 응답성을 유지하면서 기존 렌더링보다 최대 8배의 성능 향상을 제공한다. 또한 DLSS 4는 그래픽 업계 최초로 트랜스포머 모델 아키텍처를 실시간으로 적용한다. 트랜스포머 기반의 DLSS 레이 리컨스트럭션(Ray Reconstruction)과 슈퍼 레졸루션(Super Resolution) 모델은 2배 더 많은 파라미터와 4배 더 많은 연산을 사용한다. 이를 통해 게임 장면에서 더 큰 안정성, 감소된 고스팅, 더 높은 디테일, 향상된 안티 앨리어싱(anti-aliasing)을 제공한다. DLSS 4는 75개 이상의 게임과 애플리케이션에서 지포스 RTX 50 시리즈 GPU를 통해 지원될 예정이다. 엔비디아 리플렉스 2는 디스플레이로 보내기 직전에 최신 마우스 입력을 기반으로 렌더링된 프레임을 업데이트해 게임의 지연 시간을 줄이는 혁신적인 기술인 프레임 워프(Frame Warp)를 도입한다. 리플렉스 2는 지연 시간을 최대 75%까지 줄일 수 있다. 이를 통해 게이머는 멀티플레이어 게임에서 경쟁 우위를 점할 수 있고 싱글 플레이어 타이틀의 반응성도 향상된다. 블랙웰, 셰이더에 AI 도입 25년 전, 엔비디아는 지포스 3와 프로그래밍 가능한 셰이더를 출시했다. 이 셰이더는 픽셀 셰이딩, 컴퓨트 셰이딩, 실시간 레이 트레이싱에 이르기까지 20년 동안 그래픽 혁신의 발판을 마련했다. 엔비디아는 지포스 RTX 50 시리즈 GPU와 함께 RTX 뉴럴 셰이더(Neural Shader)를 출시한다. 이 셰이더는 작은 AI 네트워크를 프로그래밍 가능한 셰이더에 도입해 실시간 게임에서 영화 수준의 소재, 조명 등을 구현한다. 게임 캐릭터 렌더링은 실시간 그래픽에서 가장 어려운 작업 중 하나다. 사람들이 디지털 휴먼에서 아주 작은 오류나 부작용을 쉽게 발견해내기 때문이다. RTX 뉴럴 페이스(Neural Face)는 단순한 래스터화된 얼굴과 3D 포즈 데이터를 입력으로 받아서, 생성형 AI를 사용해 실시간으로 일시적으로 안정적이고 고품질의 디지털 페이스를 렌더링한다. RTX 뉴럴 페이스는 레이 트레이싱된 머리카락과 피부용으로 새롭게 개발된 RTX 기술로 보완된다. 장면에서 레이 트레이싱 삼각형을 최대 100배까지 늘려주는 새로운 RTX 메가 지오메트리(Mega Geometry)와 함께, 이러한 발전은 게임 캐릭터와 환경의 사실성을 크게 향상시킬 것이다. 뉴럴 렌더링의 힘, DLSS 4, 그리고 새로운 DLSS 트랜스포머 모델은 엔비디아의 획기적인 신기술 데모인 조라(Zorah)를 통해 지포스 RTX 50 시리즈 GPU에서 선보인다. 자율 게임 캐릭터 지포스 RTX 50 시리즈 GPU는 업계 최고의 AI 톱스(TOPS)를 통해 게임 렌더링과 병행해 자율 게임 캐릭터를 구동한다. 엔비디아는 게임 캐릭터가 인간 플레이어처럼 인지하고, 계획하고, 행동할 수 있도록 하는 새로운 엔비디아 에이스(ACE) 기술 제품군을 소개한다. 에이스 기반 자율 캐릭터는 크래프톤(KRAFTON)의 PUBG: 배틀그라운드(PUBG: BATTLEGROUNDS)와 곧 출시될 생활 시뮬레이션 게임인 인조이(InZOI), 그리고 위메이드 넥스트(Wemade Next)의 미르5(MIR5)에 통합되고 있다. PUBG에서는 엔비디아 에이스로 구동되는 동료들이 생존을 위해 휴먼 플레이어와 역동적으로 협력하면서 전략적 행동을 계획하고 실행한다. 인조이에는 삶의 목표와 게임 내 이벤트에 따라 행동을 자율적으로 조정하는 스마트 조이(Smart Zoi) 캐릭터가 등장한다. 미르5에서는 거대 언어 모델(large language model, LLM) 기반 레이드 보스가 플레이어의 행동에 따라 전술을 조정해 더욱 역동적이고 도전적인 만남을 만들어 낸다. RTX AI PC용 AI 파운데이션 모델 엔비디아는 블랙 포레스트 랩스(Black Forest Labs), 메타(Meta), 미스트랄(Mistral), 스태빌리티 AI(Stability AI)와 같은 최고의 모델 개발자들이 만든 NIM 마이크로서비스와 RTX AI PC용 AI 블루프린트(Blueprint) 파이프라인을 출시할 예정이다. 이는 RTX 애호가와 개발자들이 엔비디아 NIM 마이크로서비스를 사용해 AI 에이전트와 어시스턴트를 구축하는 방법을 소개하기 위함이다. 사용 사례는 LLM, 비전 언어 모델, 이미지 생성, 음성, 검색 증강 생성(retrieval-augmented generation, RAG)을 위한 임베딩 모델, PDF 추출, 컴퓨터 비전 등 다양한 분야에 걸쳐 있다. NIM 마이크로서비스에는 PC에서 AI를 실행하는 데 필요한 모든 구성 요소가 포함돼 있으며, 모든 엔비디아 GPU에 배포할 수 있도록 최적화돼 있다. 엔비디아는 애호가들과 개발자들이 NIM을 사용해 AI 에이전트와 어시스턴트를 구축할 수 있는 방법을 보여주기 위해 프로젝트 R2X(Project R2X)를 미리 공개했다. 프로젝트 R2X는 사용자의 손끝에 정보를 제공하고, 데스크톱 앱과 화상 회의 통화를 지원하고, 문서를 읽고 요약하는 등의 기능을 수행할 수 있는 비전 지원 PC 아바타다. 크리에이터를 위한 AI 기반 도구 지포스 RTX 50 시리즈 GPU는 크리에이티브 워크플로우를 강화한다. RTX 50 시리즈 GPU는 FP4 정밀도를 지원하는 최초의 소비자용 GPU이다. 이는 플럭스(FLUX)와 같은 모델의 AI 이미지 생성 성능을 2배 향상시키고, 이전 세대 하드웨어에 비해 더 작은 메모리 공간에서 생성형 AI 모델을 로컬로 실행할 수 있도록 한다. 엔비디아 브로드캐스트(Broadcast) 앱은 라이브 스트리머를 위한 두 가지 AI 기반 베타 기능을 제공한다: 마이크 오디오를 업그레이드하는 스튜디오 보이스(Studio Voice)와 세련된 스트리밍을 위해 얼굴을 다시 비추는 버추얼 키 라이트(Virtual Key Light)이다. 스트림랩스(Streamlabs)는 엔비디아 에이스와 인월드 AI(Inworld AI)를 기반으로 하는 인텔리전트 스트리밍 어시스턴트(Intelligent Streaming Assistant)를 소개한다. 이 기능은 라이브 스트리밍을 향상시키기 위해 공동 진행자, 프로듀서, 기술 보조자의 역할을 한다. 이용 정보 데스크톱 사용자의 경우, 3,352개의 AI 톱스의 지포스 RTX 5090 GPU와 1,801개의 AI 톱스의 지포스 RTX 5080 GPU가 오는 1월 30일에 각각 $1,999와 $999에 출시될 예정이다. 1,406개의 AI 톱스의 지포스 RTX 5070 Ti GPU와 988개의 AI 톱스의 지포스 RTX 5070 GPU는 2월부터 각각 $749와 $549에 판매될 예정이다. 지포스 RTX 5090, RTX 5080, RTX 5070 GPU의 엔비디아 파운더스 에디션(Founders Edition)는 nvidia.com과 전 세계 일부 소매점에서 직접 구매할 수 있다. 에이수스(ASUS), 컬러풀(Colorful), 게인워드(Gainward), 갤럭시(GALAX), 기가바이트(GIGABYTE), 이노3D(INNO3D), KFA2, MSI, 팔릿(Palit), PNY, 조탁(ZOTAC) 등 최고의 애드인 카드 제공업체와 팔콘 노스웨스트(Falcon Northwest), 인피니아크(Infiniarc), 메인기어(MAINGEAR), 미프콤(Mifcom), 오리진 PC(ORIGIN PC), PC 스페셜리스트(PC Specialist), 스캔 컴퓨터스(Scan Computers) 등 데스크탑 제조업체에서 기본 클럭 모델과 공장 오버클럭 모델을 구입할 수 있다.
작성일 : 2025-01-27
[무료다운로드] 생성형 AI 기반 BIM 전문가 시스템 개발해 보기
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 지난 연재를 통해 설명한 생성형 AI 기술을 바탕으로 BIM(건설 정보 모델링) 전문가 시스템을 개발하는 방법을 간단히 알아보도록 한다.    ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/ GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast   이 글에서는 LLM(대규모 언어 모델)과 RAG(검색 증강 생성) 기술을 적용하여 BIM IFC(Industry Foundation Classes) 데이터의 정보를 검색하고, 이를 바탕으로 BIM 지식 전문가 에이전트를 개발하는 방법을 소개한다. 이런 에이전트는 자연어 기반의 사용자 쿼리를 통해 필요한 정보를 신속하고 정확하게 제공하며, 건설 프로젝트의 전반적인 효율성을 높일 수 있다. 이 글에서 소개하는 방법은 RAG를 이용해 전문가 시스템을 개발하는 여러 가지 대안 중 하나임을 미리 밝힌다. IFC와 같은 포맷을 이용한 RAG와 LLM 사용 기법은 목적에 따라 구현 방법의 차이가 다양하다.    LLM RAG 기반 BIM 전문가 시스템 프로세스 현재 대중적인 목적으로 개발된 LLM 기술인 ChatGPT(오픈AI), Gemini(구글), Llama(메타), Phi(마이크로소프트)는 BIM의 일반적인 지식, 예를 들어 BIM 관련 웹사이트에서 공개된 일반적인 개념 설명, PDF에 포함된 텍스트를 학습한 모델을 제공하고 있다. 다만, 이들 LLM 도구는 BIM 모델링 정보를 담고 있는 IFC와 같은 특수한 데이터셋 파일은 인식하지 않는다. 현재는 PDF같은 일반적인 파일 형식만 검색 증강 생성을 지원하는 RAG 기술을 이용해, 도메인에 특화된 지식 생성을 지원한다. 이는 특정 도메인 지식을 훈련하기 위해 필요한 비용이 너무 과대하며, 도메인 지식을 모델 학습에 맞게 데이터베이스화하는 방법도 쉽지 않기 때문이다. 예를 들어, ChatGPT-4 모델을 훈련할 때 필요한 GPU 수는 엔비디아 A100×25,000개로 알려져 있으며, 학습에 100일이 걸렸다. A100 가격이 수천 만원 수준인 것을 감안하면, 사용된 GPU 비용만 천문학적인 금액이 소모된 것을 알 수 있다.  이런 이유로, LLM 모델을 전체 학습하지 않고 모델 중 작은 일부 가중치만 갱신하는 파인튜닝(fine-tuning), 범용 LLM는 운영체제처럼 사용하여 정보 생성에 필요한 내용을 미리 검색한 후 컨텍스트 프롬프트 정보로서 LLM에 입력해 정보를 생성하는 검색 증강 생성 기술인 RAG이 주목받고 있다. RAG는 <그림 1>과 같은 순서로 사용자 질문에 대한 답변을 생성한다.   그림 1. RAG 기반 BIM 전문가 시스템 작업 흐름(한국BIM학회, 2024)   RAG는 LLM에 입력하는 템플릿에 답변과 관련된 참고 콘텐츠를 프롬프트에 추가하여 원하는 답을 생성하는 기술이다. 이런 이유로, 답변에 포함된 콘텐츠를 처리하고, 검색하는 것이 매우 중요하다. LLM은 입력 프롬프트에 생성에 참고할 콘텐츠를 추가하지 못하면 환각 문제가 발생되는 단점이 있다. 각 RAG 단계는 검색이 가능하도록 데이터셋을 청크(chunk) 단위로 분할(split)하고, 데이터는 임베딩(embedding)을 통해 검색 연산이 가능한 벡터 형식으로 변환된다. 이 벡터는 저장 및 검색 기능을 가진 벡터 데이터베이스(vector database)에 저장된다. 사용자의 질문은 검색 알고리즘을 통해 벡터 데이터베이스에서 가장 근사한 정보를 포함하는 콘텐츠를 얻고, 프롬프트에 추가된 후 LLM에 입력된다. 그 결과 LLM은 원하는 답변을 출력한다. 이를 통해 학습하지 않은 전문 분야의 토큰을 인식하지 못하는 LLM이 원하는 결과를 생성할 수 있도록 한다.   BIM IFC 콘텐츠 데이터 구조 분석 앞서 살펴본 바와 같이 RAG 성능은 입력되는 데이터셋의 특징과 검색 알고리즘에 큰 영향을 받는다. 그러므로, 개방형 BIM 데이터 형식으로 사용되는 IFC의 특징을 분석하여 BIM RAG를 위한 데이터 처리 시 이를 고려한다. IFC 파일 구조는 STEP(ISO 10303), XML 스키마 형식을 준용한다. IFC는 객체지향 모델링과 그래프 모델 구조의 영향을 많이 받았다. 확장성을 고려해 BIM을 구성하고 있는 건축 객체의 부재들, 관계, 속성집합에 Instance ID 및 GUID(Globally 2025/1 Unique IDentifier)와 같은 해시값(hash)을 할당하고, 이들 간의 관계를 해시번호로 참조하여, 거대한 온톨로지 그래프 구조를 정의한다. <그림 2~3>은 이를 보여준다.   그림 2. IFC 객체 그래프 구조(Wall instance)   그림 3. IFC 그래프 구조 표현(강태욱, 2022)     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2025-01-06
대규모 언어 모델의 핵심 개념인 토큰, 임베딩과 모델 파인튜닝에 대해
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 LLM(대규모 언어 모델)의 자연어 처리에서 핵심 기술인 토큰, 임베딩 및 모델 파인튜닝의 이해를 위한 개념과 임베딩 모델의 동작 메커니즘을 살펴본다. 여기서 토큰은 문장을 구성하는 단어로 가정하면 이해하기 쉽다. 토큰과 임베딩은 입력 시퀀스에 대한 출력을 학습, 예측할 때 훈련의 전제가 되는 LLM의 기본조건이다. 이에 대해 좀 더 깊게 이해해 보자.    ■ 강태욱  건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다.  페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com  홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast    최근 대규모 언어 모델(LLM : Large Language Model)과 검색 증강 생성(RAG : Retrieval-Augmented Generation) 기술을 이용해 다양한 전문가 서비스 에이전트를 개발하는 사례가 많아지고 있다. 특히, 전문가처럼 행동하며 문제를 해결하거나 의사결정을 지원하는 멀티 에이전트 기술은 이미 선진국을 중심으로 금융, 제조, 건설 등 엔지니링 분야에 개발되고 있다.    도메인 의존 정보와 토큰  의학과 같은 특별한 분야에서는 환각 현상 등으로 인해 챗GPT(ChatGPT)와 같은 범용 LLM이 제대로 정보를 생성하지 못하는 경우가 많다. 이런 문제를 해결하기 위해 전문 분야의 지식을 기존 LLM 모델을 이용해 재학습하는 방법이 생겨났는데, 파인튜닝은 그 중 한 가지 방법이다.  파인튜닝은 빅테크 업체가 공개한 LLM 모델을 특정 도메인 지식을 잘 표현할 수 있도록 재학습하는 방법 중 하나이다. LLM의 신경망 전체를 재학습하기 위해서는 매우 비싼 GPU 사용 비용이 필요하다. 이는 일반적인 기업에서 수행할 수 없는 수준이다. 이런 이유로, 파인튜닝은 메타에서 공개한 라마(LLaMA)와 같은 파운데이션 LLM 모델의 신경망에 별도의 작은 신경망을 추가해, 이를 별도로 준비된 데이터로 학습하는 방식을 사용한다.  LLM을 파인튜닝하기 전에 어떤 토큰이 사용되었는지, 임베딩 모델이 무엇인지 확인해야 한다. 파인튜닝 시 용어가 LLM에 사전 학습되어 있지 않다면, 용어 간 관계를 통계적으로 추론하는 학습 절차가 매우 비효율적으로 계산된다. 일반적으로 모델을 파인 튜닝하려면 LLM 토큰 확인 및 개발, 임베딩 모델의 적절한 사용이 필요하다.  <그림 1>은 토큰이 수치화된 결과를 보여준다. 참고로, 토큰이 숫자로 표현되지 못하는 문제를 OOV(Out-Of-Vocabulary)라 한다.    그림 1. 숫자 토큰화 결과   임베딩은 학습 모델이 입력되는 문장의 토큰 패턴을 통계적으로 계산하기 전, 토큰을 수치화시키는 함수이다. 이 함수를 임베딩 모델이라 한다. 임베딩 모델은 토큰을 수치화하여 모델 학습에 사용하는데 필요한 입력값을 출력한다. 이런 이유로, 토큰 사전과 임베딩 모델이 다르면 제대로 된 모델 학습, 예측, 패턴 계산 결과를 얻기 어렵다. 임베딩 모델도 별도의 신경망 모델이며 다양한 방식으로 학습될 수 있다. 이번 호에서는 구글에서 공개한 BERT(Bidirectional Encoder Representations from Transformers) 임베딩 모델을 사용한다.  이와 관련된 실험을 하기 위해, 개발 환경을 설치하고 파이썬 코드를 준비해 본다.    개발 환경 준비 미리 컴퓨터에 파이썬, 아나콘다 등 필수적인 라이브러리가 설치되어 있다는 조건에서, 실습을 위해 명령창에서 다음을 실행해 설치한다. pip install transformers torch   참고로, 다음은 파인튜닝에 사용하는 오픈소스 라이브러리를 보여준다. Torch : 텐서 계산 및 딥 러닝을 위한 핵심 라이브러리이다. PEFT : 낮은 순위의 적응 기술을 사용하여 대규모 언어 모델을 효율적으로 미세 조정할 수 있다. 특히 리소스가 제한된 장치에서 학습 가능한 매개 변수의 수를 줄여 모델을 압축하고 더 빠르게 미세 조정할 수 있다. bitsandbytes : 신경망에 대한 양자화 및 이진화 기술을 제공하여 모델 압축을 지원한다. 모델 압축에 도움이 되므로 메모리와 계산 능력이 제한된 에지 장치에 모델을 보다 실현 가능하게 만들 수 있다. Transformers : 대규모 언어 모델 작업을 간소화하여 사전 학습된 모델 및 학습 파이프라인을 제공한다. trl : 대규모 언어 모델의 경우 효율적인 모델 학습 및 최적화에 중점을 둔다. accelerate : 다양한 하드웨어 플랫폼에서 학습 및 추론을 가속화한다. dataset : 기계 학습 작업을 위한 데이터 세트 로드 및 준비를 간소화한다. pipeline : 사용자 지정 학습 없이 일반적인 NLP 작업에 대해 사전 학습된 모델의 사용을 간소화한다. PyArrow : 효율적인 데이터 로드 및 처리를 위해 사용될 수 있다. LoraConfig : LoRA 기반 미세 조정을 위한 구성 매개변수를 보유한다. SFTTrainer : 모델 학습, 최적화 및 평가를 처리한다.     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-11-04
CAD&Graphics 2024년 11월호 목차
  INFOWORLD   Editorial 17 가을이다, 책과 함께 떠나보자   Case Study 18  자전거 개발의 혁신을 추구하는 피나렐로 금속 3D 프린팅으로 부품 경량화와 고난도 설계 달성 20 부동산 시장에 변화를 일으키고 있는 베로 디지털 트윈으로 부동산 개발부터 관리까지 시각화   Focus 23 코리아 그래픽스 2024, 생성형 AI와 3D 기술이 이끄는 디자인 혁신 비전 소개 28 헥사곤 ALI, “디지털 혁신의 핵심은 데이터의 가치 확장” 30 SAP, “비즈니스 혁신 위한 AI의 가능성 더욱 넓힌다” 32 시놀로지, 기업 시장 겨냥한 스토리지 및 백업 설루션으로 국내 시장 성장세 강화 34 유니티, “산업 분야의 실시간 3D 및 디지털 트윈 구축과 활용 지원 확대”   New Products 37 동역학 솔버 기능 강화 및 툴킷 개선 리커다인 2025 40 제품 개발 가속화하는 3D 설계/엔지니어링 애플리케이션 솔리드웍스 2025 42 AI 적용한 전기 CAD 솔루션 일렉트릭스 AI 44 초고속∙대형 포맷의 SLA 3D 프린터 폼 4L 46 차세대 기업용 PC를 위한 AI 프로세서 라이젠 AI 프로 300 시리즈 58 이달의 신제품   On Air 48 캐드앤그래픽스 CNG TV 지식방송 지상중계 새로운 트렌드, 산업 데이터 스페이스와 제조업의 변화 49 캐드앤그래픽스 CNG TV 지식방송 지상중계 전기/전장 부문 DX의 장애 요소와 해결 방안 제시 50 캐드앤그래픽스 CNG TV 지식방송 지상중계 AI와 CAE 융합을 통한 차세대 제조 혁신 전략   Column 51 책에서 얻은 것 No.23 / 류용효 AI 트렌드 2025 : 세 권의 책을 통해 본 미래 전망 54 디지털 지식전문가 조형식의 지식마당 / 조형식 스마트 혁신 엔지니어링   60 New Books 62 News   Directory 131 국내 주요 CAD/CAM/CAE/PDM 소프트웨어 공급업체 디렉토리   CADPIA   AEC 69 BIM 칼럼니스트 강태욱의 이슈 & 토크 / 강태욱 대규모 언어 모델의 핵심 개념인 토큰, 임베딩과 모델 파인튜닝에 대해 74 새로워진 캐디안 2024 살펴보기 (11) / 최영석 캐디안 2024 SE 자료실의 리스프 소개 118 데스크톱/모바일/클라우드를 지원하는 아레스 캐드 2025 (7) / 천벼리 아레스 캐드 2025의 실시간 협업   Visualization 78 기업용 AR 및 VR의 놀라운 효과 / 유니티 코리아 산업 분야에서 혼합현실을 통해 측정 가능한 결과를 도출하는 방법   Reverse Engineering 84 문화유산 분야의 이미지 데이터베이스와 활용 사례 (11) / 유우식 도자기 데이터베이스   Analysis 95 앤시스 워크벤치를 활용한 해석 성공 사례 / 정준영 ASME BPVC, Section-VIII, Division-2, 5.4 항에 근거한 좌굴 해석 108 산업 디지털 전환을 위한 버추얼 트윈 (6) / 이아라 모드심을 통한 자동차 B-필러 개념 설계 적용방안 검토 114 성공적인 유동 해석을 위한 케이던스의 CFD 기술 (15) / 나인플러스IT 터보 기계 시뮬레이션을 위한 엔지니어 가이드 Ⅰ 121 화제가 되고 있는 모델 기반 개발을 함께 배우기 / 오재응 모델 기반 개발의 이점과 진행 과정에서의 해결 과제   Mechanical 102 제품 개발 혁신을 가속화하는 크레오 파라메트릭 11.0 (6) / 박수민 크레오 파라메트릭 11의 인터페이스 개선사항   PLM 127 영업 성공 리더십 – 솔루션/가치 영업 활동 프로세스 (2) / 홍승철 솔루션을 ‘소울루션’으로 : B2B 솔루션/가치 영업 활동 프로세스       캐드앤그래픽스 2024년 11월호 목차 - 생성형 AI와 3D 기술이 이끄는 디자인 혁신 비전 from 캐드앤그래픽스     캐드앤그래픽스 당월호 책자 구입하기   캐드앤그래픽스 당월호 PDF 구입하기
작성일 : 2024-10-28
[무료다운로드] AI로 실시간 3D 경험 만드는 유니티 뮤즈
LLM 통합으로 뮤즈 챗의 정확성과 신뢰성을 높이는 방법   이번 호에서는 유니티 뮤즈 챗(Unity Muse Chat)이 유용한 솔루션을 제공하기 위해 정확히 어떻게 설계되었는지 알 수 있도록, 응답을 생성하는 과정의 구성 방식을 살펴본다. 현재 진행 중인 탐구 활동과 향후 개발 예정인 LLM(대규모 언어 모델) 파이프라인에 대해서도 미리 살펴볼 수 있다.   ■ 자료 제공 : 유니티 코리아, https://unity.com/kr   그림 1   유니티 뮤즈(Unity Muse)는 AI 기능을 통해 실시간 3D 경험을 탐색하고, 아이디어를 구상하고, 반복 작업(iteration)을 수행할 수 있도록 지원한다. 뮤즈 챗은 제작 속도를 높이는데 사용할 수 있는 툴이다. 뮤즈 챗은 유니티에 대한 지식과 에디터를 손쉽게 활용하도록 지원하여 디버깅 조언, 첫 번째 초안 작성을 위한 코드 생성 등 유용한 정보를 유니티 에디터와 프로젝트의 컨텍스트 내에서 모두 제공해 준다.   풍부한 지식 보강으로 신뢰할 수 있는 답변 제공 뮤즈 챗은 쿼리 계획 및 다양한 정보의 중재를 위한 여러 시스템과 LLM(대규모 언어 모델) 통합으로 구성된 파이프라인으로서 구축되었다. 뮤즈 챗은 요청을 수신하면 에디터나 사용자가 제공한 정보 및 해결하려는 문제를 기반으로 향후 응답의 형식을 간략하게 설명하는 작업 계획을 도출한다. Space Purr-suit의 공동 제작자인 제시카 소우자는 “나는 뮤즈를 개인 비서처럼 사용하여 모든 것을 직접 구축하고 코딩했다. 물론 동료들의 도움도 있었지만, 뮤즈가 없었다면 이렇게 짧은 시간 안에 탁월한 결과를 얻지 못했을 것 같다”고 전했다. 신뢰도 높은 응답을 구성할 때는 두 가지 과제가 있다. 하나는 응답을 작성하기 위해 관련 정보를 검색하는 것이고, 다른 하나는 대화의 맥락과 기록을 바탕으로 해당 정보가 응답에 적절하게 포함되도록 하는 것이다. 뮤즈 챗은 정보를 수집하여 문서 섹션이나 코드 스니핏과 같은 80만 개 이상의 정보 청크를 통해 이 두 가지 과제를 모두 해결하고자 한다. 청크는 주변 정보에 대한 참조를 통해 처리 및 보완되므로 각각 유용하고 독립적인 정보 유닛을 제공한다. 청크는 기술 자료를 통해 추적된 내용에 따라 콘텐츠와 고유한 컨텍스트를 기준으로 분류된다. 또한 시스템의 투명성과 해석 가능성을 제공하며, 호환 가능한 정보를 효과적으로 검색할 수 있도록 한다. 현재 나머지 파이프라인이 어떻게 구성되어 있는지 알아보려면 <그림 2>의 다이어그램과 다음의 설명을 참조할 수 있다.   그림 2   요청 : 요청이 들어왔다. 에디터 컨텍스트 : 에디터에 있는 경우 관련 컨텍스트가 에디터에서 동적으로 추출되며, 뮤즈에 적절한 정보를 제공하라는 요청이 함께 제시된다. 쿼리 확장 : 초기 계획 시스템은 정확한 계획을 도출하기 위한 쿼리 확장을 수행한다. 정보 카탈로그 형식을 최대한 복제하고 각 단계에 맞는 이상적인 청크 구조를 다시 만들도록 LLM에 지시한다. 이 접근 방식을 사용하면 시스템이 원하는 청크의 컨텍스트, 콘텐츠 및 사용 사례를 캡처하는 임베딩을 계산할 수 있다. 이러한 각 계획 단계는 세분화된 시맨틱 검색에 사용된다. 정보 검색 : 관련 정보를 찾기 위해 대칭 시맨틱 검색 및 메타데이터 필터링을 사용하여 쿼리 확장 단계에서 식별한 이상적인 예상 청크와 가장 유사한 청크를 정보 카탈로그에서 검색한다. 공식화 : 최종 응답을 생성하기 위해, 필터링된 원래 계획 단계와 관련 기본 정보를 전달하는데 필요한 소스를 모두 포함하는 세부 개요를 기반으로 다른 LLM을 사용하여 응답을 작성한다. 응답 : 뮤즈 챗이 답변을 제공한다.   상황에 맞는 파이프라인을 구축하여 에디터 통합 지원 에디터에서 뮤즈 챗을 사용할 수 있도록 만들기 위해, 파이프라인의 두 번째 단계인 에디터 컨텍스트 추출을 도입했다. 이를 파이프라인의 맨 처음에 추가하면 쿼리를 분석하여 에디터에서 추출할 내용을 식별하고, 이를 파싱하여 뮤즈에 다음 단계에 대해 알려 준다. 사용자 피드백을 바탕으로 프로젝트 설치 및 설정, 게임 오브젝트/프리팹, 콘솔 액세스부터 작업을 시작했다. 이제 경고나 메시지와 함께 콘솔 오류가 발생하면 콘솔에서 관련 행을 클릭하여 오류를 선택 항목에 추가하기만 하면 된다. 아래 예시에서는 스크립트에서 중괄호가 누락되어 오류가 발생했다.   그림 3     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-10-07
[무료다운로드] LLM RAG의 핵심 기술, 벡터 데이터베이스 크로마 분석
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 대규모 언어 모델(LLM : Large Language Model)의 검색증강생성(RAG : Retrieval-Augmented Generation) 구현 시 핵심 기술인 임베딩 벡터 데이터베이스로 유명한 크로마(Chroma)의 핵심 구조를 간략히 분석한다. RAG는 생성형 AI의 환각현상을 줄여 전문가적인 정보를 생성하는 데에 도움을 준다.  크로마의 동작 방식을 이해하면 LLM 기술 개발 시 이해도와 응용력을 높일 수 있다. 참고로, 벡터 베이터베이스는 다양하게 있으나 크로마는 사용하기 쉽고 오픈되어 있어 현재 많이 활용되고 있다.   ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast   그림 1. 벡터 데이터베이스의 종류   크로마는 AI 지원 오픈소스 벡터 베이터베이스로, RAG를 처리할 때 필수로 사용되는 데이터베이스 중 하나이다. 크로마를 이용해 LLM 기반의 다양한 앱(지식 서비스 등)을 개발할 수 있다. 예를 들어, 각종 건설 규정, BIM 관련 지침 등을 요약하고 설명해주는 전문가 시스템을 개발할 때 사용할 수 있다.   그림 2   크로마는 임베딩 벡터를 메타데이터와 함께 저장하고, 질의를 통해 해당 임베딩 도큐먼트를 검색할 수 있다. 크로마는 독립적인 서버로서 동작할 수 있다.   설치 및 사용 윈도우 명령창이나 터미널을 실행한다. 크로마 설치를 위해 다음과 같이 터미널에 명령을 입력한다.    pip install chromadb   벡터 데이터베이스에 저장되는 단위는 다음과 같다.    collection = client.create_collectoin(name='test', embedding_function=emb_fn) collection.add(    embeddings=[       [1.1, 2.3, 3.2],       [4.5, 6.9, 4.4],       [1.1, 2.3, 3.2]    ],    metadatas=[       {"uri": "img1.png", "style": "style1"},       {"uri": "img2.png", "style": "style2"},       {"uri": "img3.png", "style": "style1"}    ],    documents=["doc1", "doc2", "doc3"],    ids=["id1", "id2", "id3"], )   여기에서 보는 것과 같이, 벡터 좌표계에 위치할 임베딩 벡터, 벡터에 매달아 놓을 메타데이터와 도큐먼트, ID를 하나의 컬랙션 단위로 저장한다. 이를 통해 벡터 간 유사도, 거리 등을 계산해 원하는 도큐먼트, 메타데이터 등을 얻을 수 있다. 이 때 임베딩 벡터는 미리 학습된 임베딩 모델을 사용할 수 있다.  질의해서 원하는 벡터를 얻으려면 벡터 공간에서 거리 계산이 필수적이다. 이 때 사용하는 함수는 <그림 3>과 같다.    그림 3   컬렉션에 벡터 추가와 질의는 다음과 같다.    collection.add(    documents=["doc1", "doc2", "doc3", ...],    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],    metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],    ids=["id1", "id2", "id3", ...] ) collection.query(    query_texts=["doc10", "thus spake zarathustra", ...],    n_results=10,    where={"metadata_field": "is_equal_to_this"},    where_document={"$contains":"search_string"} )   여기서, where의 metadata_field를 이용해 다음과 같은 조건 비교 연산이 가능하다.   $eq, $ne, $gt, $gte, $lt, $lte   그리고, 논리 연산자인 $and, $or를 지원한다. 크로마는 향후 워크플로, 가시화, 질의 계획, 분석 기능을 준비하고 있다.     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-10-07
AWS, 생성형 AI 서비스 ‘베드록’ 국내 정식 출시
아마존웹서비스(AWS)가 아시아 태평양(서울) 리전에 ‘아마존 베드록(Amazon Bedrock)’을 정식 출시한다고 발표했다. 아마존 베드록은 사용자가 특정 용도에 적합한 고성능 파운데이션 모델(FM) 및 거대언어모델(LLM)을 쉽게 찾고 접근할 수 있도록 하며, 생성형 인공지능(AI) 애플리케이션을 구축하고 확장할 수 있는 기능을 제공한다. AWS는 2023년부터 일부 지역을 시작으로 베드록 서비스를 제공해오고 있다. 이번 AWS 아시아 태평양(서울) 리전의 아마존 베드록 정식 출시에 대해 AWS는 “국내 고객에게 생성형 AI를 활용한 혁신을 지원하고, 생성형 AI 애플리케이션을 실행하고 저장할 수 있는 위치에 대한 폭 넓은 선택지를 제공한다”면서, “최종 사용자에 더 가깝게 생성형 AI 워크로드를 배포하여 저지연 환경이 중요한 고객에게도 유용하다. 낮은 지연 시간은 실시간 콘텐츠 생성, 인터랙티브 사용자 경험, 실시간 대화형 인사이트와 같은 AI 작업에 필수적인 빠른 처리 및 응답 시간을 제공하는 데 특히 중요하다”고 설명했다. 국내 기업들은 생산성 향상, 혁신적인 사용자 경험 제공, 업무 재구상 등 다양한 목적으로 생성형 AI를 사용하고 있다. 아마존 베드록은 완전 관리형 서비스로, 고객에게 엔터프라이즈급 보안과 개인정보 보호로 구축된 고성능 모델과 강력한 모델 커스터마이즈 기능을 제공한다. 또한, AWS는 고객이 책임감 있고 안전한 생성형 AI 혁신을 발전시키는 데 필요한 툴과 리소스, 교육을 제공한다. 국내 고객은 아마존 타이탄(Amazon Titan)의 텍스트 임베딩 v2(Text Embeddings v2), 앤스로픽(Anthropic)의 클로드3.5 소네트(Claude 3.5 Sonnet)와 클로드3 하이쿠(Claude3 Haiku) 등의 최신 모델을 이용할 수 있다. AWS는 국내 다양한 산업 분야의 고객사와 파트너를 보유하고 있으며, 이들이 생성형 AI를 통해 혁신을 이뤄낼 수 있게 지원하고 있다고 전했다. GS리테일은 아마존 베드록을 활용해 클로드 3 멀티모달 모델 기반 차세대 패션 상품 검색 시스템을 구축했다. 이를 통해 GS SHOP의 700만 개 이상의 패션 상품 데이터에서 속성을 자동으로 추출하고 분류할 수 있게 되었으며, 그 결과 비용을 줄이면서 검색 정확도는 향상되었다.  센드버드(Sendbird)는 금융, 커머스, 미디어, 게임 등의 산업에 대규모 오픈채팅 및 그룹 메신저 채팅 기능을 API 형태로 제공하는 국내 SaaS(서비스형 소프트웨어) 기업이다. 아마존 베드록을 통해 센드버드는 더욱 빠르게 새로운 생성형 AI 모델을 도입할 수 있었고, 데이터 및 비용 관리 문제에서도 경쟁력 있는 대안을 제시함으로써 센드버드 챗봇 제품의 경쟁력을 높일 수 있었다.  식신(Siksin)은 모바일 식권 서비스와 맛집 정보 서비스를 제공하는 푸드테크 기업으로, AWS의 인프라를 활용한 LLM 기반의 AI 대시보드 ‘외식메타 인덱스’를 구축했다. 이는 아마존 베드록을 통해 클로드 3.5 소네트 모델을 사용했으며, 식신이 보유한 100만개 이상의 맛집 데이터 및 월간 350만명의 이용자의 데이터 그리고 금융, 공공 검색, SNS 분석 정보 등 다양한 이기종 데이터를 통합 분석할 수 있었다.  외국인 대상 통번역 지원 서비스를 제공해 온 비영리 단체 bbb코리아는 아마존 베드록을 통해 앤스로픽의 클로드 3.5를 활용해 통역 내용 요약 및 분석을 수행하고 있다. bbb코리아는 AWS를 활용해 통역 내용 분석을 위한 자동화된 파이프라인 구축 시간을 단축하는 등 비용을 약 120% 절감했다.  AWS 코리아의 함기호 대표는 “AWS는 고객이 실험에서 생산 단계에 이르는 생성형 AI 여정을 효율적이고 안전한 방식으로 가속화할 수 있도록 지원하고자 최선을 다하고 있다. 고객은 선택의 폭을 중요하게 생각하는데, 어떤 고객은 처음부터 구축하는 것을 선호하는 반면, 어떤 고객은 특정 사용 사례에 맞는 모델을 선호한다”면서, "아마존 베드록을 통해 모든 산업 분야의 고객이 생성형 AI 혁신을 가속화할 수 있도록 지원하게 되어 기쁘게 생각하며, AWS는 한국 내 기업들이 생성형 AI를 구축하는데 필요한 성능과 비용 효율적인 인프라를 제공할 것”이라고 말했다. 한편, AWS는 한국 전역에서 파트너 지원 프로그램, 스타트업 액셀러레이터, LLM 개발 프로그램 등에 투자해 국내 기업이 특화된 생성형 AI 에플리케이션을 더욱 쉽게 구축할 수 있도록 지원하고 있다고 소개했다. AWS는 혁신적인 생성형 AI 솔루션을 개발하는 스타트업을 선별하여 교육, 멘토링, 최대 2억 6200만원(미화 20만 달러) 상당의 AWS 크레딧을 제공하는 AWS 생성형 AI 엑셀러레이터 프로그램을 발표했다. 또한, AWS 크레딧, 기술 교육, 멘토링 및 네트워킹 기회를 제공해주는 AWS 정글 프로그램도 발표하며 스타트업 기업을 지원하고 있다.
작성일 : 2024-10-02
[무료다운로드] 오픈소스 LLaVA 기반 멀티모달 생성형 AI 서비스 만들기
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 챗GPT 4.0(ChatGPT 4.0)과 같은 LMM(Large langauge Multi-modal Model : 멀티모달 대규모 언어 모델)인 LLaVA(Large Language and Vision Assistant : 라바) 기반 멀티모달 생성형 AI 서비스 개발 방법을 설명한다.   ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | http://www.facebook.com/groups/digestpodcast   라바는 이미지 투 텍스트(Image To Text)와 같은 언어-이미지 시각 어시스턴스(Language-Image Visual Assistant)를 지원하기 위해 ViT(Visual Instruction Tuning : 시각적 지시 조정)을 기반으로 개발된 멀티모달 모델 오픈소스이다. 예를 들어, 이미지를 단순히 분류해 주는 것이 아닌, 이미지 내 특정 객체들을 인식하고 관계를 설명할 수 있는 기술을 지원한다.   그림 1. 단독 로컬 서버 PC에서 라바 서비스 모습   참고로, ViT는 이미지의 특정 위치에 대한 객체 정보를 인식할 수 있도록 학습하는 기술이다. 예를 들어, GPT-4는 특정 부분의 시각적 특징을 인코딩하기 위해 YOLO 모델과 같이 경계 상자를 사용하고, CLIP 모델과 같이 해당 부분에 대한 텍스트 임베딩을 입력하여 학습한다. Visual Instruction Tuning : https://arxiv.org/abs/2304.08485   그림 2. ViT의 개념   라바의 NeXT 버전은 구글 제미나이 프로의 성능을 능가했다고 밝혔으며, 이전 버전인 라바 1.5에 비해 이미지 해상도, OCR 기능 등이 개선되었다고 한다.    그림 3. 라바 아키텍처   이번 호에서는 Ollama를 이용해 라바 NeXT를 로컬 PC에서 실행하는 방법을 따라해 본다.    라바의 개요 라바는 대형 멀티모달 모델로, GPT-4.0과 유사한 LMM을 개발하고자 마이크로소프트 연구팀에서 오픈소스로 개발되었다. MS는 라바의 논문, 깃허브(GitHub) 코드, 데모 사이트 등을 공개하였다.  LLaVA Demo : https://llava.hliu.cc LLaVA paper(Visual Instruction Tuning - Microsoft Research) : https://www.microsoft.com/en-us/research/publication/visual-instruction-tuning 라바 LMM은 비전 인코더, LLM 모델을 기반으로 개발되었으며, 이미지 투 텍스트에서 인상적인 성능을 보여준다. 라바는 비전 인코더로 오픈AI(OpenAI)에서 공개한 CLIP 모델을 사용했으며, 메타(페이스북)에서 공개한 LLaMA 기반 Vicuna LLM 모델을 사용했다. 학습은 A100 GPU×8×1 Day 와 60만개 데이터셋을 사용했다. 라바를 설치하고 실행해 보기 위해서는 다음의 개발 환경이 컴퓨터에 미리 설치되어 있다고 가정한다.(우분투, 엔비디아, 쿠다 등의 설치 방법은 지난 연재를 참고하기 바란다.) NVIDIA driver, CUDA, Python, anaconda, Ubuntu 22.04 Tensorflow, PyTorch Ollama(https://ollama.com/download)     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-06-03
[무료다운로드] 오픈AI CLIP 모델의 이해/코드 분석/개발/사용
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 생성형 AI의 멀티모달 딥러닝 기술 확산의 계기가 된 오픈AI(OpenAI)의 CLIP(Contrastive Language-Image Pre-Training, 2021) 코드 개발 과정을 분석하고, 사용하는 방법을 정리한다.    ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 이메일 | laputa99999@gmail.com 페이스북 | www.facebook.com/laputa999 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | http://www.facebook.com/groups/digestpodcast CLIP은 구글이 개발한 자연어 번역 목적의 트랜스포머 모델, 비전 데이터 변환에 사용되는 VAE(Variational Autoencoder) 개념을 사용하여 멀티모달 학습 방식을 구현하였다. 이번 호에서는 그 과정을 설명하고 파이토치로 직접 구현하는 과정을 보여준다. CLIP을 이용하면 유튜브, 넷플릭스와 같은 영상에서 자연어로 질의해 해당 장면을 효과적으로 검색할 수 있다. 참고로, CLIP에서는 트랜스포머가 핵심 컴포넌트로 사용되었다. CLIP과 같이 트랜스포머가 자연어 번역 이외에 멀티모달의 핵심 기술이 된 이유는 비정형 데이터를 연산 가능한 차원으로 수치화할 수 있는 임베딩 기술의 발전과 트랜스포머의 Key, Query, Value 입력을 통한 여러 학습 데이터 조합이 가능한 특징이 크게 작용했다.    그림 1. 멀티모달 시작을 알린 오픈AI의 CLIP 모델(Learning Transferable Visual Models From Natural Language Supervision, 2021)   트랜스포머와 VAE를 이용한 멀티모달 CLIP 네트워크를 좀 더 깊게 파헤쳐 보도록 한다. 앞서 설명된 트랜스포머, 임베딩과 관련된 개념에 익숙하다면, CLIP을 이해하고 구현하는 것이 그리 어렵지는 않을 것이다.    CLIP에 대한 이해 오픈AI에서 개발한 CLIP 모델은 공유 임베딩 공간 내에서 이미지 및 텍스트 형식을 통합하는 것을 목표로 했다. 이 개념은 기술과 함께 이미지와 텍스트를 넘어 다른 양식을 수용한다.(멀티모달) 예를 들어, 유튜브 등 비디오 애플리케이션 내에서 텍스트 검색 성능을 개선하기 위해 공통 임베딩 공간에서 비디오 및 텍스트 형식을 결합하여 모델을 학습시켰다. 사실, 임베딩 텐서를 잠재 공간(Latent Space)으로 이기종 데이터를 변환, 계산, 역변환할 수 있다는 아이디어는 VAE 기술, 구글의 트랜스포머 논문(2017)을 통해 개발자들 사이에 암시되어 있었다. 이를 실제로 시도해본 연구가 CLIP이다.  참고로, CLAP(Contrastive Language-Audio Pretraining)은 동일한 임베딩 공간 내에서 텍스트와 오디오 형식을 통합하는 또 다른 모델로, 오디오 애플리케이션 내에서 검색 기능을 개선하는 데 유용하다. CLIP은 다음과 같은 응용에 유용하다. 이미지 분류 및 검색 : CLIP은 이미지를 자연어 설명과 연결하여 이미지 분류 작업에 사용할 수 있다. 사용자가 텍스트 쿼리를 사용하여 이미지를 검색할 수 있는 보다 다양하고 유연한 이미지 검색 시스템을 허용한다. 콘텐츠 조정 : CLIP은 부적절하거나 유해한 콘텐츠를 식별하고 필터링하기 위해 이미지와 함께 제공되는 텍스트를 분석하여, 온라인 플랫폼의 콘텐츠를 조정하는 데 사용할 수 있다. 참고로, 메타 AI(Meta AI)는 최근 이미지, 텍스트, 오디오, 깊이, 열, IMU 데이터 등 6가지 양식에 걸쳐 공동 임베딩을 학습하는 이미지바인드(ImageBind)를 출시했다. 두 가지 모달리티를 수용하는 최초의 대규모 AI 모델인 CLIP은 이미지바인드 및 기타 다중 모달리티 AI 시스템을 이해하기 위한 전제 조건이다. CLIP은 배치 내에서 어떤 N×N(이미지, 텍스트) 쌍이 실제 일치하는지 예측하도록 설계되었다. CLIP은 이미지 인코더와 텍스트 인코더의 공동 학습을 통해 멀티모달 임베딩 공간을 만든다. CLIP 손실은 트랜스포머의 어텐션 모델을 사용하여, 학습 데이터 배치에서 N개 쌍에 대한 이미지와 텍스트 임베딩 간의 코사인 유사성을 최대화하는 것을 목표로 한다.  다음은 이를 설명하는 의사코드이다. 1. img_en = image_encoder(I)   # [n, d_i] 이미지 임베딩 인코딩을 통한 특징 추출  2. txtxt_emdn = textxt_emdncoder(T)    # [n, d_t] 텍스트 임베딩 인코딩을 통한 특징 추출 3. img_emd = l2_normalize(np.dot(img_en, W_i), axis=1)    # I×W 결합(조인트) 멀티모달 임베딩 텐서 계산 4. txt_emd = l2_normalize(np.dot(txtxt_emdn, W_t), axis=1)  # T×W 결합(조인트) 멀티모달 임베딩 텐서 계산 5. logits = np.dot(img_emd, txt_emd.T) * np.exp(t)   # I×T * E^t 함수를 이용한 [n, n]코사인 유사도 계산 6. labels = np.arange(n) 7. loss_i = cross_entropy_loss(logits, labels, axis=0)  # 이미지 참값 logits과 예측된 label간 손실 8. loss_t = cross_entropy_loss(logits, labels, axis=1)  # 텍스트 참값 logits과 예측된 label간 손실 9. loss = (loss_i + loss_t)/2   # 이미지, 텍스트 손실 평균값   실제 오픈AI 논문에는 <그림 2>와 같이 기술되어 있다.(동일하다.)   그림 2     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-05-02