GitHub멀티모달프레임워크중요도 8Jupyter Notebook
물리 AI를 위한 세계 모델 오픈 플랫폼
NVIDIA/cosmos
★ 9.8K포크 625주간 +1.3K
AI 분석
한줄 요약
NVIDIA Cosmos는 물리 AI 개발을 위한 세계 모델, 데이터셋, 도구를 제공하는 오픈 플랫폼으로, Cosmos 3는 언어·이미지·비디오·오디오·행동을 통합 처리하는 옴니모달 세계 모델군이다.
핵심 기능
옴니모달 세계 모델: Mixture-of-Transformers 아키텍처로 언어, 이미지, 비디오, 오디오, 행동 시퀀스를 통합 처리 및 생성
Reasoner 표면: 텍스트와 비전 입력으로 세계 이해, 물리적 추론, 작업 계획, 행동 예측 등 수행
Generator 표면: 텍스트, 비전, 사운드, 행동 입력으로 이미지, 비디오, 동기화된 사운드, 행동 조건부 롤아웃 생성
행동 모델링: 로봇공학, 카메라 움직임, 자율주행 등에 대한 정책 행동, 역동역학, 순동역학 예측
연구 및 프로덕션 경로: Diffusers/Transformers로 개발 후 vLLM-Omni/vLLM으로 OpenAI 호환 서빙
포스트 트레이닝 지원: 파인튜닝 및 커스터마이징 기능 제공
언제 쓰나
로봇, 자율주행차, 스마트 인프라 등 물리 AI 시스템 개발 시 세계 모델이 필요할 때
비디오 이해 및 생성, 물리적 추론, 행동 예측 등 옴니모달 태스크를 통합적으로 처리해야 할 때
합성 데이터 생성, 정책 학습, 로봇 훈련을 위한 세계 시뮬레이션이 필요할 때