GitHub멀티모달모델Python

스마트폰에서 초고속 이미지·영상 이해를 가능하게 하는 경량 MLLM

OpenBMB/MiniCPM-V

★ 25.6K포크 2K월간 +1.1K

AI 분석

MiniCPM-V는 스마트폰에서도 구동 가능한 초경량 멀티모달 언어 모델 시리즈로, 이미지·영상·텍스트 입력을 효율적으로 처리하며 최신 모델은 1.3B 파라미터로 경쟁 모델 대비 1.5배 빠른 속도를 제공합니다.

이미지·영상·텍스트 이해: 이미지, 비디오, 텍스트 입력을 동시에 처리할 수 있는 멀티모달 이해 능력

초고속 추론: LLaVA-UHD v4의 intra-ViT 조기 압축 기술로 시각 인코딩 연산 비용 50% 이상 절감, 혼합 4x/16x 시각 토큰 압축 지원

모바일 배포: iOS, Android, HarmonyOS 등 일반 모바일 플랫폼에서 실행 가능하며 엣지 적응 코드 공개

실시간 전이중 멀티모달 라이브 스트리밍 (MiniCPM-o 4.5): 출력(음성·텍스트)과 실시간 입력(비디오·오디오)이 서로 차단되지 않아 동시에 보고 듣고 말할 수 있음

스마트폰이나 태블릿 같은 모바일 기기에서 이미지·영상 기반 질의응답, 캡셔닝, 시각적 추론이 필요할 때

실시간 멀티모달 대화(예: 라이브 스트리밍 중 음성·영상 동시 처리)가 필요한 애플리케이션

클라우드 의존 없이 디바이스에서 직접 추론해야 하는 온디바이스 AI 시나리오