GitHub음성·오디오프레임워크중요도 7Python

170배 빠른 산업용 음성인식 툴킷, 화자 분리·감정 탐지·스트리밍 지원

modelscope/FunASR

★ 17.5K포크 1.8K주간 +709월간 +1.5K

AI 분석

FunASR는 산업 수준의 종단간 음성인식 툴킷으로, 50+ 언어, 170배 실시간 속도, 화자 분리, 감정 탐지, 스트리밍, OpenAI 호환 API를 제공한다.

고속 추론: Whisper 대비 최대 170배 빠른 실시간 처리

다국어 지원: 50개 이상 언어, 중국어 방언 포함

종단간 파이프라인: VAD → ASR → 화자 분리 → 감정 탐지 → 문장 부호를 단일 모델 호출로 처리

LLM 기반 ASR: Fun-ASR-Nano (SenseVoice + Qwen3-0.6B)로 31개 언어 최고 정확도

스트리밍 지원: 실시간 음성 인식

배포 용이: OpenAI 호환 API 서버, MCP 서버, vLLM 가속, 다양한 배포 매트릭스

실시간 회의록 자동 생성 및 화자 레이블링이 필요할 때

다국어 음성 인식 및 감정 분석이 필요한 콜센터, 인터뷰 분석

Whisper보다 빠른 추론이 필요한 프로덕션 환경

AI 에이전트(Claude, LangChain, Dify)와 음성 인터페이스 통합 시