GitHubAI인프라도구중요도 8Jupyter Notebook

4GB GPU로 70B LLM 추론 가능하게 하는 메모리 최적화 도구

lyogavin/airllm

★ 19.7K포크 2.2K주간 +1.3K월간 +2.4K

AI 분석

AirLLM은 메모리 사용량을 최적화하여 4GB GPU에서 70B LLM을, 8GB GPU에서 405B 모델을 실행할 수 있게 하는 추론 도구다.

단일 GPU 메모리 한계를 극복하는 계층별 로딩 및 메모리 관리

양자화, 증류, 프루닝 없이도 대형 모델 추론 가능

8비트/4비트 양자화 지원으로 추가 메모리 절감

CPU 추론 지원 (비 GPU 환경)

다양한 모델 아키텍처 자동 감지 및 지원 (Llama, ChatGLM, Qwen, Mistral 등)

프리페칭으로 모델 로딩과 계산을 중첩시켜 10% 속도 향상

모델 압축 기능으로 3배 추론 속도 향상

고가의 고성능 GPU 없이 대형 언어 모델(70B, 405B)을 로컬에서 실행해야 할 때

제한된 VRAM 환경(4GB~8GB)에서 LLM 추론을 최적화하고자 할 때

클라우드 비용을 절감하면서 대규모 모델을 서빙해야 하는 연구자나 개발자