LLM 추론 효율화를 위한 오버싱킹 문제와 해결 방안 종합 분석
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen 외
한줄 요약
LLM의 추론 효율성을 저해하는 오버싱킹 현상을 정의하고, 이를 해결하기 위한 다양한 접근법을 체계적으로 분류하여 정리한 최초의 서베이 논문이다.
풀어야 하는 문제
최신 대규모 추론 모델(LRM)은 복잡한 문제 해결을 위해 긴 Chain-of-Thought 추론을 사용하지만, 이로 인해 불필요하게 많은 토큰을 생성하고 연산 비용이 급증하는 '오버싱킹(overthinking)' 현상이 발생한다. 정확도 향상 대비 효율성 저하가 심각한 문제로 대두되었다.
접근 방법
저자들은 기존 연구를 세 가지 주요 방향으로 분류했다. (1) 모델 기반: 전체 추론 모델을 간결하게 최적화하거나 처음부터 효율적인 추론 모델을 학습. (2) 출력 기반: 추론 중 동적으로 추론 단계와 길이를 줄임. (3) 입력 프롬프트 기반: 입력의 난이도나 길이 제어를 통해 효율성을 높임. 또한 효율적 데이터를 활용한 추론 모델 훈련, 소형 언어 모델의 추론 능력, 평가 방법과 벤치마크도 함께 다룬다.
결과·기여
이 논문은 오버싱킹 문제에 대한 최초의 체계적 서베이를 제공하여 연구자들이 관련 분야를 종합적으로 이해하고 향후 연구 방향을 설정하는 데 기여한다. 또한 프로젝트 웹사이트를 통해 관련 연구를 지속적으로 업데이트할 예정이다.