Semantic Scholar자연어·LLM벤치마크중요도 8International Conference on Learning Representations

1년 전

LLM의 수학적 추론 능력 한계를 밝힌 GSM-Symbolic 벤치마크

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Iman Mirzadeh, Keivan Alizadeh-Vahid, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

인용 553인기 25.3

AI 분석

GSM-Symbolic은 LLM의 수학적 추론 능력을 더 엄격히 평가하기 위해 설계된 벤치마크로, 기존 GSM8K의 한계를 드러내고 모델이 진정한 논리적 추론보다 패턴 매칭에 의존함을 보여준다.

GSM8K에서 LLM의 성능이 크게 향상되었지만, 이는 실제 수학적 추론 능력의 향상인지 아니면 데이터의 편향을 학습한 것인지 불분명하다. 기존 평가는 문제 변형에 대한 견고성을 측정하지 못해 신뢰할 수 있는 지표를 제공하지 못한다.

GSM-Symbolic은 기호 템플릿을 사용해 다양한 수치와 조건을 가진 문제를 자동 생성한다. 이를 통해 동일한 논리 구조에서 수치만 바꾸거나 불필요한 절을 추가하는 등 통제된 실험을 수행하여 모델의 추론 능력을 정밀하게 분석한다.

모든 최신 모델은 수치 변경 시 성능 변동이 컸으며, 불필요한 절 추가 시 최대 65%까지 성능이 하락했다. 이는 LLM이 진정한 논리적 추론보다 훈련 데이터의 표면적 패턴에 의존함을 강력히 시사하며, 향후 모델 평가 및 개선 방향에 중요한 통찰을 제공한다.