Semantic Scholar자연어·LLM벤치마크중요도 8International Conference on Learning Representations
2년 전
지속적 수집으로 오염 없는 코드 LLM 평가 벤치마크
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama 외
인용 1.6K인기 29.6
AI 분석
한줄 요약
LiveCodeBench는 경쟁 코딩 플랫폼에서 지속적으로 문제를 수집해 데이터 오염 없이 LLM의 코드 능력을 종합 평가하는 벤치마크다.
풀어야 하는 문제
기존 코드 벤치마크(HumanEval, MBPP)는 정적 데이터로, 새로운 LLM이 등장할수록 데이터 오염(contamination) 위험이 커지고 코드 생성 외 다양한 능력(자가수리, 실행, 테스트 예측)을 평가하지 못한다.
접근 방법
2023년 5월부터 2024년 5월까지 LeetCode, AtCoder, CodeForces 대회에서 출제된 400개의 고품질 문제를 수집한다. 코드 생성, 자가수리, 코드 실행, 테스트 출력 예측 등 네 가지 시나리오를 평가하며, 모든 프롬프트와 모델 완성 결과를 공개한다.
결과·기여
18개 기본 LLM과 34개 명령어 튜닝 LLM을 평가해 데이터 오염 분석, 종합 성능 비교, 기존 벤치마크 과적합 가능성 등을 제시한다. 지속적 업데이트와 오픈소스 툴킷 제공으로 커뮤니티의 확장과 재현성을 지원한다.