LLM의 단답형 사실성 평가를 위한 벤치마크 SimpleQA

Measuring short-form factuality in large language models

Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, W. Fedus

인용 308인기 22.9

AI 분석

GPT-4 응답에 대해 적대적으로 수집된 단답형 사실 질문 벤치마크로, 모델의 사실성과 자신의 한계 인식 능력을 평가한다.

LLM의 사실성 평가는 기존 벤치마크가 포화되거나 채점이 어려운 문제가 있다. 특히 모델이 모르는 질문에 대해 답을 회피하는 능력을 측정하기 어렵다.

각 질문이 단 하나의 명확한 정답을 가지도록 설계하고, GPT-4가 틀린 질문을 적대적으로 수집하여 난이도를 높였다. 정답/오답/기권 세 가지로 채점하여 정확도와 기권률을 함께 평가한다.

SimpleQA는 현재 모델들이 어려워하는 수준의 난이도를 가지며, 모델의 사실성과 자신의 지식 한계 인식 능력을 동시에 측정하는 간단하고 효과적인 벤치마크를 제공한다.