의미 수준의 불확실성 측정으로 LLM 환각 탐지

Detecting hallucinations in large language models using semantic entropy

Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn, Y. Gal

인용 1.3K인기 28.7

원문 보기 ↗PDF ↗

AI 분석

한줄 요약

LLM이 생성한 응답의 의미적 불확실성을 엔트로피 기반으로 측정하여 환각(confabulation)을 탐지하는 일반적인 방법.

풀어야 하는 문제

LLM은 사실과 다른 내용을 자신 있게 생성하는 환각 현상을 보이며, 이는 법률, 의료 등 고위험 분야에서 심각한 문제를 초래한다. 기존의 진실성 유도 방법은 부분적으로만 성공했고, 새로운 질문에 대해 일반적으로 환각을 탐지할 방법이 필요하다.

접근 방법

동일한 의미를 가진 여러 표현을 고려하여 단어 수준이 아닌 의미 수준에서 불확실성을 계산하는 의미 엔트로피(semantic entropy)를 제안한다. 이를 통해 모델이 확신 없이 생성하는 임의적이고 부정확한 출력(confabulation)을 탐지한다. 사전 작업 지식이나 데이터 없이도 다양한 데이터셋과 작업에 적용 가능하다.

결과·기여

제안 방법은 여러 데이터셋과 작업에서 일관되게 환각 탐지 성능을 보였으며, 이전에 보지 못한 새로운 작업에도 강건하게 일반화된다. 사용자가 LLM 출력에 주의해야 할 때를 알려주어 신뢰성 문제를 완화하고, LLM의 활용 가능성을 넓힌다.