LLM이 언어 대신 연속 잠재 공간에서 추론하도록 학습

Training Large Language Models to Reason in a Continuous Latent Space

Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, J. Weston, Yuandong Tian

인용 564인기 25.3

원문 보기 ↗

AI 분석

한줄 요약

LLM이 언어 토큰 대신 연속적인 잠재 상태(continuous thought)를 직접 다음 입력 임베딩으로 사용해 추론하는 새로운 패러다임을 제안한다.

풀어야 하는 문제

기존 chain-of-thought(CoT) 추론은 언어 공간에서 이루어지는데, 대부분의 단어 토큰은 텍스트의 일관성을 유지하는 데만 필요하고 추론에 필수적이지 않다. 또한 중요한 추론 단계는 복잡한 계획을 요구하지만 언어 토큰은 이를 표현하기에 비효율적이다.

접근 방법

Coconut(Chain of Continuous Thought)은 LLM의 마지막 은닉 상태를 '연속적인 생각'으로 간주하고, 이를 단어로 디코딩하지 않고 다음 입력 임베딩으로 직접 피드백한다. 이렇게 하면 모델이 언어 토큰의 제약 없이 잠재 공간에서 추론할 수 있다. 또한 연속적인 생각은 여러 대안을 동시에 인코딩할 수 있어, CoT의 결정론적 경로 대신 너비 우선 탐색(BFS)과 유사한 추론 패턴을 가능하게 한다.

결과·기여

논리 추론 과제(예: 프랭클린 문제)에서 Coconut은 CoT보다 높은 정확도를 달성했으며, 특히 계획 수립 시 탐색이 필요한 문제에서 두드러진 성능 향상을 보였다. 또한 추론 단계 수를 줄여 효율성도 개선했다. 이 연구는 LLM 추론이 반드시 언어 공간에 국한될 필요가 없음을 보여주며, 새로운 추론 패러다임을 제시했다.