Trendar

“evaluation”

이 키워드와 관련된 논문 · GitHub · 뉴스를 한곳에 모았습니다.

논문 12

전체 →
  1. OpenAlex자연어·LLM인용 1.4K
    대규모 언어 모델의 발전과 활용에 대한 종합적 조사A Survey of Large Language Models
  2. Semantic Scholar자연어·LLM인용 920
    의사 수준의 의료 질문 답변을 위한 대규모 언어 모델Toward expert-level medical question answering with large language models
  3. Semantic Scholar자연어·LLM인용 1.6K
    지속적 수집으로 오염 없는 코드 LLM 평가 벤치마크LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
  4. Semantic Scholar자연어·LLM인용 553
    LLM의 수학적 추론 능력 한계를 밝힌 GSM-Symbolic 벤치마크GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
  5. OpenAlexML 방법론인용 128
    LLM을 재프로그래밍하여 시계열 예측 수행TimeLLM: Time Series Forecasting by Reprogramming Large Language Models
  6. OpenAlex에이전트인용 3K
    관찰 가능한 세계 설계로 LLM 시스템 신뢰성을 높이는 컴파일러 이론Affordance-Compiled Intelligence: Observable-Only Cognitive Impedance Matching for No-Meta LLM-Integrated Systems
  7. Semantic Scholar자연어·LLM인용 975
    대규모 언어 모델의 종합적 개요와 발전 방향Large Language Models: A Survey
  8. Semantic Scholar자연어·LLM인용 952
    코드 생성을 위한 대규모 언어 모델의 종합적 조사A Survey on Large Language Models for Code Generation
  9. OpenAlexML 방법론인용 49
    통증 유사 가소성과 분리적 감쇠로 지속 학습하는 SNNMaya-CL: Nociceptive Metaplasticity and Vairagya-Governed Heterosynaptic Decay for Continual Learning in Spiking Neural Networks
  10. OpenAlex기타인용 50
    morphe-metrics: A Stateless Python Library for Morphogenetic Computing Evaluation
  11. OpenAlex기타인용 49
    cl-metrics: A Stateless Python Library for Continual Learning Evaluation with SNN Energy-Aware Extensions
  12. Semantic Scholar인용 493
    LLM 탈옥 공격 평가를 위한 오픈 벤치마크JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models