editoy

대규모 언어 모델의 근본적 한계: 텐센트 CL-벤치마크가 밝힌 실시간 문맥 학습 능력의 현주소

2/7/2026

토킹 포인트

  • 최첨단 대규모 언어 모델(LLM)이 기존 훈련 지식에 의존하여 실시간 문맥에서 새로운 정보를 습득하는 구조적 한계
  • 도메인 지식 추론, 규칙 시스템 적용, 절차적 작업 실행, 경험적 발견 및 시뮬레이션을 포함하는 CL-벤치마크의 도입 및 평가
  • 최고 성능 모델인 GPT-5.1(High)조차 23.7%의 성공률에 그치며, 문맥 무시 및 오용이 지배적인 오류 유형으로 확인
  • 문맥 학습 능력 향상을 통해 LLM의 실제 환경 배포 성능을 개선하고, 인간의 역할을 '훈련 데이터 제공자'에서 '고품질 문맥 설계자'로 전환할 필요성 제시

트렌드 키워드

  • 매개변수 지식 (Parametric Knowledge):

    대규모 사전 학습 과정 동안 모델의 가중치(Weights)에 압축되어 저장되는 고정된 형태의 정보. 모델이 추론 시 주로 이 정적이고 내부적인 기억을 회상하여 기능을 수행하며, 이는 실시간으로 제공되는 새로운 문맥을 흡수하는 능력과 대비되는 개념

    그들은 대규모 사전 훈련 실행 과정에서 가중치에 압축된 정보인 매개변수 지식에 주로 의존합니다.
  • 문맥 학습 (Context Learning):

    언어 모델이 사전 훈련된 지식에 의존하지 않고, 추론 시점에 사용자에게 제공된 문서, 데이터, 규칙 등 주변 정보(문맥)로부터 새로운 지식이나 규칙을 즉시 학습하고 적용하는 능력. 이는 개발자가 문서를 훑어보거나 과학자가 새로운 실험 기록을 분석하는 방식과 같은 인간의 실시간 학습 방식을 모방하는 것을 목표

    우리는 환경에서 즉시 흡수할 수 있는 것에 의존하는 문맥 학습자가 필요합니다.
  • CL-벤치 (CL-bench):

    현재의 대규모 언어 모델이 문맥에서 새로운 지식을 학습하고 이를 정확하게 적용할 수 있는지 테스트하기 위해 텐센트 화위안(Tencent-Hunyuan) 팀이 설계한 벤치마크. 500개의 복잡한 문맥, 1,899개의 작업, 31,607개의 검증 기준을 포함하며, 모델이 사전 훈련에 없는 지식을 문맥에서 반드시 학습해야만 해결할 수 있도록 설계된 것이 특징

    우리는 현재 모델이 진정한 문맥 학습자와 얼마나 거리가 먼지 평가하기 위해, 모델이 문맥에서 새로운 지식을 학습하고 그것을 올바르게 적용하는지 테스트하는 CL-벤치를 구축했습니다.
  • 귀납적 추론 (Inductive Reasoning):

    주어진 구체적인 데이터, 관찰 기록 또는 시뮬레이션 환경으로부터 일반적인 패턴, 법칙 또는 원리를 유추해내는 사고 과정. CL-벤치의 네 가지 시나리오 중 '경험적 발견 및 시뮬레이션' 범주에 해당하며, 명시적으로 주어진 규칙을 적용하는 연역적 추론보다 모델에게 훨씬 더 큰 난이도를 요구하는 영역으로, 첨단 모델들이 이 영역에서 10% 미만의 성공률을 보이며 취약성이 드러남

    연역적 추론이 포함된 이전 범주들과 달리, 이 범주는 귀납적 추론에 초점을 맞추고 있으며 가장 어려운 영역입니다.
  • 오염 방지 설계 (Contamination-free Design):

    벤치마크 데이터셋을 구축할 때 모델이 이미 사전 훈련 단계에서 해당 정보를 기억했는지(데이터 누출 또는 암기) 여부를 배제하기 위해 사용하는 방법론. 완전히 허구적인 내용 생성, 기존 내용의 변형, 틈새 또는 최근 등장한 콘텐츠 통합 등을 통해 순수한 문맥 학습 능력만을 평가하며, 이를 통해 문맥이 없을 경우 최신 모델의 성공률이 1% 미만임을 입증

    CL-벤치는 오염 방지 설계를 채택하여 성능이 암기나 데이터 누출이 아닌 문맥 학습을 진정으로 반영하도록 보장합니다.