대규모 언어 모델의 근본적 한계: 텐센트 CL-벤치마크가 밝힌 실시간 문맥 학습 능력의 현주소
* 최첨단 대규모 언어 모델(LLM)이 기존 훈련 지식에 의존하여 실시간 문맥에서 새로운 정보를 습득하는 구조적 한계 * 도메인 지식 추론, 규칙 시스템 적용, 절차적 작업 실행, 경험적 발견 및 시뮬레이션을 포함하는 CL-벤치마크의 도입 및 평가 * 최고 성능 모델인 GPT-5.1(High)조차 23.7%의 성공률에 그치며, 문맥 무시 및 오용이 지배적인 오류 유형으로 확인 * 문맥 학습 능력 향상을 통해 LLM의 실제 환경 배포 성능을 개선하고, 인간의 역할을 '훈련 데이터 제공자'에서 '고품질 문맥 설계자'로 전환할 필요성 제시