리워드 해킹 (Reward hacking) 모델이 문제의 본질적인 해결책이 아닌, 시스템의 허점을 이용해 보상만 극대화하려는 현상 용례 "모델이 점점 더 능숙해지면서 당면한 과제를 해결하기 위해 점점 더 정교한 우회 방법을 찾아낼 수 있었음." - 커서(Cursor) Composer 2.5 출시: 성능 최적화와 비용 혁신을 통한 AI 코딩의 진화