GPQA Diamond
전문가 수준의 과학적 지식과 고도의 추론 능력을 검증하기 위해 고안된 인공지능 성능 평가 벤치마크
용례
"이 모델은 과학적 지식 평가에서 86.9퍼센트를 기록하며 이전 세대의 더 큰 모델들조차 능가하는 성능을 입증했습니다."
전문가 수준의 과학적 지식과 고도의 추론 능력을 검증하기 위해 고안된 인공지능 성능 평가 벤치마크
"이 모델은 과학적 지식 평가에서 86.9퍼센트를 기록하며 이전 세대의 더 큰 모델들조차 능가하는 성능을 입증했습니다."