인공지능 판사 (LLM-as-a-Judge)
인간 평가자의 속도와 규모 한계를 극복하기 위해 인공지능을 활용해 다른 인공지능의 답변 품질과 안전성을 평가하는 방식
용례
"인공지능 판사는 대규모 평가를 가능하게 하지만, 때로는 실제 답변에 존재하지 않는 경고문을 만들어내거나 사실 여부를 확인할 도구 없이 허위 확신을 가지고 점수를 부풀리는 경향을 보임."
인간 평가자의 속도와 규모 한계를 극복하기 위해 인공지능을 활용해 다른 인공지능의 답변 품질과 안전성을 평가하는 방식
"인공지능 판사는 대규모 평가를 가능하게 하지만, 때로는 실제 답변에 존재하지 않는 경고문을 만들어내거나 사실 여부를 확인할 도구 없이 허위 확신을 가지고 점수를 부풀리는 경향을 보임."