Sign in Subscribe

LLM-as-Judge

[AI Agent] LLM Evaluation Preview (5주차)

[AI Agent] LLM Evaluation Preview (5주차)

LLM/RAG 시스템의 품질을 숫자로 증명하는 평가 체계를 소개합니다. Golden Dataset, Calibration Dataset, LLM-as-a-Judge, RAGAS 메트릭을 통해 감에 의존하는 평가에서 데이터 기반 의사결정으로 전환하는 방법을 다룹니다.

[AI/ML] LLM as Judge를 통한 환각 제어 방법

[AI/ML] LLM as Judge를 통한 환각 제어 방법

LLM-as-Judge로 RAG 시스템의 환각을 탐지하되, Position Bias, Verbosity Bias 등 6가지 편향을 인식하고 Position Swapping, 다중 Judge 앙상블, 컨텍스트 직접 인용 등으로 평가 신뢰도를 높이는 실무 가이드입니다.