RAG 평가 [AI Agent] LLM Evaluation Review (5주차) 생성형 AI 시대, 데모 제작은 빨라졌지만 검증 체계 구축이 더 중요해졌습니다. Golden Dataset, LLM-as-a-Judge, RAGAS를 활용한 체계적 평가 방법으로 RAG 시스템의 검색과 생성을 분리 평가하고, 평균이 아닌 실패 패턴 분석으로 운영 가능한 구조를 설계하세요.
RAG [AI Agent] LLM Evaluation Preview (5주차) LLM/RAG 시스템의 품질을 숫자로 증명하는 평가 체계를 소개합니다. Golden Dataset, Calibration Dataset, LLM-as-a-Judge, RAGAS 메트릭을 통해 감에 의존하는 평가에서 데이터 기반 의사결정으로 전환하는 방법을 다룹니다.