[SageMaker] SageMaker Jumpstart Evaluation(Ground Truth)을 구성하여 사람이 LLM 평가하기

Sagemaker Ground Truth 기능을 활용해 휴먼 피드백을 실행합니다.

[SageMaker] SageMaker Jumpstart Evaluation(Ground Truth)을 구성하여 사람이 LLM 평가하기
Photo by raf vit / Unsplash

개요

Amazon SageMaker Jumpstart Evaluation과 Ground Truth를 통해 LLM(Large Language Model)의 성능을 평가할 수 있습니다.
SageMaker 상의 Model evaluation은 AWS에서 기본적으로 제공하는 automation 평가를 제공하는데 해당 평가를 위해 Amazon SageMaker Clarify 기초 모델 평가(FMEval)를 사용하고 있습니다.이러한 경우 모델의 정확성이나 자연어 처리에 부족한 부분이 있어 실제 평가 데이터를 확인해보면 상당히 낮게 측정되는 것을 확인하였습니다.이러한 문제를 해결하기 위해 사람이 직접 LLM이 생성한 응답에 대해 다양한 파라미터로 측정할 수 있으며, 여러 사람이 작업할 수 있도록 환경과 평가를 위한 Web UI도 제공하고 있습니다.

평가 작업 생성하기

SageMaker Studio > Jobs > Model evaluation으로 이동하여 Evaluation a model을 클릭합니다.

1단계: 작업 정보 지정

작업에 대한 이름과 설명을 추가합니다.모델과 수행 중인 평가 유형을 설명하는 이름을 선택하세요. 
이 이름은 평가 결과 및 아티팩트가 생성된 후 저장하기 위한 폴더를 생성하는 데 사용됩니다.

2단계: 평가 파라미터 설정

평가 타입을 Human으로 변경합니다.

이후 다음과 같은 5개의 파라미터를 설정해야합니다.

  • 평가 유형
  • 평가하려는 모델 확인
  • 평가 지표(2개 이상의 지표일 수 있음) 및 해당 평가 데이터 세트
  • 평가 결과 목적지
  • 프로세스 구성

평가 유형은 다음과 같습니다.

  • Likert scale - individual
    • 1: 전혀 동의하지 않음
    • 2: 동의하지 않음
    • 3: 보통
    • 4: 동의함
    • 5: 매우 동의함
  • Thumbs up/down
    • 👍
    • 👎

모델이 받을 프롬프트 유형, 데이터 셋을 지정할 수 있습니다. 

  • 저장 위치 등록 후 IAM Role이 정상적으로 할당된 것을 확인하고 다음으로 이동합니다.

작업팀 생성

모델 평가 작업을 진행할 팀을 생성합니다.

  • 작업을 진행할 팀의 이름과 이메일 주소를 등록합니다
  • 하나의 프롬프트 당 몇 사람이 작업할 것인가를 등록할 수 있습니다.

이후 평가자를 위한 지침과 평가를 위한 UI를 확인할 수 있습니다.

우측 상단에서 평가를 위한 UI를 확인할 수 있습니다.

  • 실제 UI는 다음과 같이 구성됩니다.

이후 제출하게 되면 다음과 같이 초대 메일을 받을 수 있습니다.

LLM에서 평가를 위한 데이터 생성이 완료될 때까지 사용자에게 보이지 않습니다.

모델 평가 단계

설정한 지표를 평가하도록 구성되어 있는 것을 확인할 수 있습니다.생성된 Human 평가는 Sagemaker Ground Truth의 레이블링 인력 > 프라이빗 작업 인력에서 생성된 Human evaluation을 평가할 수 있습니다.해당 탭에서 추가적인 인원을 더 투입할 수 있지만, Number pf workers per prompt 등 사전 정의된 데이터를 통해 작업이 진행되므로 LLM 평가에 정의된 데이터를 따로 수정할 수 없고, 새로 생성하여 평가해야합니다.

그렇게 최종적으로 작업자가 생성된 작업의 평가를 완료하였다면 Jobs 메뉴에서 어떻게 평가되었는지 작업 결과를 확인할 수 있습니다.

마찬가지로 확인할 수 있습니다.