본문 바로가기
RAG

[RAG] Retrieval 평가지표

by busybee-busylife 2024. 6. 24.
728x90

Recall

- 출력갯수를 늘리면 recall 점수는 같이 상승 

- 10개 추출할 때 보다 20개 추출할 때 원하는 정보를 포함할 가능성 높음 

 

Precision

- 하지만 출력갯수를 늘릴수록 precision은 감소 

- 불필요한(상관없는) 정보가 많아질수록 hallucination 가능성도 증가 

- 특정 도메인(법률, 금융 등)에서는 Recall 보다는 Precision이 더 중요

 (모르면 그냥 모른다고 해야지 잘못된 정보(hallucination)를 제공하면 안된다)

 

 

NDCG / MAP / MRR: 순서를 고려(정답이 얼마나 높은 순위에서 나왔는가) 

NDCG(Normalized Discounted Cumulative Gain)

- 이분법적인 구분 X

- 더 관련있는 문서가 어떤 것인지 

- 순위가 매겨진 검색 결과의 품질을 측정 

 

 

MAP(Mean Average Precision)

- 적합 문서가 다수일 때 

- 여러 쿼리에 대한 검색 시스템의 평균 성능을 측정

(상위 오류에 대해서는 가중치를 더 주고, 하위에 있는 오류에 대해서는 가중치를 적게)

- 적합성 유무가 이분법적으로 명확하게 구분되는 경우 

 

 

 

 

MRR(Mean Reciprocal Rank)

- 적합 문서가 1개 또는 소수일 때 

- 관련 문서가 몇 번째에 있는지에 중점 

- 첫 번째 관련 문서를 얼마나 빨리 찾는지를 측정 

 

 

 

 

 

 

Ref

UpstageAI Bootcamp 강의자료 

728x90