[RAG] Retrieval 평가지표

728x90

- 출력갯수를 늘리면 recall 점수는 같이 상승

- 10개 추출할 때 보다 20개 추출할 때 원하는 정보를 포함할 가능성 높음

- 하지만 출력갯수를 늘릴수록 precision은 감소

- 불필요한(상관없는) 정보가 많아질수록 hallucination 가능성도 증가

- 특정 도메인(법률, 금융 등)에서는 Recall 보다는 Precision이 더 중요

(모르면 그냥 모른다고 해야지 잘못된 정보(hallucination)를 제공하면 안된다)

NDCG / MAP / MRR: 순서를 고려(정답이 얼마나 높은 순위에서 나왔는가)

- 이분법적인 구분 X

- 더 관련있는 문서가 어떤 것인지

- 순위가 매겨진 검색 결과의 품질을 측정

- 적합 문서가 다수일 때

- 여러 쿼리에 대한 검색 시스템의 평균 성능을 측정

(상위 오류에 대해서는 가중치를 더 주고, 하위에 있는 오류에 대해서는 가중치를 적게)

- 적합성 유무가 이분법적으로 명확하게 구분되는 경우

- 적합 문서가 1개 또는 소수일 때

- 관련 문서가 몇 번째에 있는지에 중점

- 첫 번째 관련 문서를 얼마나 빨리 찾는지를 측정

Ref

UpstageAI Bootcamp 강의자료

728x90

Barclays Bank와의 채팅 (1)	2024.07.24
[RAG] Information Retrieval 대회: 스코어가 안나온다... (0)	2024.06.26
[RAG] AutoRAG 설명 (0)	2024.06.24
[RAG] Hybrid Retrieval(matching + cosine similarity) (0)	2024.06.24

BusyBee