본문 바로가기

분류 전체보기94

[RAG] AutoRAG 설명 RAG 대회에 참여하여 이런저런 실험을 하다가 AutoRAG에 대해 알게 되었다. 유튜브에 자세한 설명이 있어 관련 내용을 정리해본다(출처 아래 표기) AutoRAG를 구현하는 것도 간단해보이진 않지만,처음부터 AutoRAG를 사용하면 멍충이가 될 것 같아 나름의 삽질을 좀 더 해보다가 시도하기로.     베이스: BM25(그냥 쓰면 한국어에서는 잘 작동 X. 한국어형태소와 함께 사용해야)  좋은 한국어 임베딩 모델 사용하는 것이 중요  : 단락에 인덱싱 -> 정답 단락을 가져왔는지를 평가 검색후 선정한 단락 A, B, C가 retrieval gt A(정답 단락)과 일치하는가 생성한 답변 A가 generation gt B(생성해 놓은 정답)와 일치하는가 Q. GT를 어떻게 만드는가?  : LLM이 작성한.. 2024. 6. 24.
[RAG] Retrieval 평가지표 Recall- 출력갯수를 늘리면 recall 점수는 같이 상승 - 10개 추출할 때 보다 20개 추출할 때 원하는 정보를 포함할 가능성 높음  Precision- 하지만 출력갯수를 늘릴수록 precision은 감소 - 불필요한(상관없는) 정보가 많아질수록 hallucination 가능성도 증가 - 특정 도메인(법률, 금융 등)에서는 Recall 보다는 Precision이 더 중요 (모르면 그냥 모른다고 해야지 잘못된 정보(hallucination)를 제공하면 안된다)  NDCG / MAP / MRR: 순서를 고려(정답이 얼마나 높은 순위에서 나왔는가) NDCG(Normalized Discounted Cumulative Gain)- 이분법적인 구분 X- 더 관련있는 문서가 어떤 것인지 - 순위가 매겨진 검.. 2024. 6. 24.
[RAG] Hybrid Retrieval(matching + cosine similarity) 예전에 읽었던 랭체인 도서에서 RAG 구현에 대한 설명이 있었는데, 여기서는 sparse retrieval로 1차 필터링 한 후 -> dense retrieval로 최종 결과를 선정하였다. 나도 그 아이디어를 쫓아 Hybrid Retrieval을 구현해보고자 한다.    1. 문서 검색(Sparse Retrieval)     : 역색인을 이용한 검색. 단순 matching def sparse_retrieve(query_str, size): query = { "match": {"content": {"query": query_str}}} return es.search(index='test', query=query, size=size, sort='_score')  2. 유사도 검색(Dense Ret.. 2024. 6. 24.
Bert모델 Fine-tuning: Single Sentence Classification Task 모델에 입력되는 단일 문장의 종류를 분류하는 문제Task에 대해 모델을 평가하기 위한 데이터셋으로 CoLA (The Corpus of Linguisic Acceptability)를 사용CoLA는 문장마다 문법적으로 올바르거나 잘못된 것으로 레이블이 지정된 데이터평가지표는 Matthews correlation을 사용 하나씩 손코딩으로 따라 쳐보았다(소소한 오타때문에 에러남 ㅠㅠ) 눈으로만 봤을때는 이해한 줄 알고 그냥 지나쳤었는데 실제로 하나씩 타이핑해보니 모르는 부분이 많았고모르는 내용을 검색해가며 정리했다.  작성하고 나서 코드가 복잡해서 엑셀로 정리해 보았다(다이어그램을 그리려니 시간이 너무 오래걸림...) 엑셀로 모든 함수와 변수를 정리해보니 흐름이 이해가 되었다. 예를 들어, prepare_dat.. 2024. 5. 30.
NLP 경진대회: 한국어 대화 요약 task 2024. 5. 30.
Computer Vision 경진대회 1. Competiton InfoOverviewDocument Type Classification: 17 종류의 문서 이미지의 클래스를 예측TimelineStart Date: 2024-04-11Final submission: 2024-04-232. ComponentsDirectory├── configs│ ├── architecture│ ├── callbacks│ ├── dataset│ ├── hydra│ ├── logger│ ├── trainer│ ├── tuner│ ├── huggingface.yaml│ ├── multimodal.yaml│ └── timm.yaml├── src│ ├── architecture│ ├── datasets│ ├── pipelin.. 2024. 4. 26.
반응형