본문 바로가기
AI

Computer Vision 경진대회

by busybee-busylife 2024. 4. 26.
반응형

1. Competiton Info

Overview

  • Document Type Classification: 17 종류의 문서 이미지의 클래스를 예측

Timeline

  • Start Date: 2024-04-11
  • Final submission: 2024-04-23

2. Components

Directory

├── configs
│   ├── architecture
│   ├── callbacks
│   ├── dataset
│   ├── hydra
│   ├── logger
│   ├── trainer
│   ├── tuner
│   ├── huggingface.yaml
│   ├── multimodal.yaml
│   └── timm.yaml
├── src
│   ├── architecture
│   ├── datasets
│   ├── pipelines
│   ├── tuners
│   └── utils
└── main.py
 

3. Data descrption

Dataset overview

  • Train set: 1570장의 문서 및 차량 이미지
  • Test set: 3140장의 문서 및 차량 이미지

EDA

  • Image Augmentation
  • Image Upscaling
  • Test Time Augmentation
  • OCR

Data Processing

  • Image Augmentation: Albumentation 라이브러리 이용(Rotation/Flip/Noise/Blurring)
  • Image Upscaling: stable-diffusion-x4-upscaler
  • TTA: CV2를 이용한 Flip, Rotation 제거
  • OCR: Paddle, Pytesseract

4. Modeling

Model descrition

  • Timm 라이브러리: Imagenet 22k / 1k pretrained model
  • HuggingFace 라이브러리: Imagenet 22k / RVL-CDIP pretrained model / KLUE pretrained model

Modeling Process

  • 성능이 괜찮았던 모델들 위주로 Optuna를 이용하여 hyper-parameter tuning 진행
 

 

반응형