반응형
- Document Type Classification: 17 종류의 문서 이미지의 클래스를 예측
- Start Date: 2024-04-11
- Final submission: 2024-04-23
├── configs
│ ├── architecture
│ ├── callbacks
│ ├── dataset
│ ├── hydra
│ ├── logger
│ ├── trainer
│ ├── tuner
│ ├── huggingface.yaml
│ ├── multimodal.yaml
│ └── timm.yaml
├── src
│ ├── architecture
│ ├── datasets
│ ├── pipelines
│ ├── tuners
│ └── utils
└── main.py
- Train set: 1570장의 문서 및 차량 이미지
- Test set: 3140장의 문서 및 차량 이미지
- Image Augmentation
- Image Upscaling
- Test Time Augmentation
- OCR
- Image Augmentation: Albumentation 라이브러리 이용(Rotation/Flip/Noise/Blurring)
- Image Upscaling: stable-diffusion-x4-upscaler
- TTA: CV2를 이용한 Flip, Rotation 제거
- OCR: Paddle, Pytesseract
- Timm 라이브러리: Imagenet 22k / 1k pretrained model
- HuggingFace 라이브러리: Imagenet 22k / RVL-CDIP pretrained model / KLUE pretrained model
- 성능이 괜찮았던 모델들 위주로 Optuna를 이용하여 hyper-parameter tuning 진행
반응형
'AI' 카테고리의 다른 글
Bert모델 Fine-tuning: Single Sentence Classification Task (0) | 2024.05.30 |
---|---|
NLP 경진대회: 한국어 대화 요약 task (0) | 2024.05.30 |
(2024-04-05) Backbone 이해하기: AlexNet, VGG (0) | 2024.04.05 |
2024 AI Stages : ML Competition_House Price Prediction (0) | 2024.04.03 |
(2024-03-14) Hydra (1) | 2024.03.14 |