KBS 한국어능력시험 2주 독학 3+ 성취 후기와 파트별 공부법
2주 독학 공부 조직 일지 공개 큰 콘텐츠를 탐색하고 수많은 리소스를 검토한 결과, 저는 KBS 한국어능력시험에서 2주 독학으로 3 점수를 이루는 것이 가능하다는 결론을 내렸습니다. 이 과정에서는 현실적인 공부 조직 계획, 효과적인 공부법, 계속적인 노력이 필수적이었습니다. 정식으로 공부를 시작하기 전에, 저는 시험 구조를 철저히 이해하고 각 파트에 어떤 유형의 문제가 나오는지 파악했습니다. 이는 제 공부를 집중시키고 제 시간 내에 요청 사항을 충족하는 데 도움이 되었습니다.
또한, 저는 학습 목표를 세부적이고 스마트하게 설정하여 성과 가능한 단계로 나누었습니다. 매일 5시간 이상 공부하는 엄격한 스케줄을 따랐습니다. 저는 파트별로 집중하여 한 번에 한 파트씩 능숙도를 높였습니다.
Image Deblurring
흔들림이 적용된 이미지에 관하여 모델이 더 잘 학습할 수 있도록 Image Deblurring 기법을 활용하였으며 여기에는 위너 필터Wiener Filter를 사용하였습니다. Image Deblurring은 이미지에서 발생한 흐림 현상을 제거하는 기법으로 고전적인 컴퓨터 비전과 딥러닝 기법으로 나뉜다. 본 연구에서 활용한 위너 필터는 고전적인 컴퓨터 비전 기법으로, 본질적으로 주파수의 노이즈를 줄이기 위해 등장하였으며 이를 컴퓨터 비전에서 이미지의 노이즈를 감소시키는데에도 사용합니다.
좌측부터 하나하나씩 1 원본 이미지에 흔들림 기법을 적용한 이미지, 2 흔들림 기법을 적용한 이미지에 DeblurGAN 모델을 적용한 이미지, 3 흔들림 기법을 적용한 이미지에 위너 필터를 적용한 이미지입니다.
Dataset
Pretrain Dataset으로는 COCO Captioning 한국어 번역 데이터, FineTuning Dataset으로는 AI Hub의 시각정보 기반 질의응답과 생활 및 거주환경 기반 VQA 데이터를 사용하였습니다.
모델링을 하는데 있어 컴퓨팅 파워의 한계가 있어 원본 데이터에서 이미지 수를 줄여 실험을 진행하였습니다. COCO 데이터는 Train, Test 이미지를 약 30,000, 10,000 장으로 줄였고, AI Hub 데이터는 Train, Validation, Test 이미지를 약 20,000, 4,000, 4,000장으로 줄여 실험에 사용하였습니다.
제안 방법론
본 연구에서 제의하는 모델의 아키텍처는 과 같다. 처음 시각 장애인의 시각 정보를 반영하기 위해 이미지에 흔들림 기법을 적용한 후 모델 학습을 진행합니다. 둘째로 흔들림 기법이 적용된 이미지를 모델이 잘 학습하기 위해시각 장애인의 시각정보를 더 잘 학습하기 위해 Image Deblurring을 적용합니다. 셋째로 한국어 질의응답의 성능을 향상시키기 위해 Text Encoder로 한국어 사전학습 모델인 KoBERT와 KLUERoBERTa를 사용합니다.
이외의 기법은 과거 METER 모델의 방법론을 그대로 활용하였습니다.
FineTuning
Pretrain을 진행한 모델을 갖고 FineTuning을 진행하였습니다. 첫차례 데이터AI Hub 1는 10 Epoch로 진행하였으나 컴퓨팅 파워의 한계로 두차례 데이터AI Hub 2는 5 Epoch로 실험을 진행하였습니다. 필터 유무 실험은 3 Epoch 정도에서 성능을 비교하였습니다. FineTuning 성능 비교 두 가지 데이터를 갖고 FineTuning을 진행한 결과 기존의 모델보다. 본 연구에서 실험을 진행한 모델의 성능이 좋은 것을 확인할 수 있어요.
처음의 예측으로는 일반적으로 KoBERT보다. 성능이 좋다고 알려진 KLUERoBERTa를 사용한 모델의 결과가 모두 좋을 것이라고 예상하였으나, 두차례 데이터에서는 KoBERT 모델의 성능이 더 높은 것 또한 알 수 있었어요.
본 연구에서는 METER 모델의 구조를 기반으로 시각 장애인의 시각 정보와 한국어 NLP 모델을 활용하여 우리나라 시각 장애인들에게 도움이 될 수 있는 VQA 모델을 제안합니다. 시각 장애인의 시각 정보를 파악하기 위해 흔들림 기법 적용과 위너 필터를 활용하였고 한국어 NLP 모델로는 KoBERT 와 KLUERoberta를 사용하였습니다. 과거 VQA 모델 보다. 좋은 성능을 보였으며 기반이 된 METER 모델보다. 평균 9.97가량 높은 성능을 보였습니다.
자주 묻는 질문
Image
흔들림이 적용된 이미지에 관하여 모델이 더 잘 학습할 수 있도록 Image Deblurring 기법을 활용하였으며 여기에는 위너 필터Wiener Filter를 사용하였습니다. 더 알고싶으시면 본문을 클릭해주세요.
Dataset
Pretrain Dataset으로는 COCO Captioning 한국어 번역 데이터, FineTuning Dataset으로는 AI Hub의 시각정보 기반 질의응답과 생활 및 거주환경 기반 VQA 데이터를 사용하였습니다. 궁금한 사항은 본문을 참고하시기 바랍니다.
제안 방법론
본 연구에서 제의하는 모델의 아키텍처는 과 같다. 궁금한 사항은 본문을 참고하시기 바랍니다.