아이펠(AIFFEL)에서 비전공으로 통계데이터 활용 대회 수상 후기
1. 주제
자연어 기반 인공지능 산업분류 자동화
문장이 주어지며, 문장을 통해서 digit_1(대분류), digit_2(중분류), digit_3(소분류)를 예측하는 과제
2. 데이터
3. 평가방법
1차평가 : 예측값의 정확도를 기준으로 시상 인원의 2~3배수 선출
2차평가 : 1차 심사 대상자의 코드설명자료로 코드작성의 적정성 평가
4. 모델링 개요
비전공자가 대회에 수상하기 까지
시작은 아이펠(AIFFEL)과 함께
저는 비전공(영어통번역 학사, 마케팅 석사)로 6개월 전까지 사실상 인공지능에 대해서 전혀 모르는 상태였고, 최근 산업에 큰 영향을 미치고 있는 인공지능을 교육받고자 아이펠(AIFFEL) 인공지능 교육과정에 등록하게 되었습니다
코로나 시국으로 대부분 학교가 원격수업을 했었습니다. 아이펠(AIFFEL)에서도 이에따라 원격으로 진행하였는데, 정말 다행인 건 아이펠(AIFFEL)내에 LMS 시스템이 있기 때문에, 원격으로 했지만 배움에 큰 어려움은 없었습니다. 이미 자체 클라우드가 있기 때문에 컴퓨터 성능과 상관없이 LMS에 이론과, 코드가 함께 나와있는 페이지를 통해서 직접 실행하고 결과값을 확인하며 테스트를 진행해볼 수 있었기 때문이었습니다. 이 LMS 시스템과 함께 각 챕터의 저자가 적어주는 이론에 대한 내용을 학습하며 파이썬, 머신러닝, 딥러닝에 대한 기본을 익히고 이후 과정에서 비전과 자연어 처리 중 심화과정을 선택하게 됩니다. 저는 자연어처리 심화를 선택했고, 이 과정에서 자연어처리의 핵심이론인 Attention, Transformer, BERT 등에 대해서 배우게 되었습니다
배움에는 실전이 최고
어느 정도 자신감을 쌓은 이후에는 세계적으로 유명한 캐글에서 첫번째 대회를 치뤘는데요. 첫술에 배가 부를 순 없었지만 기초를 탄탄하게 쌓은 덕에 캐글에서 각 종 그랜드 마스터와 현업자들의 코드를 보면서 이해하고 제것으로 만드는 과정을 거칠 수 있었습니다.
이 후 자신감이 생긴 저는 배운 기술을 국내에서도 활용해보고자 국내 대회를 찾기 시작했고, 팀원들과의 협업을 경험해보기 위해 자연어처리 커뮤니티에서 팀원을 모집하고 대회를 진행하게 되었습니다
대회라 하면 굉장히 고급 기술들이 많은 것 같은(?) 기분이 들지만 진행하면서 느낀 것은 대부분은 결국 제가 배웠던 모든 것을 쏟아 낼 수 있느냐 없느냐에 대한 것이었습니다. 이 때 만약 이론으로만 배웠다면 다시 코드화 시키고 적용하는데까지 어려움이 있었겠지만, 이론과 실습으로 다져진 기초가 상당히 크게 작용했습니다. 이렇게 기초를 어느정도 다지고 나면 사실 자연어 처리, 그리고 classification의 절차 자체는 결국 비슷한 흐름으로 이어지기 때문에 그외에 커뮤니티에서 다뤄지는 다른 자연어 처리 코드에 대해서도 접근이 가능하고, 이 때 캐글에 쌓인 자연어 처리 노트북을 참고하면 이전보다 한결 코드를 소화하기 수월하며, 특히 커스텀해서 내것으로 만드는 것이 가능해집니다. 저는 이 시점에서 허깅페이스에 있는 모델을 가져와 파인튜닝 하는 코드를 제 것으로 소화 했고, 필요한 Task에 따라 원하는 모델을 학습시키는 것이 가능했습니다.(허깅페이스를 다룰 수 있다면 누구나 가능 할 겁니다 ㅎㅎ)
인공지능이 뭔지 모르지만 도전하려는 분들에게
비전공자 분들께서는 내가 무엇을 모르는지, 무엇을 알아야 하는지, 어떤 순서로 알아야 하는지 무엇이든 깜깜한 상황에서 시작을 하게 됩니다. 따라서 등대가 되어줄만한 길잡이가 필요하실거고, 구글링이나 스택오버플로우에서 필요한 지식을 찾아다 쓰는 과정 이전에 가장 기초적인 지식이 필요하실 겁니다. 따라서 혼자 방황하면서 학습 하시는 것 보다, 아이펠(AIFFEL)과 같은 부트캠프를 선택해서 공부 방향을 잡으시길 바라며, 그 과정에서 하고 싶은 공부 방향을 잡으시고나면 이제부턴 스스로도 길을 가실 수 있으시리라 믿습니다. 다른 부트캠프에 대해서는 잘 알지 못하지만 아이펠(AIFFEL)은 제가 직접 해봤기 때문에 궁금하신 점은 질문하시면 댓글로 남겨드리도록 하겠습니다
읽어주셔서 감사합니다