23년 이전 글/Kaggle
NBME Score Clinical Patient Notes 솔루션 분석해보기 -Medical NLP
참고한 대회 솔루션 NBME - Score Clinical Patient Notes | Kaggle www.kaggle.com NBME - Score Clinical Patient Notes | Kaggle www.kaggle.com 선 결론 후 내용 이전의 캐글에서도 느꼈지만 높은 점수를 내는 사람은 굉장히 많은 시도 후 피드백 과정을 통해서 성능을 검증하고, 점수를 축적해 나간다. 특히 어떠한 결과가 높은 성능을 나타냈다는 것을 기록한다는 것은, 1개의 변화마다 성능을 테스트 하고 검증한다는 것을 뜻한다. 크게 구분하면 피처 엔지니어링, 모델의 설계, 모델의 학습, 예측 정도로 나눌 수 있다. 피처엔지니어링 부분에서는 데이터, 도메인, 그리고 annotator에 대한 3단계에 대한 이해도를 높힌 상태..
캐글로 알게 된 10가지
스터디로 알게 된 것 Hugging face Datasets 라이브러리 dictionary 형식으로 dataset을 만드는 구조로 tensorflow와 pytorch형 dataset으로 자유롭게 형식을 변경할 수 있으며 필요시 Dataset 또한 편리하게 받을 수 있다. trainer와도 훈련이 가능하다 모델이 편향적이지 않게 기본적으로 K-fold를 사용한다 대부분 대회에서 seed를 고정하여 5fold를 적용하며 각각의 모델을 저장한다 Tensorflow로 Huggingface의 pretrained 모델을 불러와서 훈련을 시킬 때 gradient가 존재하지 않는다는 Warning이 뜨는데 실제 훈련 및 추론에선 정상 작동한다! 데이터 증강은 시도해볼만하지만 성능의 향상을 보장하진 않는다. backtr..
캐글 대회간 참조할 링크
앙상블에 대한 설명이 잘나와있음 https://subinium.github.io/introduction-to-ensemble-1/#:~:text=%EC%95%99%EC%83%81%EB%B8%94(Ensemble)%20%ED%95%99%EC%8A%B5%EC%9D%80%20%EC%97%AC%EB%9F%AC,%EB%A5%BC%20%EA%B0%80%EC%A7%80%EA%B3%A0%20%EC%9D%B4%ED%95%B4%ED%95%98%EB%A9%B4%20%EC%A2%8B%EC%8A%B5%EB%8B%88%EB%8B%A4. 앙상블 해야하는 이유에 대한 내용 https://jamm-notnull.tistory.com/16 lightGBM 파라미터 설명 http://machinelearningkorea.com/2019/..
[upstage] 캐글 그랜드 마스터 발표 정리
본 글은 해당 유튜브를 보고 앞으로 캐글 도전에 앞서 참고하기 위해 정리하는 글입니다 그 또한 코드 조차 모르던때가 있었으나 앤드류 응 교수님의 강의 및 Coursera 강의 위주로 지식을 습득하셨고 시작은 19년도 1월부터.. 기초는 코세라 강의를 통해 습득하고 이후 바로 대회를 시작하며 이후에는 필요한 지식에 한해서 인터넷에서 찾아봄 -> 필요할 때 찾아보기 때문에 효과적 Global Residency 좋은 장비 : 좋은 장비 부분에서 위와 같이 활용이 불가하다면 Colab Pro에서 TPU를 활용할 것을 추천 좋은 팀원 : 이 부분은 따라할 수가 없는 부분 다만 커뮤니티 채널을 열어두고 아이디어가 떠오를 때마다 공유하고 개선하는 점은 좋은 점이었음 의외로 수학은 나와있지 않다. 물론 서울대 출신이고..