캐글

    NBME Score Clinical Patient Notes 솔루션 분석해보기 -Medical NLP

    참고한 대회 솔루션 NBME - Score Clinical Patient Notes | Kaggle www.kaggle.com NBME - Score Clinical Patient Notes | Kaggle www.kaggle.com 선 결론 후 내용 이전의 캐글에서도 느꼈지만 높은 점수를 내는 사람은 굉장히 많은 시도 후 피드백 과정을 통해서 성능을 검증하고, 점수를 축적해 나간다. 특히 어떠한 결과가 높은 성능을 나타냈다는 것을 기록한다는 것은, 1개의 변화마다 성능을 테스트 하고 검증한다는 것을 뜻한다. 크게 구분하면 피처 엔지니어링, 모델의 설계, 모델의 학습, 예측 정도로 나눌 수 있다. 피처엔지니어링 부분에서는 데이터, 도메인, 그리고 annotator에 대한 3단계에 대한 이해도를 높힌 상태..

    캐글로 알게 된 10가지

    스터디로 알게 된 것 Hugging face Datasets 라이브러리 dictionary 형식으로 dataset을 만드는 구조로 tensorflow와 pytorch형 dataset으로 자유롭게 형식을 변경할 수 있으며 필요시 Dataset 또한 편리하게 받을 수 있다. trainer와도 훈련이 가능하다 모델이 편향적이지 않게 기본적으로 K-fold를 사용한다 대부분 대회에서 seed를 고정하여 5fold를 적용하며 각각의 모델을 저장한다 Tensorflow로 Huggingface의 pretrained 모델을 불러와서 훈련을 시킬 때 gradient가 존재하지 않는다는 Warning이 뜨는데 실제 훈련 및 추론에선 정상 작동한다! 데이터 증강은 시도해볼만하지만 성능의 향상을 보장하진 않는다. backtr..