1. 갑상선암 진단 분류 해커톤의 2등 솔루션 코드 공유 핵심 아이디어(이진 분류)
( 출처 : https://dacon.io/competitions/open/236488/codeshare/12534 )
- OrdinalEncoder 사용 :
OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
=> handle_unknown 옵션을 사용해 test 데이터에만 존재하는 새로운 범주도 에러 없이 처리
- class_weight: 'balanced' :
데이터 불균형 문제를 해결을 위해 SMOTE 보다는 간단하게 class_weight 파라미터 사용
- Optuna :
목표 평가 지표를 binary_logloss가 아닌 binary_error 사용
Optuna 안에서 양성/음성 분류를 결정하는 임계값 또한 여러 임계값을 돌려서 최고의 f1 점수가 나오는 임계값을 선택
( 작성자가 볼때 이것이 핵심 아이디어 )
그 이후는 평범하게 5-fold soft voting.
2. 스트레스 점수 예측 대회
- 자동 피처 조합 서칭 방법
- 적은 데이터에서는 과적합 방지하기 위해서
5fold 할때 시드 바꿔가면서 하는 RepeatCV 해야함
1 검증낼때 5폴드 * 10seed 의 평균
대신 Optuna 튜닝 x
'머신러닝, 딥러닝' 카테고리의 다른 글
| [논문정리] Analyzing Learned Molecular Representations for Property Prediction (0) | 2025.07.15 |
|---|---|
| [논문 정리] Neural Message Passing for Quantum Chemistry(MPNN) (3) | 2025.07.07 |
| 명확한 평가 지표를 위한 핵심적인 기능 (0) | 2025.05.01 |
| [논문 매일 읽기 19일차] Llama 2: Open Foundation and Fine-Tuned Chat Models (0) | 2025.04.29 |
| [논문 매일 읽기 18일차] The Llama 3 Herd of Models (0) | 2025.04.29 |