1. 그리드 서치(Grid Search)
- 방법:
- 하이퍼파라미터의 모든 가능한 조합을 탐색.
- 사용자가 지정한 범위에서 모든 조합을 사용해 교차 검증 성능을 평가.
- 장점:
- 모든 조합을 테스트하기 때문에, 주어진 범위 내에서 최적의 하이퍼파라미터를 보장.
- 작은 검색 공간에서는 매우 효과적.
- 단점:
- 검색 공간이 커질수록 계산 비용이 매우 높아짐.
-
- 예: 3×3×33 \times 3 \times 33×3×3 조합이라면 27개의 모델 학습 필요.
- 비효율적: 일부 파라미터 조합이 성능에 거의 영향을 미치지 않을 수도 있음.
- 적합한 경우:
- 하이퍼파라미터 조합이 적거나, 실험에 충분한 계산 자원이 있는 경우.
- 주요 하이퍼파라미터를 탐색하는 초기 단계.
2. 랜덤 서치(Random Search)
- 방법:
- 사용자가 지정한 하이퍼파라미터 범위 내에서 무작위로 샘플링한 조합을 테스트.
- 지정된 반복 횟수만큼 임의의 조합으로 학습/평가.
- 장점:
- 고차원 검색 공간에서 효율적:
- 모든 조합을 테스트하지 않고도 우수한 성능의 파라미터를 찾을 가능성이 높음.
- 계산 비용이 낮음.
- 하이퍼파라미터가 중요한 영향을 미치는 조합을 더 빠르게 탐지 가능.
- 고차원 검색 공간에서 효율적:
- 단점:
- 최적의 조합을 보장하지는 않음.
- 지정된 반복 횟수에 따라 성능이 달라질 수 있음.
- 적합한 경우:
- 검색 공간이 매우 크거나, 계산 자원이 제한적인 경우.
- 빠르게 좋은 성능의 초기 모델을 찾고자 할 때.
3. Bayesian Optimization
- 특징: 이전 실험 결과를 기반으로 최적의 하이퍼파라미터를 탐색.
- 장점: 검색 공간이 매우 크거나, 계산 비용이 높은 경우 효율적.
- 라이브러리: Optuna, Hyperopt.(알고리즘 : Tree-structured Parzen Estimators(TPE) )
트리 구조 파젠 추정기(Tree-structured Parzen Estimator, TPE)는 베이지안 최적화 기법의 일종으로, 특히 복잡한 하이퍼파라미터 공간을 효율적으로 탐색하는 데 사용됩니다. 이는 하이퍼파라미터 최적화를 위해 널리 활용되는 방법 중 하나입니다.
핵심 개념:
- 베이지안 최적화: 목적 함수의 불확실성을 모델링하여 최적의 하이퍼파라미터를 찾는 방법입니다. 전통적으로 가우시안 프로세스를 사용하여 목적 함수의 출력을 모델링합니다.
- TPE의 접근 방식: TPE는 가우시안 프로세스와 달리, 주어진 목적 함수 값에 대한 하이퍼파라미터의 조건부 확률 분포인 p(λ∣y)p(\lambda \mid y)p(λ∣y)를 모델링합니다. 이를 통해 하이퍼파라미터 공간을 더 유연하게 탐색할 수 있습니다.
TPE의 작동 원리:
- 초기 샘플링: 초기 하이퍼파라미터 조합을 랜덤하게 선택하고, 각 조합에 대한 목적 함수 값을 평가합니다.
- 분포 추정: 얻어진 목적 함수 값들을 기준으로 하이퍼파라미터의 분포를 두 개로 나눕니다:
- l(λ)l(\lambda)l(λ): 성능이 좋은 하이퍼파라미터의 분포 (목적 함수 값이 임계값 y∗y^*y∗보다 작은 경우).
- g(λ)g(\lambda)g(λ): 성능이 나쁜 하이퍼파라미터의 분포 (목적 함수 값이 y∗y^*y∗ 이상인 경우).
- 새로운 샘플링: 이 두 분포를 기반으로, 다음 평가할 하이퍼파라미터 조합을 선택합니다. 주로 l(λ)l(\lambda)l(λ)에서 샘플링하여 더 나은 성능을 기대할 수 있는 영역을 탐색합니다.
- 반복: 위 과정을 반복하여 최적의 하이퍼파라미터 조합을 찾아갑니다.
장점:
- 계산 효율성: 가우시안 프로세스 기반의 베이지안 최적화에 비해 계산 복잡도가 낮아, 대규모 데이터나 복잡한 모델에서도 효율적으로 동작합니다.
- 유연성: 연속형 및 이산형 하이퍼파라미터뿐만 아니라, 조건부 의존성을 가진 하이퍼파라미터도 효과적으로 다룰 수 있습니다.
활용 예시:
TPE는 하이퍼파라미터 최적화 라이브러리인 Hyperopt와 Optuna에서 주요 최적화 알고리즘으로 사용됩니다. 이를 통해 머신러닝 모델의 성능을 향상시키기 위한 최적의 하이퍼파라미터 조합을 효율적으로 찾을 수 있습니다.
- Hyperopt:
- 특징: Random Search의 효율성을 높이기 위해 Tree-structured Parzen Estimators(TPE) 사용.
- 랜덤 서치보다 더 빠르게 좋은 결과를 찾음.
- Optuna:
- 특징: Bayesian Optimization 기반의 최신 하이퍼파라미터 튜닝 라이브러리.
- 학습 과정을 자동으로 조정하며, 탐색 공간을 점진적으로 최적화.
더보기
Tree-structured Parzen Estimators(TPE)
트리 구조 파젠 추정기(Tree-structured Parzen Estimator, TPE)는 베이지안 최적화 기법의 일종으로, 특히 복잡한 하이퍼파라미터 공간을 효율적으로 탐색하는 데 사용됩니다. 이는 하이퍼파라미터 최적화를 위해 널리 활용되는 방법 중 하나입니다.
핵심 개념:
- 베이지안 최적화: 목적 함수의 불확실성을 모델링하여 최적의 하이퍼파라미터를 찾는 방법입니다. 전통적으로 가우시안 프로세스를 사용하여 목적 함수의 출력을 모델링합니다.
- TPE의 접근 방식: TPE는 가우시안 프로세스와 달리, 주어진 목적 함수 값에 대한 하이퍼파라미터의 조건부 확률 분포인 p(λ∣y)p(\lambda \mid y)p(λ∣y)를 모델링합니다. 이를 통해 하이퍼파라미터 공간을 더 유연하게 탐색할 수 있습니다.
TPE의 작동 원리:
- 초기 샘플링: 초기 하이퍼파라미터 조합을 랜덤하게 선택하고, 각 조합에 대한 목적 함수 값을 평가합니다.
- 분포 추정: 얻어진 목적 함수 값들을 기준으로 하이퍼파라미터의 분포를 두 개로 나눕니다:
- l(λ)l(\lambda)l(λ): 성능이 좋은 하이퍼파라미터의 분포 (목적 함수 값이 임계값 y∗y^*y∗보다 작은 경우).
- g(λ)g(\lambda)g(λ): 성능이 나쁜 하이퍼파라미터의 분포 (목적 함수 값이 y∗y^*y∗ 이상인 경우).
- 새로운 샘플링: 이 두 분포를 기반으로, 다음 평가할 하이퍼파라미터 조합을 선택합니다. 주로 l(λ)l(\lambda)l(λ)에서 샘플링하여 더 나은 성능을 기대할 수 있는 영역을 탐색합니다.
- 반복: 위 과정을 반복하여 최적의 하이퍼파라미터 조합을 찾아갑니다.
장점:
- 계산 효율성: 가우시안 프로세스 기반의 베이지안 최적화에 비해 계산 복잡도가 낮아, 대규모 데이터나 복잡한 모델에서도 효율적으로 동작합니다.
- 유연성: 연속형 및 이산형 하이퍼파라미터뿐만 아니라, 조건부 의존성을 가진 하이퍼파라미터도 효과적으로 다룰 수 있습니다.
활용 예시:
TPE는 하이퍼파라미터 최적화 라이브러리인 Hyperopt와 Optuna에서 주요 최적화 알고리즘으로 사용됩니다. 이를 통해 머신러닝 모델의 성능을 향상시키기 위한 최적의 하이퍼파라미터 조합을 효율적으로 찾을 수 있습니다.
'머신러닝, 딥러닝' 카테고리의 다른 글
| [논문 매일 읽기 2일차] Deep learning (0) | 2024.12.18 |
|---|---|
| [논문 매일 읽기 1일차] Sequence to Sequence Learning with Neural Networks (1) | 2024.12.12 |
| 그래디언트 부스팅 결정 트리 모델 (0) | 2024.12.05 |
| 회귀 모델 평가 지표(MAE, MSE, RMSE) (0) | 2024.12.05 |
| KFold, Stratified KFold (0) | 2024.12.05 |