논문 : https://arxiv.org/abs/2501.00663 제목 : Titans: Learning to Memorize at Test Time 발행일자 : 31 Dec 2024 저자: Ali Behrouz, Peilin Zhong , and Vahab Mirrokni
RNN 모델의 장기 의존성 처리 제약과 어텐션 모델의 O(n^2) 비용으로 인한 컨택스트 길이 제한을 극복하기 위해 어텐션(단기 메모리) + 뉴럴 메모리(장기 메모리) + 고정 메모리를 합친 "Titans" 모델 아키텍처를 제안.
1. 어탠션은 O(n^2) 비용이 있지만 그만큼 단기 정보에 대해서는 자세하게 표현해 줄 수 있음.
2. 뉴럴 메모리는 중요한 정보에는 surprise라는 weight를 줘서 ( Forget Rate = 1 - Surprise ) surprise가 큰 정보를 저장하는 "Surprised-Based Learning"과 불필요한 정보를 잊는 "Adaptive Forgetting"라는 두가지 방법을 사용하여 만든 장기 메모리이다. 모델 구조 순서에 따라 MAC/MAG/MAL 세 가지 구조를 제안했음.
( 이는 훈련할때 뿐만 아니라 테스트 시간에도 모델이 입력 데이터(기억)를 동적으로 업데이트한다는 특징이 있음.
훈련시키고 고정된 모델로 테스트를 하는게 아니라, 테스트 상황에 메모리 업데이트를 통해 모델을 계속 업데이트함.
=> 이를 통해 이전 컨택스트와 새 입력 간의 관계를 지속적 학습 => 긴 컨택스트를 극복 가능해짐)
3. 고정 메모리는 특정 태스크에 따라 훈련시켜 파라미터값을 고정시켰음.(기존의 방법대로 모델을 훈련 시킨 후, 고정된 모델로 테스트만 진행.)
긴 컨택스트 처리면에서 모든 모델을 뛰어넘는 엄청난 성능을 보임( Needle-in-a-Haystack task )