논문 정보 :
- 링크 : https://openreview.net/pdf?id=OQ08SN70M1V
- ICLR 2021(under review)
- Facebook Research
요약 :
- Pretrained 모델의 representation을 훼손하지 않으면서 fine-tuning을 잘 할 수있는 regularization 방법을 제안함
- 기존 방법들보다 속도가 빠르고 여러 task들에서 성능이 좋음
Learning Robust Representations Through Regularized fine-tuning
- Pretrained 모델을 특정 task에 맞게 fine-tuning 하면 representation의 generalizability가 훼손됨 : 그 상태로 다른 task에 대해 fine-tuning하면 pre-trained 모델을 fine-tuning할 때보다 성능이 낮아짐
- 따라서 pre-trained 모델의 변화량을 제한하는 여러 시도가 있었음
- 수식화 :
- 이 둘의 차이(KL divergence)를 제한
- p(f)를 알 수 없다… -> reformulation, approximation 등의 시도가 있어왔다.
- SMART(Jiang et al, 2019)
- FREELB(Zhu et al, 2019)
- 이 논문에서 제안하는 방법 : R3F
- g : fine-tuning 함수, f: pretraining 함수
- 전체적인 모델(g(f(x))의 변화량을 제한
- Forward-pass를 두 번 계산해야 한다 : g f(x+z)
하지만 기존의 기법들은 더 많은 계산이 필요하다.
- 추가 제약 : R4F
- 의미 : fine-tuning 함수 g의 변화량을 제한하여 f의 변화량도 제한한다.
- Lip(g) : 함수 g의 기울기의 상한값
Experiments
Conclusion
- 새로운 fine-tuning 방법을 제안했다. : R3F, R4F
- 이 방법은 pretrained representation의 generalizability를 유지했으며,
computationally efficient하고,
실험 결과도 SOTA를 보여주었다.
댓글 없음:
댓글 쓰기