https://arxiv.org/abs/2006.02049
FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining (Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Bichen Wu, Zijian He, Zhen Wei, Kan Chen, Yuandong Tian, Matthew Yu, Peter Vajda, Joseph E. Gonzalez)
페북넷 v3. 그동안 모델 아키텍처만 깎았고 학습 세팅 깎기는 좀 뒷전이었음. 그러니 학습 세팅도 같이 깎아보자. dropout, stochastic depth, mixup을 도입해서 탐색하고 ema도 활용. 찾은 세팅은 다른 모델에도 유의미.
#nas #hyperparameter #training #swa