Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 560 Bytes

200602 FBNetV3.md

File metadata and controls

7 lines (4 loc) · 560 Bytes

https://arxiv.org/abs/2006.02049

FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining (Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Bichen Wu, Zijian He, Zhen Wei, Kan Chen, Yuandong Tian, Matthew Yu, Peter Vajda, Joseph E. Gonzalez)

페북넷 v3. 그동안 모델 아키텍처만 깎았고 학습 세팅 깎기는 좀 뒷전이었음. 그러니 학습 세팅도 같이 깎아보자. dropout, stochastic depth, mixup을 도입해서 탐색하고 ema도 활용. 찾은 세팅은 다른 모델에도 유의미.

#nas #hyperparameter #training #swa