How to train face recognition models on millions of persons?

Первый слайд презентации: How to train face recognition models on millions of persons?

Evgeny Smirnov, Senior Researcher of S peech Technology Center

Изображение слайда

Слайд 2: Face recognition pipeline

Изображение слайда

Слайд 3: Face recognition pipeline

Изображение слайда

Слайд 4: Encoder training for face recognition

Изображение слайда

Слайд 5: Classifier-based training for face recognition

SphereFace, ArcFace, CosFace, D- Softmax, CurricularFace, etc.

Изображение слайда

Слайд 6: Classifier-based training on large datasets

Problem : Linear increase of memory and computation consumption with an increasing number of classes Classifier weights for millions of classes do not fit in ordinal GPU memory, and the loss function computation time is too large for practical use.

Изображение слайда

Слайд 7: Classifier-based training on large datasets

Изображение слайда

Слайд 8: Classifier-based training on large datasets

Изображение слайда

Слайд 9: Classifier-based training on large datasets

Изображение слайда

Слайд 10: Classifier-based training on large datasets

Изображение слайда

Слайд 11: Face recognition datasets

Zhu, Zheng, et al. "Webface260m: A benchmark unveiling the power of million-scale deep face recognition", CVPR 2021

Изображение слайда

Слайд 12: Face recognition datasets

Zhu, Zheng, et al. "Webface260m: A benchmark unveiling the power of million-scale deep face recognition", CVPR 2021

Изображение слайда

Слайд 13: Face recognition datasets

Zhu, Zheng, et al. "Webface260m: A benchmark unveiling the power of million-scale deep face recognition", CVPR 2021

Изображение слайда

Слайд 14: Sampled Softmax -based training

Sampled Softmax variants : D- Softmax -K ( He et al, 2020) PPRN ( An et al, 2020) Problems : Memory consumption GPU- To -CPU transfer Prototype obsolescence He, Lanqing, et al. " Softmax dissection : Towards understanding intra-and inter-class objective for embedding learning ", AAAI 2020 An, Xiang, et al. " Partial FC: Training 10 Million Identities on a Single Machine ", arXiv:2010.05222

Изображение слайда

Слайд 15: Memory consumption and GPU-to-CPU data transfer

GPU memory is fixed, but we still need to keep classifier weights ( prototypes ) for all classes in the dataset in the ( non -GPU) memory. We also need to transfer sampled classifier weights to GPU and back at each training iteration.

Изображение слайда

Слайд 16: Prototype obsolescence

Only sampled classifier weights are updated Others remain fixed between training iterations When the number of classes is large, individual classifier weights are sampled and updated too rarely, so they become obsolete and do not represent their classes correctly anymore

Изображение слайда