Analyse de l‘esthétique faciale basée sur le réseau neuronal convolutif (CNN) grâce à des pertes dynamiques robustes et à la régression d’ensemble

La recherche de la beauté a été poursuivie par l’humanité depuis ses débuts. La tentative de percer le secret de la beauté a été un objectif pour les philosophes, les artistes et les scientifiques tout au long de l’histoire de l’humanité. Aujourd’hui, la beauté du visage suscite encore plus d’intérêt en raison du développement rapide de la chirurgie plastique et de l’industrie cosmétique. Au cours de la dernière décennie, plusieurs études ont montré que l’attractivité du visage peut être apprise par des machines. En effet, la prédiction de la beauté du visage est une tâche sophistiquée, même pour l’homme, car pour un même visage, différentes personnes peuvent donner des notes de beauté différentes. Ainsi, la prédiction de la beauté du visage (FBP) a un biais subjectif élevé. D’autre part, de grandes données étiquetées sont nécessaires pour créer un système efficace d’apprentissage automatique pour la prédiction de la beauté faciale, en particulier pour les méthodes d’apprentissage profond.

L’objectif de ce travail est de tirer parti des progrès des architectures de Deep Learning pour fournir une estimation stable et précise de la beauté des visages à partir d’images de visages statiques.

Dans ce travail, nous proposons un système qui exploite la diversité des apprenants comme le montre la figure 1. Nous présentons deux propositions principales. Premièrement, nous proposons de combiner deux architectures CNN différentes en une seule architecture (appelée architecture à deux branches) qui est formée de bout en bout. Deuxièmement, nous proposons de construire un ensemble de régressions où la prédiction finale est donnée par la moyenne de toutes les prédictions. Cette dernière solution n’a pas besoin d’être entraînée sur de nouveaux ensembles de validation. Plus précisément, nous proposons des régressions d’ensemble utilisant des architectures à une branche (ResneXt-50 et Inception-v3) et notre architecture à deux branches (REX-INCEP) entraînées avec différentes fonctions de perte. Quatre fonctions de perte sont utilisées dans notre approche, à savoir MSE, ParamSmoothL1 dynamique, Huber dynamique et Tukey dynamique.

Notre approche est évaluée sur la base de données SCUT-FBP5500 en utilisant les deux scénarios d’évaluation fournis par les créateurs de la base de données : 60 %-40 % et validation croisée à cinq reprises. Dans les deux scénarios d’évaluation, notre approche surpasse l’état de l’art sur plusieurs métriques. Ces comparaisons soulignent l’efficacité des solutions proposées pour la FBP. Elles montrent également que les pertes dynamiques robustes proposées conduisent à des estimateurs plus flexibles et plus précis (https://github.com/faresbougourzi/CNN-ER_for_FBP).

Ce travail collaboratif est réalisé par plusieurs équipes de recherche de :

  • Institut des sciences appliquées et des systèmes intelligents, Conseil national de la recherche d’Italie, Lecce, 73100, Italie. ( Dr Fares Bougourzi, PostDoc)
  • Université du Pays Basque UPV/EHU, San Sebastian 20018, Pays Basque, Espagne, IKERBASQUE, Fondation Basque pour la Science, Bilbao, 48012, Pays Basque, Espagne (Pr Fadi Dornaika).
  • Université Polytechnique Hauts-de-France, Université de Lille, CNRS, UMR 8520, Valenciennes, 59313, Hauts-de-France, France ( Pr Abdelmalik Taleb-Ahmed).

L’approche développée et les premiers résultats obtenus ont été publiés dans la référence [1].
 [1] F. Bougourzi, F. Dornaika, A. Taleb-Ahmed, Deep learning based face beauty prediction via dynamic robust losses and ensemble regression, Knowledge-Based Systems, Vol 242, pp 108246, 2022.

Figure 1 : Notre proposition d’approche EN-CNN.