in

Entraîner ImageNet sans hyperparamètres avec la descente de gradient automatique | par Chris Mingard | Avril 2023


VERS UNE OPTIMISATION CONSCIENTE DE L’ARCHITECTURE

Les optimisateurs automatiques ont été développés pour entraîner des réseaux de neurones profonds sans avoir à ajuster de nombreux hyperparamètres. Cependant, le choix optimal du taux d’apprentissage est souvent cruciale et nécessite des recherches de grille coûteuses. Les chercheurs ont présenté Automatic Gradient Descent (AGD), capable d’entraîner une grande variété d’architectures et d’ensemble de données sans nécessiter de taux d’apprentissage. AGD n’a plus besoin de ces hyperparamètres et ne nécessite plus de calculs coûteux, accélérant ainsi considérablement le processus de formation d’un modèle. AGD est dérivé en caractérisant analytiquement l’interaction de l’architecture, des données, de la fonction de perte et des gradients. Il relie le changement dans la sortie du réseau de neurones au changement dans les poids pour une donnée et une architecture données. AGD utilise une étape de mise à jour qui peut être divisée en deux parties séparées. La première partie consiste en la calcul de eta, un “taux d’apprentissage automatique” qui échelonne la mise à jour de toutes les couches. Chaque couche est mise à jour en utilisant eta multiplié par la norme des poids de la couche, multiplié par les gradients normalisés, et divisé par la profondeur. AGD a été testé sur des architectures allant d’un réseau neuronal entièrement connecté (FCN) à ResNet-50 sur ImageNet-1K. Les performances de l’AGD sont similaires à celles d’Adam et de SGD. AGD permet de surmonter les limites des méthodes de recherche de grille, de se passer d’un taux d’apprentissage et est capable de s’adapter aux changements de taille de l’ensemble de données et d’architecture. Cependant, il est à noter que AGD ne résout pas complètement le problème de l’optimisation en profondeur et de la recherche de modèles optimaux, car d’autres hyperparamètres tels que la taille des lots et l’architecture doivent toujours être ajustés.

What do you think?

Written by Pierre T.

Leave a Reply

Your email address will not be published. Required fields are marked *

Synchronisation de Latitude avec Google Analytics – Une solution rapide pour synchroniser les anciennes et nouvelles données de Google Analytics

Larry Elder rejoint la course à la présidence républicaine de 2024.