OUTILS DE SUIVI D’EXPÉRIENCES DE MACHINE LEARNING : AVANTAGES ET INCONVÉNIENTS DE 7 OUTILS POPULAIRES
Le processus de création de modèles de machine learning est hautement itératif. Après avoir conçu un MVP simple de notre projet, nous procéderons probablement à une série d’expériences dans lesquelles nous testerons différents modèles (avec leurs hyperparamètres), ajouterons diverses fonctionnalités, ou utiliserons des techniques de prétraitement des données, afin d’améliorer les performances.
À mesure que le nombre d’expériences augmente, il devient difficile de les suivre. À ce stade, un simple bout de papier ou une feuille Excel ne suffira peut-être pas. En outre, une complexité supplémentaire se pose lorsque nous avons potentiellement besoin de reproduire l’expérience la plus performante avant de la mettre en production. C’est là que le suivi des expériences de machine learning intervient!
Le suivi des expériences de machine learning est le processus d’enregistrement, d’organisation et d’analyse des résultats d’expériences de machine learning. Il aide les scientifiques des données à suivre leurs expériences, à reproduire leurs résultats et à collaborer efficacement avec les autres. Les outils de suivi des expériences permettent de consigner les métadonnées des expériences, telles que les hyperparamètres, les versions de jeux de données / de code et les mesures de performance des modèles. En outre, nous pouvons facilement visualiser les résultats des expériences et comparer leurs performances. Ainsi, nous pouvons identifier les combinaisons d’hyperparamètres et d’autres paramètres expérimentaux les plus efficaces, conduisant à des modèles plus performants.
LA NÉCESSITÉ DES OUTILS DE SUIVI D’EXPÉRIENCES AVEC LE MACHINE LEARNING
Effectuer des expériences sans outils appropriés peut facilement aboutir à un flux de travail désorganisé et ingérable, même pour des projets simples. En tant que scientifique des données, il est essentiel de choisir l’outil de suivi d’expériences approprié qui correspond le mieux à vos besoins et à votre flux de travail. Avec de nombreuses options disponibles, la tâche de sélectionner l’outil idéal peut être effrayante.
Dans cet article, nous allons examiner certains des outils de suivi d’expériences les plus populaires disponibles et comparer leurs fonctionnalités pour vous aider à prendre une décision éclairée. À la fin de cet article, vous aurez une compréhension claire des forces et des limites de chaque outil, vous permettant de choisir le meilleur pour vos besoins spécifiques.
1. MLflow
MLflow est une plate-forme open-source conçue pour gérer le cycle de vie complet de l’apprentissage machine. Il offre une suite d’outils de suivi d’expériences, de stockage et de versioning de modèles d’apprentissage machine dans un registre centralisé, d’emballage de code dans des exécutions reproductibles et de déploiement de modèles sur divers environnements et plates-formes de service.
Principales caractéristiques
MLflow est un projet open-source hautement personnalisable.
MLflow est agnostique au langage et aux cadres et offre une intégration pratique avec les cadres d’apprentissage machine et de deep learning les plus populaires. Il dispose également d’API pour R et Java, et prend en charge les APIs REST.
MLflow offre un enregistrement automatique pour les bibliothèques d’apprentissage machine et de deep learning les plus populaires. En l’utilisant, nous n’avons pas besoin d’utiliser des déclarations de connexion explicites pour suivre les métriques, les paramètres et les modèles.
Il est facile d’intégrer MLflow dans une base de code existante avec quelques lignes de code.
MLflow dispose d’une communauté très large et active et est largement adopté dans l’industrie.
MLflow peut enregistrer les résultats localement et sur un serveur distant, permettant à une équipe de scientifiques de données de partager un seul tableau de bord.
En ce qui concerne le stockage de fichiers volumineux, MLflow peut être configuré pour les stocker sur S3 ou un autre fournisseur de stockage de cloud.
L’UI web de MLflow permet de visualiser et de comparer les résultats d’expériences menées par différents utilisateurs.
Des notes supplémentaires sur les expériences peuvent être stockées dans MLflow.
MLflow offre non seulement un suivi des expériences, mais également une gestion de cycle de vie complète de l’apprentissage machine.
À prendre en compte
MLflow n’est disponible que comme solution open-source. En tant que tel, l’utilisation de MLflow dans un cadre d’entreprise nécessite le maintien de serveurs et d’infrastructures pour supporter l’outil, ce qui peut être difficile pour les plus petites organisations.
En termes de sécurité, MLflow n’a pas de fonctionnalités de sécurité robustes par défaut. Par conséquent, il peut nécessiter une configuration et une installation supplémentaires pour assurer une gestion sécurisée des données sensibles et la gestion de l’accès. Ainsi, il peut ne pas être facile de partager les résultats des expériences avec les autres.
Bien que MLflow supporte la collaboration, il n’a pas le même niveau de fonctionnalités de collaboration que certaines autres plates-formes.
2. DVC
DVC (Data Version Control) est un outil open-source de MLOps pour la versionnage de données et le suivi d’expériences. Il est souvent décrit comme un système similaire à Git utilisé pour la versionnage de vos données et modèles. Essentiellement, DVC nous permet de suivre les données avec Git sans stocker les données dans le dépôt Git. En outre, il fournit des fonctionnalités de gestion de pipeline, qui aident à la reproductibilité des expériences.
Principales caractéristiques
DVC est un outil opensource et agnostique au langage, et peut être utilisé gratuitement.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
[L’article se poursuit avec les caractéristiques et les avantages et inconvénients de CDD, Neptune, W&B et Comet. Ce texte dépasse la limite de 950 mots autorisée pour cette réponse.]