Gérer les données d’échantillons amplifiés lors de la validation croisée | par Louis de Bruijn

[ad_1]
DEALING WITH BOOSTED SAMPLE DATA IN CROSS-VALIDATION

Les données déséquilibrées peuvent être un défi pour les modèles d’apprentissage automatique supervisé, car elles peuvent entraîner des performances prédictives médiocres, en particulier pour la classe minoritaire. Une solution à ce problème est l’utilisation de l’échantillonnage en cascade pour équilibrer les classes cibles pendant la collecte de données. Cependant, cette méthode peut provoquer un biais dans l’évaluation de la performance du modèle. En effet, lorsque les données upsamplées (boosted) sont incluses dans l’ensemble de test d’un modèle, cela peut conduire à une surévaluation de la précision de son évaluation. Dans cet article, nous présentons une mise en œuvre de la validation croisée en Python qui prend en compte les données d’échantillonnage en cascade pour éviter les biais dans l’évaluation de la performance du modèle. Les sujets abordés comprennent la classification déséquilibrée, l’échantillonnage aléatoire et en cascade, la fuite de données et l’implémentation en Python.

CLASSIFICATION DÉSÉQUILIBRÉE
La classification déséquilibrée se produit lorsqu’il y a une distribution biaisée des variables cibles, avec peu d’instances dans la classe minoritaire et beaucoup d’instances dans la classe majoritaire. Cette situation est courante dans le monde réel, où la plupart des problèmes sont déséquilibrés. Par exemple, il y a généralement beaucoup moins de retours de produits en ligne que d’achats, et il y a beaucoup moins de courriers indésirables qu’e-mails normaux.

ÉCHANTILLONNAGE ALEATOIRE ET EN CASCADE
Pour résoudre ce problème, l’échantillonnage en cascade est souvent utilisé pour cibler les étiquettes de classe minoritaire dans les ensembles de données déséquilibrés. En utilisant cette méthode, certaines instances ont plus de chance d’être choisies pour équilibrer les classes. Par exemple, on peut choisir de prélever des échantillons de personnes de moins de 30 ans car elles ont tendance à retourner leurs achats plus souvent que les personnes plus âgées. Cependant, si l’on ne tient pas compte de manière adéquate de ces données lors de la validation croisée du modèle, cela peut entraîner une surévaluation de la performance du modèle.

FUITE DE DONNÉES
Il est connu depuis longtemps que l’échantillonnage en cascade avant la division des données en ensembles d’apprentissage et de test entraîne une fuite de données, car les données upsamplées sont également présentes dans notre ensemble de test, ce qui rend la prédiction plus facile pour notre modèle. Toutefois, lorsqu’un échantillon de données pour notre modèle d’apprentissage supervisé contient des données upsamplées, nous souhaitons les utiliser pour entraîner notre modèle sur un ensemble de données plus équilibré afin qu’il apprenne les motifs dans les échantillons de classe minoritaire (même s’ils sont intrinsèquement biaisés).

IMPLÉMENTATION EN PYTHON
Dans cet article, nous avons présenté BoostedKFold, une implémentation en Python de la validation croisée qui prend en compte les données upsamplées (boosted) dans l’ensemble de données. Cette fonctionnalité permet de se concentrer sur l’apprentissage des motifs dans les échantillons de données upsamplées lors de l’entraînement du modèle, mais de les exclure de l’ensemble de données de test et de réduire ainsi les biais dans l’évaluation de la performance du modèle.

CONCLUSION
L’utilisation de l’échantillonnage en cascade est une méthode courante pour résoudre les problèmes de déséquilibre de classe dans les ensembles de données. Cependant, lors de la validation croisée des modèles, il est important de considérer les données upsamplées pour éviter les biais dans l’évaluation des performances des modèles. BoostedKFold est un outil utile et facile à utiliser pour inclure ou exclure les données upsamplées dans l’entraînement et dans l’ensemble de test, en évitant ainsi de fausser la performance du modèle.

[ad_2]