in

Prédiction dans différents modèles de régression logistique (Partie 1) | par Md Sohel Mahmood | Avr, 2023

[ad_1]
COMPRENDRE COMMENT EFFECTUER UNE ANALYSE DE PRÉDICTION EN UTILISANT LA R AVEC DIFFÉRENTS TYPES DE RÉGRESSION LOGISTIQUE

Introduction :
Au cours des articles précédents, nous avons abordé plusieurs types de régression logistique dont l’objectif est de prédire avec précision les données futures ainsi que les points de données intermédiaires. Dans cet article, nous allons voir comment cette analyse de prédiction peut être effectuée en utilisant la R pour une régression logistique simple et multiple en utilisant des données binaires et ordinales.

Ensemble de données :
Nous utiliserons l’ensemble de données adultes disponible dans le référentiel UCI Machine Learning dans le cadre de notre recherche. Les données collectées dans cet ensemble de données comprennent les données démographiques de plus de 30 000 individus. Les données comprennent la race, l’éducation, l’emploi, le sexe, le salaire, les heures travaillées par semaine, le nombre d’emplois occupés ainsi que le montant de leur revenu.

Régression logistique simple pour les données binaires :
Nous allons utiliser l’ensemble de données ci-dessus pour identifier deux variables qui peuvent être utilisées pour prédire le résultat binaire du revenu qui peut être soit supérieur à 59 000 dollars, soit inférieur à 50 000 dollars en utilisant les variables de niveau d’éducation et de statut matrimonial. Pour effectuer une analyse de prédiction, nous avons besoin de la bibliothèque ggpredict installée. Le premier commandement fournira les probabilités prédites pour la variable binaire « Bachelors ». Nous savons que la variable Bachelor peut avoir deux valeurs : 0 et 1. La R fournira les probabilités pour le revenu familial (également une variable binaire) pour être supérieur à 50 000 dollars pour les deux cas.

Régression logistique multiple pour les données binaires :
En utilisant l’ensemble de données ci-dessus, nous prendrons deux variables prédictives : le niveau d’éducation et le statut matrimonial pour prédire le résultat binaire du revenu qui peut être soit supérieur à 50 000 dollars, soit inférieur à 50 000 dollars. La question d’étude ici est : quelle est l’impact combiné du niveau d’éducation et du statut matrimonial sur le revenu ?

Régression logistique simple pour les données ordinales :
Parfois, nous pouvons avoir plus de 2 niveaux de réponse pour la variable de résultat qui est ordonnée. La variable de revenu familial que nous avons dans notre ensemble de données n’a que deux niveaux de résultats mais si la variable de réponse a plus de 2 résultats, la même approche peut être suivie.

Régression logistique multiple pour les données ordinales :
Dans la régression logistique ordinale, les variables prédictives peuvent être ordinales, binaires ou continues et la variable de réponse est ordonnée. Considérons l’exemple de la prédiction du revenu avec les niveaux d’éducation ordinaux qui n’ont que deux niveaux de réponses, par exemple. Nous pouvons avoir des niveaux d’éducation allant de la première année jusqu’à un doctorat et attribuer des nombres ordonnés pour chaque niveau. Il est également possible de prédire les niveaux de revenu en utilisant des variables binaires. En utilisant ce modèle, par exemple, nous pourrions attribuer 1 au nombre de personnes ayant un baccalauréat et 0 à ceux qui n’ont pas de baccalauréat. C’est un peu comme une variable ordonnée avec deux niveaux. Enfin, nous pouvons également prédire les niveaux de revenu avec des variables continues telles que les années d’éducation.

Conclusion :
Dans cet article, nous avons couvert la régression logistique simple et multiple pour les données binaires et ordinales en utilisant la R. Nous avons appris comment utiliser plusieurs options dans la bibliothèque ggplot pour effectuer l’analyse de prédiction. Nous avons constaté que les variables de niveau d’éducation, de statut matrimonial, de sexe et de race peuvent affecter considérablement les résultats de prédiction de la régression logistique.

[ad_2]

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

Les employés de Google qualifient le chatbot AI Bard “pire que inutile” et “menteur pathologique”.

Les produits chimiques interdits dans les climatiseurs et les réfrigérateurs font leur retour – et les scientifiques ne savent pas pourquoi.