in

Prédiction dans différents modèles de régression logistique (Partie 2) | par Md Sohel Mahmood | Avril 2023

[ad_1]
STATISTIQUES EN SÉRIE R

Introduction

Dans des articles précédents, nous avons couvert des modèles de régression logistique pour les données binaires et ordinales, ainsi que la façon de les implémenter dans R. Nous avons également discuté de l’analyse de prédiction à l’aide des bibliothèques de R. Nous avons vu l’impact de prédicteurs simples et multiples sur la variable de réponse et l’avons quantifié. Les variables de réponse binaires et ordinales ont été utilisées pour montrer comment traiter différents types de données. Dans cet article, nous passerons en revue quatre autres analyses de prédiction pour les modèles de régression logistique, à savoir le modèle de régression ordonnée généralisée, le modèle de cotes partielles proportionnelles, le modèle logistique multinomial et le modèle de régression de Poisson.

JEU DE DONNÉES

Notre recherche utilisera le même jeu de données adulte du référentiel UCI Machine Learning comme étude de cas. Les données démographiques de plus de 30 000 personnes sont collectées dans ce jeu de données. Les données incluent la race, l’éducation, le travail, le sexe, le salaire, le nombre d’emplois occupés, le nombre d’heures travaillées par semaine et le revenu gagné de chaque individu. Les variables sous considération sont les suivantes:

– Éducation : numérique et continue. Le niveau d’éducation d’un individu peut grandement affecter sa santé.

– État civil : binaire (0 pour non marié et 1 pour marié). L’impact de cette variable sera très probablement minime, mais il a été inclus dans l’analyse.

– Sexe : binaire (0 pour femme et 1 pour homme). Il y a également la possibilité qu’il ait un impact moindre, mais il sera intéressant de le découvrir.

– Revenu familial : binaire (0 pour moyen ou inférieur à la moyenne et 1 pour supérieur à la moyenne). Les conditions de santé peuvent être affectées par cette variable.

– État de santé : ordinal (1 pour mauvais, 2 pour moyen, 3 pour bon et 4 pour excellent).

PRÉDICTION DANS LE MODÈLE DE RÉGRESSION ORDONNÉE GÉNÉRALISÉE

Considérons le cas où nous avons collecté des données sur des centaines d’individus. Parmi les données incluses figurent des informations sur l’éducation, l’âge, l’état civil, l’état de santé, le sexe, le revenu familial et l’état de l’emploi à temps plein de chaque individu. L’éducation, le sexe, l’état civil et le revenu familial seront inclus comme prédicteurs dans le modèle de régression pour l’état de santé. Sauf pour l’éducation, les prédicteurs sont tous binaires, ce qui signifie qu’ils ont soit une valeur de 0, soit une valeur de 1. L’éducation est une variable continue qui indique le nombre d’années qu’un individu a été éduqué.

Le modèle de régression ordonnée généralisée permet de prendre en compte l’effet de tous les niveaux de tous les prédicteurs. Le modèle de cotes partielles proportionnelles permet de prendre en compte l’effet de certains niveaux de tous/quelques prédicteurs.

Nous avons déjà implémenté les deux modèles dans des articles précédents. Maintenant, nous allons mettre en œuvre la procédure de prédiction à l’aide de ces modèles.

PRÉDICTION DANS LE MODÈLE DE COTES PARTIELLES PROPORTIONNELLES

Dans le modèle de cotes partielles proportionnelles, nous pouvons sélectionner les prédicteurs pour lesquels nous voulons faire varier l’effet des différents niveaux de résultats. Nous pouvons d’abord déterminer quels prédicteurs ne respectent pas l’hypothèse des cotes proportionnelles et ensuite placer ces variables après la commande “parallel=FALSE ~”. Ici, nous avons placé l’état matrimonial et le revenu familial comme prédicteurs violant cette hypothèse.

PRÉDICTION DANS LE MODÈLE DE RÉGRESSION MULTINOMIALE

Dans le modèle de régression multinomiale, nous estimons la probabilité qu’un individu tombe dans une catégorie spécifique par rapport à une catégorie de base en utilisant une approche de logit ou de cotes. Essentiellement, il s’agit d’une extension de la distribution binomiale lorsqu’il existe plus de deux résultats associés à la variable de réponse nominale. Dans le cadre de la régression multinomiale, nous devons définir une catégorie de référence, et le modèle déterminera différents paramètres de distribution binomiale en fonction de la catégorie de référence.

PRÉDICTION DANS LE MODÈLE DE RÉGRESSION DE POISSON

Parfois, nous devons traiter des données qui impliquent des dénombrements. Pour modéliser une variable de réponse de dénombrement, telle que le nombre de visites à un musée, nous avons besoin de la régression de Poisson. Le nombre de visites à l’hôpital ou le nombre de cours de mathématiques dispensés par un groupe particulier d’étudiants peuvent également servir d’exemples.

CONCLUSION

Dans cet article, nous avons couvert quatre analyses de prédiction supplémentaires pour les modèles de régression logistique, à savoir le modèle de régression ordonnée généralisée, le modèle de cotes partielles proportionnelles, le modèle logistique multinomial et le modèle de régression de Poisson. Nous avons également discuté de l’utilisation de la bibliothèque R pour mener à bien ces analyses de prédiction.

[ad_2]

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

Enseignant super – Plus efficace qu’un tuteur privé.

Dril est désormais sur Bluesky.