Analyse de survie : Utilisation de l'apprentissage profond pour la prévision du temps écoulé jusqu'à l'événement | par Lina Faik

APPLICATION PRATIQUE POUR LA RÉHOSPITALISATION : COMMENT LE DEEP LEARNING PEUT ÊTRE UTILISÉ DANS L’ANALYSE DE SURVIE

L’utilisation des modèles de survie est excellente pour prédire le temps nécessaire pour qu’un événement survienne. Ces modèles peuvent être utilisés dans une grande variété d’applications, y compris la maintenance predictive (prédire quand une machine est susceptible de tomber en panne), l’analyse marketing (anticiper la perte de clients), la surveillance des patients (prédire la probabilité qu’un patient soit réhospitalisé) et bien plus encore.

En combinant l’apprentissage automatique avec les modèles de survie, les modèles résultants peuvent bénéficier de la grande puissance prédictive du premier tout en conservant le cadre et les sorties typiques du dernier (telles que la probabilité de survie ou la courbe de risque au fil du temps). Toutefois, dans la pratique, les modèles de survie basés sur l’apprentissage automatique nécessitent encore une ingénierie de fonctionnalités étendue et donc une connaissance préalable de l’entreprise pour obtenir des résultats satisfaisants. Il est donc judicieux d’utiliser plutôt des modèles d’apprentissage en profondeur pour combler ce fossé.

OBJECTIF : PRÉDIRE LE RISQUE DE RÉHOSPITALISATION À L’AIDE DU DEEP LEARNING

Cet article se concentre sur la façon dont l’apprentissage en profondeur peut être combiné avec le cadre d’analyse de survie pour résoudre des cas d’utilisation tels que la prédiction de la probabilité qu’un patient soit réhospitalisé. Après avoir lu cet article, vous comprendrez :

– Comment l’apprentissage en profondeur peut être utilisé pour l’analyse de survie
– Quels sont les modèles courants d’apprentissage en profondeur dans l’analyse de survie et comment fonctionnent-ils
– Comment ces modèles peuvent être appliqués de manière concrète à la prévision des hospitalisations

PROBLÈME DE RECHERCHE

Le problème à résoudre consiste à prédire la probabilité qu’un patient donné soit réhospitalisé compte tenu des informations disponibles sur son état de santé. Nous souhaitons spécifiquement estimer cette probabilité à différents moments après la dernière visite. Un tel estimé est essentiel pour surveiller la santé des patients et atténuer leur risque de rechute.

MODÈLES DE DEEPSURV

Le modèle DeepSurv est un réseau neuronal feed-forward profond qui prédit les effets des covariables d’un patient sur son taux de risque paramétré par les poids du réseau θ. Le modèle est très flexible, comme cela est décrit dans l’article.

Cependant, le modèle de proportion de risques Cox (Cox proportional hazards model) assume que la fonction de risque h(x) est une fonction linéaire : h(x) = β . x. Ainsi, l’ajustement du modèle consiste à calculer les poids β pour optimiser la fonction objectif. Cependant, l’hypothèse de proportionnalité linéaire des risques ne s’applique pas dans de nombreux cas. Il est donc nécessaire d’utiliser un modèle non linéaire plus complexe qui soit idéalement capable de traiter de grands volumes de données.

MODELES DE DEEPHIT

Contrairement aux analyses de survie classiques qui font des hypothèses sur la distribution des temps de survie, DeepHit apprend directement celles-ci à l’aide d’un réseau neuronal profond. Il offre également une architecture d’apprentissage multitarifaire en mesure de traiter les risques concurrents. Le modèle DeepHit cherche à prédire la probabilité que le sujet subisse l’événement à chaque instant de temps t pendant la période d’observation. Le modèle utilise une couche de sortie softmax unique pour prédire la distribution conjointe des événements.

METHODOLOGIE

Le jeu de données a été divisé en trois parties : un ensemble de formation (60 % des données), un ensemble de validation (20 %) et un ensemble de test (20 %). L’ensemble d’entraînement et de validation a été utilisé pour optimiser les réseaux neuronaux lors de l’entraînement. Le modèle a ensuite été évalué sur l’ensemble de test.

Le langage Python et les bibliothèques scikit-survival, pycox et plotly ont été utilisées pour les expériences décrites dans cet article. Les extraits de code sont présentés pour montrer comment ces modèles ont été mis en œuvre.

CONCLUSION

L’analyse de survie est une technique utile pour construire des modèles prédictifs de risque pour les patients en recourant à un large éventail de cas d’utilisation. Dans cet article, nous avons exploré comment les modèles de DeepSurv et DeepHit peuvent être utilisés pour la prédiction du risque de réhospitalisation à l’aide de la technique de l’analyse de survie combinée au deep learning. Les résultats de l’expérience ont montré que ces modèles prometteurs fournissent des résultats significativement meilleurs que les modèles de survie linéaires standard, sans dépendance à aucune hypothèse sur la distribution de la survie. Ces techniques ouvrent la voie à la prédiction plus précise des risques de maladie pour les patients en utilisant des données de patient en vie réelle.