LE COÛT D’AVOIR TORT ET LE GAIN D’AVOIR RAISON SELON DIFFÉRENTES MESURES
La mesure de la performance d’un modèle de classification binaire se fait souvent à l’aide de deux principaux indicateurs : la précision (accuracy) et le score F1. Ces deux indicateurs sont issus de la matrice de confusion, qui compare les étiquettes prédites par le modèle avec les vraies étiquettes. Les observations peuvent être vraies négatives, vraies positives, fausses positives ou fausses négatives, avec différents coûts associés. L’accuracy correspond au pourcentage d’observations classées correctement, tandis que le score F1 est la moyenne harmonique de la précision et du rappel pour la classe positive. L’indicateur à privilégier dépend du coût des erreurs et des gains des prédictions correctes. Pour quantifier ces coûts et gains, il est possible de créer une matrice de valeurs, qui attribue une valeur (peut-être économique) à chaque élément de la matrice de confusion. En multipliant cette matrice de valeurs par la matrice de confusion, on obtient la valeur attendue de chaque groupe (TN, FP, FN, TP) et en les additionnant, on obtient la valeur totale du modèle. Cette approche permet d’avoir une vision plus complète de la performance du modèle et de prendre en compte les gains potentiels de la prédiction correcte.