COMMENT TRIER UN DATA FRAME EN UTILISANT PLUSIEURS COLONNES EN R
R est un langage de programmation largement utilisé par les statisticiens et les scientifiques de l’apprentissage automatique. Les DataFrames sont de puissantes constructions en R qui facilitent le traitement, la manipulation et l’analyse de données de manière efficace et puissante.
Dans ce court tutoriel, nous allons vous montrer comment trier des data frames R sur une ou plusieurs colonnes, soit par ordre décroissant soit par ordre croissant.
CREATION D’UN DATA FRAME EN R
Tout d’abord, créons un data frame en R que nous utiliserons tout au long de ce tutoriel afin de démontrer quelques concepts utiles autour du tri.
df <- data.frame(id = c(1:8),value = c(123, 86, 234, 235, 212, 121, 123, 899),colC = c("A", "C", "B", "B", "A", "B", "C", "C"),colD = c(TRUE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, FALSE))
Le data frame créé contient quatre colonnes. Les colonnes id et value contiennent des valeurs numériques, tandis que les colonnes colC et colD contiennent des caractères et des valeurs booléennes respectivement.
TRI PAR ORDRE CROISSANT
Supposons maintenant que nous voulons trier notre data frame par ordre croissant sur une colonne particulière. Pour ce faire, nous pouvons utiliser la fonction order () et fractionner notre data frame en conséquence. Dans la fonction order (), nous pouvons spécifier la colonne que nous voulons que R prenne en compte lors du tri du data frame.
Prenons l'exemple suivant où nous souhaitons trier notre data frame par ordre croissant sur la colonne value.
df[with(df, order(value)), ]
Comme la fonction order () trie par ordre croissant par défaut, nous n'avons pas besoin de spécifier le paramètre. La sortie affichera le data frame trié suivant :
id value colC colD
2 2 86 C TRUE
6 6 121 B FALSE
1 1 123 A TRUE
7 7 123 C TRUE
5 5 212 A FALSE
3 3 234 B FALSE
4 4 235 B FALSE
8 8 899 C FALSE
TRI PAR ORDRE DECROISSANT
Si vous souhaitez spécifier un ordre décroissant, il vous suffit de spécifier un signe négatif à la valeur de la colonne. Cela indiquera essentiellement que nous voulons inverser l'ordre croissant. Continuons avec notre exemple précédent et trions le data frame en utilisant un ordre décroissant :
df[with(df, order(-value)), ]
La sortie affichera le data frame trié suivant :
id value colC colD
8 8 899 C FALSE
4 4 235 B FALSE
3 3 234 B FALSE
5 5 212 A FALSE
1 1 123 A TRUE
7 7 123 C TRUE
6 6 121 B FALSE
2 2 86 C TRUE
TRI PAR PLUSIEURS COLONNES
La fonction order () peut prendre autant de noms de colonnes que vous le souhaitez. Cela signifie que nous pouvons demander au langage de trier le data frame sur plusieurs colonnes. En même temps, il est également possible d'utiliser une stratégie de tri différente (c'est-à-dire ascendante ou descendante) pour différentes colonnes.
Selon l'ordre dans lequel vous fournissez les noms de colonnes dans la fonction order (), cette dernière déterminera l'ordre réel dans lequel la fonction triera le data frame d'entrée.
Supposons maintenant que nous voulons trier notre data frame sur les colonnes value et id, respectivement par ordre décroissant et croissant. Nous pouvons le faire en utilisant le code suivant :
df[with(df, order(-value, id)), ]
La sortie affichera le data frame trié suivant :
id value colC colD
8 8 899 C FALSE
4 4 235 B FALSE
3 3 234 B FALSE
5 5 212 A FALSE
1 1 123 A TRUE
7 7 123 C TRUE
6 6 121 B FALSE
2 2 86 C TRUE
Notez comment les entrées avec ID = 1 et ID = 7 sont triées par ordre croissant, suivant le tri décroissant basé sur la colonne value.
Maintenant, si nous voulons trier le data frame sur les mêmes colonnes, mais cette fois, nous allons utiliser un ordre décroissant pour les deux, nous pouvons utiliser le code suivant :
df[with(df, order(-value, -id)), ]
La sortie affichera le data frame trié suivant :
id value colC colD
8 8 899 C FALSE
4 4 235 B FALSE
3 3 234 B FALSE
5 5 212 A FALSE
7 7 123 C TRUE
1 1 123 A TRUE
6 6 121 B FALSE
2 2 86 C TRUE
CONCLUSION
Le tri des data frames est l'un des aspects les plus fondamentaux lorsqu'il s'agit d'analyser des données. Dans ce court tutoriel, nous avons démontré comment trier des data frames en R en fonction de certaines colonnes, soit en ordre croissant soit en ordre décroissant. Les data frames sont des constructions puissantes qui permettent aux programmeurs et aux statisticiens de R d'analyser des données et d'extraire des informations significatives.
J'espère que cet article vous a aidé à comprendre comment vous pouvez trier rapidement vos trames en fonction de vos besoins spécifiques.
Sources :
- https://towardsdatascience.com/sorting-a-data-frame-by-multiple-columns-in-r-ad43e678d05c
- https://www.statmethods.net/management/sorting.html