OUTILS POUR METTRE LA MÉTHODE EN PRATIQUE À L’ÈRE DE L’IA
Le problème avec l’apprentissage autonome de la science des données
Chaque fois que l’on souhaite installer une bibliothèque avec Anaconda, la partie -c de la commande bouge. Alors, comme la plupart des gens, on va sur Google pour trouver la solution, parfois 3 à 4 fois par jour : conda install -c conda-forge nom_de_la_bibliothèque. Cette situation est familière ?
Cet exemple montre une faille fondamentale dans notre manière d’apprendre la science des données et l’apprentissage automatique aujourd’hui : la connaissance en science des données est moins chère que l’air, donc nous ne la prenons pas autant au sérieux qu’il le faudrait.
Nous voyons des étudiants universitaires travailler dur pour mémoriser une quantité énorme d’informations pour réussir leurs examens et leurs tests. S’ils échouent, ils risquent d’être exclus de leur institution universitaire pour laquelle ils ont payé si cher.
En tant que scientifiques des données autodidactes, nous n’avons pas cette pression. Tout ce que nous avons, c’est notre auto-discipline qui nous persuade que nous faisons un excellent travail alors que nous regardons un cours sur YouTube depuis notre canapé.
Nos processus d’apprentissage sont non-structurés. Nous apprenons quelque chose de nouveau et passons à la chose suivante sans vraiment avoir compris la première. Nous laissons la rétention de l’information au hasard.
Quand nous nous asseyons pour pratiquer ce que nous avons “appris”, nous réalisons que nous avons déjà oublié 80% des nouvelles connaissances dans le temps qu’il nous a fallu allumer notre ordinateur. Nous commençons alors à chercher sur Google. Et lorsque ce comportement devient la norme, nous nous enorgueillissons auprès des autres de notre habileté à rechercher sur Google dans nos petits tweets. Nous signalons en réalité à d’autres que nous n’avons aucun système fiable pour apprendre et retenir la quantité écrasante d’informations en science des données.
Sans outils et méthodes efficaces pour apprendre et retenir de nouvelles connaissances, il est difficile de devenir un scientifique des données.
La courbe d’oubli d’Ebbinghaus ci-dessous montre la rapidité avec laquelle les nouvelles informations fuient la mémoire.
Il est clair que cela ne prendra que six jours pour oublier complètement de nouvelles informations. Et quand il s’agit d’informations apprises de manière non structurée et négligente, le temps est encore plus court.
Mais une fois que l’on fait un effort sérieux pour intégrer de nouvelles connaissances dans un système de répétition fiable, on choisit consciemment de les retenir pour le reste de notre vie ou aussi longtemps que nécessaire.
J’évoque ici la répétition espacée, et non l’apprentissage par cœur (🤒) !
La répétition espacée est une technique de mémoire puissante qui tire grandement parti de la courbe d’oubli d’Ebbinghaus. Elle consiste à vous exposer à de nouvelles informations à des intervalles de plus en plus espacés, chaque intervalle arrivant juste lorsque votre mémoire est sur le point de fuir. Cela va réinitialiser votre mémoire et augmenter l’intervalle suivant où vous devrez revoir le matériel.
Quels sont les avantages de la répétition espacée ?
Le plus grand avantage de la répétition espacée est la manière dont elle permet le transfert de connaissances de la mémoire à court terme à la mémoire à long terme.
En plus de l’utilisation efficace du temps et de l’amélioration de la rétention, des études montrent les avantages suivants pour ce système :
Personnalisation : personnalisable selon les préférences et les capacités de chacun, s’adaptant à votre rythme et à votre niveau de maîtrise du matériel.
Compréhension améliorée : en renforçant continuellement les concepts et les connexions dans le temps, il devient plus facile de construire un réseau de connaissances et de comprendre des sujets complexes plus en profondeur.
Motivation accrue : la répétition espacée me donne un grand sentiment de progression et de réussite, car mes intervalles de répétition s’allongent.
C’est probablement pourquoi de nombreux étudiants en médecine prêtent serment sur cette méthode, car ils l’utilisent pour mémoriser les noms des os, des vaisseaux sanguins, des branches nerveuses et tous les détails épuisants sur le corps humain.
La série d’algorithmes SuperMemo
Il existe de nombreux algorithmes implémentant la répétition espacée en pratique, le plus populaire étant SuperMemo.
SuperMemo est une série d’algorithmes de répétition espacée qui est sortie régulièrement depuis 1982. Son créateur, Dr Piotr Wozniak, a été reconnu par le magazine Wired comme “l’inventeur d’une technique pour transformer les gens en génies” en 2008.
Alors, comment devenir un génie avec cette méthode ?
Après avoir suffisamment assimilé les concepts et les faits sous-jacents, vous commencez par découper le matériel en question à l’aide de fiches flashcards (oui, je sais que c’est un gros problème, mais attendez la fin).
Après avoir créé une base de données de cartes, vous commencez à les réviser par sessions. La première session montre les cartes dans l’ordre où elles ont été ajoutées ou embrouillées (selon vos préférences). Vous évaluez ensuite les cartes en fonction de votre rappel de la carte.
Il y a six options dans SuperMemo-2 :
0 : Je n’ai absolument aucune idée
1 : Incorrect, mais après avoir vu la réponse, cela me revient
2 : Incorrect, mais après avoir vu la réponse, cela me revient immédiatement
3 : Réponse correcte, mais je devais creuser profondément et faire un effort pour m’en souvenir
4 : Réponse correcte, mais j’hésite
5 : Je m’en souviens comme si c’était il y avait quelques minutes
Ensuite, la note choisie est insérée dans les calculs de longue durée qui impliquent le nombre de fois où la carte a été rappelée avec succès auparavant, le facteur de facilité de la carte (ne me demandez pas), et l’intervalle de répétition. Le résultat final détermine quand la carte doit être montrée à nouveau.
Pour les cartes notées en dessous de 4, SuperMemo vous demandera de les réviser autant de fois que nécessaire pendant la session actuelle jusqu’à ce que la note passe au-dessus de 4.
Chaque carte correctement rappelée sera montrée à nouveau après des intervalles de plus en plus longs. Par exemple, si vous mémorisez que la fonction pour convertir une date en un timbre horodaté est datetime.datetime.fromtimestamp, vous n’avez qu’à réviser la carte montrant cette information 4 à 5 fois sur un mois pour la mémoriser pendant les six mois à venir.
Comme vous pouvez l’imaginer, cela est un système de répétition beaucoup plus efficace que l’apprentissage par cœur, la répétition à intervalle fixe, ou pire encore, la répétition selon l’humeur.
Outils de répétition espacée
Il existe de nombreux outils de répétition espacée alimentés par les algorithmes de type SuperMemo.
Le premier (et c’est le roi) est Anki. Il est open-source et implémente une version modifiée de SuperMemo-2. Au lieu de fournir six notes de rappel, il en montre quatre :
Anki utilisé pour mémoriser le vocabulaire russe. Image par Wikipedia. Wikimedia commons.
Comme il est open-source, il a un aspect très ancien, mais c’est une application gratuite multiplateforme (sauf pour la version iOS). Le référentiel GitHub du logiciel compte plus de 13 000 étoiles, ce qui suggère un soutien massif de la communauté.
Ils travaillent sur Anki depuis plus de dix ans, et la version actuelle présente les fonctionnalités suivantes :
Disponible partout : Windows, macOS, Linux, Android et iOS (celui-ci coûte de l’argent)
Entièrement personnalisable : créez vos propres flashcards, organisez-les en groupes et définissez vos propres paramètres pour l’algorithme de répétition espacée
Synchronisation entre les appareils : la version pour ordinateur d’Anki est l’application principale et les versions mobile et web ne sont que des compléments mais sont synchronisées
Prise en charge des médias : Ajoutez des images, de l’audio, de la vidéo, des formats de texte et LaTeX pour rendre les flashcards mémorables et engageantes. Il y a également une prise en charge des occlusions d’image pour mémoriser les informations visuelles.
Add-ons : comme les extensions Python, vous pouvez créer et ajouter votre propre fonctionnalité au logiciel, comme des raccourcis clavier personnalisés, des thèmes et des statistiques avancées.
Je sais que la création de flashcards indisponibles dans la communauté est une difficulté évidente.
Je crois fermement que le temps total nécessaire pour créer des fiches pour un sujet et les maîtriser totalement avec la répétition espacée sera bien moindre que des heures de recherche sur Google ou des dizaines de cycles vicieux d’oubli et de réapprentissage.
De plus, nous avons