Des scientifiques de données prédisent les rendements boursiers grâce à l'intelligence artificielle et aux actualités en ligne.

LES DATA SCIENTISTS PRÉDISSENT LES RENDEMENTS BOURSIERS AVEC L’IA ET LES ACTUALITÉS EN LIGNE

Le publishing financier a longtemps aidé à informer les investisseurs de tous horizons. Des chercheurs de Cornell ont découvert qu’il pouvait également informer l’algorithme derrière un nouveau modèle de prédiction financière.

Dans leur article intitulé “News-Based Sparse Machine Learning Models for Adaptive Asset Pricing” publié en avril dans Data Science in Science, les chercheurs se basent sur des domaines interdisciplinaires tels que l’apprentissage automatique, le traitement du langage naturel (NLP) et la finance pour construire un nouveau cadre d’apprentissage automatique interprétable qui capture des informations spécifiques aux actions et aux industries, et prédit les rendements financiers avec une plus grande précision que les modèles traditionnels.

L’un des reproches faits à l’apprentissage automatique est son manque d’interprétabilité, explique Martin Wells, professeur de sciences statistiques à Cornell et auteur principal de l’article. Souvent, lorsque les chercheurs utilisent de grands modèles comme ceux-ci, ils ne savent pas ce que signifient les résultats ou ce qui sous-tend le modèle. Cette recherche tire parti des données textuelles des actualités pour construire des modèles d’apprentissage automatique interprétables où les caractéristiques importantes sont explicitement visibles.

Le texte aide à “regrouper les données”, en apportant de l’ordre dans les résultats chaotiques que les algorithmes peuvent produire, explique Liao Zhu, l’auteur principal de l’article, qui a commencé à travailler dans l’industrie financière après avoir terminé son doctorat. “L’hypothèse de notre recherche est que les actualités financières pourraient mieux nous aider à comprendre quel type d’actions est lié à certains actifs négociables.”

Ces actifs pourraient inclure des fonds négociés en bourse (ETF), un ensemble d’actions qui suit un secteur entier, explique-t-il.

Cette recherche fait suite aux travaux précédents de Zhu qui sont issus de ses premières études doctorales sous la supervision de Wells et de Robert Jarrow, professeur de gestion des investissements à la Samuel Curtis Johnson Graduate School of Management. Peter (Haoxuan) Wu est co-auteur de l’article.

L’utilisation de méthodes statistiques traditionnelles pour expliquer les rendements boursiers n’est pas nouvelle. De même, l’utilisation de données textuelles : les investisseurs utilisent l’analyse des sentiments, un sous-domaine du traitement du langage naturel, pour rechercher des mots positifs ou négatifs associés à une entreprise qui, en théorie, peuvent signaler une hausse ou une baisse du prix de l’action.

La nouvelle recherche explore de nouvelles pistes en proposant un cadre de prédiction flexible qui relie les données de marché et les données textuelles sans analyse des sentiments, et intègre de nouveaux algorithmes d’apprentissage automatique interprétables. Les chercheurs empruntent la méthode des “word embeddings” du traitement du langage naturel et utilisent un algorithme pour créer des “asset embeddings” pour un ensemble spécifique d’actifs négociables à partir des actualités financières. Après avoir converti à la fois les données textuelles et les données de marché en nombres, les chercheurs déploient des algorithmes spécialement conçus pour traiter ces nombres.

“Notre algorithme n’utilise pas le sentiment des actualités, mais utilise les actualités comme guide pour les actifs ou les mots à prendre en compte pour chaque action ou industrie spécifique, ce qui révèle des informations spécifiques aux actions et aux industries”, explique Zhu.

Pour développer leurs modèles, les chercheurs ont rassemblé un corpus massif d’articles financiers en ligne de 2013 à 2019 et les ont alimentés à leur algorithme, qui a commencé à cartographier les actifs et les mots associés à des actions et des industries spécifiques. Avec une cartographie linguistique optimisée par l’IA en main, les chercheurs ont obtenu une meilleure compréhension des actifs et des mots spécifiques à prendre en compte.

En utilisant cette méthode, l’équipe a développé deux modèles distincts. Le modèle NEUSS (News Embedding UMAP Sparse Selection) prédit les rendements des actions individuelles, tandis que le modèle INSER (News Sparse Encoder with Rationale) identifie les mots importants pour chaque industrie spécifique avant de les utiliser pour prédire de manière plus précise les rendements de l’industrie.

Par exemple, le modèle NEUSS peut conclure à partir des actualités financières qu’un fonds négocié en bourse qui suit le secteur de la fabrication de semi-conducteurs est utile pour prédire les rendements d’une entreprise technologique spécifique, mais peut ne pas être utile pour prédire les rendements d’autres actions, dans le secteur de la vente au détail par exemple. Le modèle INSER peut identifier le mot “usine” comme important pour l’industrie de l’énergie, mais ce mot peut ne pas être pertinent pour d’autres industries comme les médias sociaux.

Cette stratégie hybride et interprétable a fonctionné. Le modèle NEUSS a surpassé le benchmark prédictif traditionnel – appelé modèle Fama-French à 5 facteurs – de 50%, tandis que le modèle INSER a surpassé le benchmark (sans informations spécifiques à l’industrie) de 10%.

L’utilisation d’algorithmes d’apprentissage automatique avancés avec différents types de données contribue à révolutionner le domaine de la finance, affirment Zhu et Wells.

“Je pense que la révolution de l’IA dans la finance est déjà là”, déclare Zhu, “et cet article fait avancer un aspect de cette révolution”.

Louis DiPietro – écrivain pour le Cornell Ann S. Bowers College of Computing and Information Science.

Sources :
– Article original : [https://www.tandfonline.com/doi/full/10.1080/26941899.2023.2187895](https://www.tandfonline.com/doi/full/10.1080/26941899.2023.2187895)
– Cornell Ann S. Bowers College of Computing and Information Science : [lien vers le site](https://computing.cornell.edu/)