PRENEZ LES FRUITS À PORTÉE DE MAIN AVEC UNE GESTION DE DONNÉES DE RÉFÉRENCE OPEN-SOURCE
La Gestion de Données de Référence (MDM) est un mot à la mode chez les vendeurs commerciaux pour un cadre de résolution d’entités. J’ai parlé à plusieurs vendeurs, la plupart proposant des solutions SaaS et tarifées en fonction du nombre total d’enregistrements ingérés à partir de sources. Cela se traduit souvent par des montants à six ou sept chiffres par an pour les grandes entreprises.
LE PUBLIC CIBLE DE CET ARTICLE
Prévoyez-vous de mettre en œuvre la MDM bientôt ? Avez-vous demandé un devis aux vendeurs ? Ou votre entreprise a-t-elle déjà investi dans une solution de MDM en tant que service ? Une chose est sûre, ce n’est pas un petit investissement.
Et si vous pouviez réduire considérablement les coûts d’abonnement annuel avec quelques jours de travail en ingénierie ? L’idée en une phrase :
Prenez les fruits à portée de main avec l’open-source et laissez la MDM faire le travail difficile. Un choix qui peut facilement se traduire par des économies à deux chiffres ou de 5 à 7 chiffres par an.
POURQUOI LA RÉSOLUTION D’ENTITÉS EST IMPORTANTE
Une entreprise typique de taille décente utilise plusieurs sources de données. Pour les opérations (ERPs), la gestion de la relation client (CRM), l’analyse (lacs, entrepôts) et plus encore (systèmes de fichiers, sources externes). Des enregistrements redondants existent dans presque tous les systèmes. Certaines transactions sont formellement liées à l’enregistrement AB InBev, d’autres à AB INBEV NV. Nous perdons la vue d’ensemble de cette entité unique de client si les doublons restent non détectés.
Des enregistrements de la même entité de client du monde réel se cachent dans les différentes sources ; tous ne sont pas liés par des clés étrangères ou n’ont pas tous les attributs synchronisés, avec des doublons dans chaque source. Il s’agit d’un problème important de qualité des données. Et pas seulement pour les entités de clients, mais aussi pour les fournisseurs, les produits, les personnes et autres types d’entités.
Je connais une entreprise qui a augmenté sa croissance grâce à de nombreuses fusions et acquisitions. L’entreprise a intégré de nouvelles lignes de produits et régions géographiques au fil du temps. Mais l’intégration informatique a rapidement accusé un retard, avec plus de 100 ERPs en fonctionnement, et les équipes ont continué à travailler en silos. Cela s’est traduit par des opportunités de synergie manquées. Pour en nommer quelques-unes :
Des opportunités manquées de vente croisée entre les lignes de produits et les régions
Une utilisation sous-optimale des équipes travaillant sur le terrain en raison des anciennes limites régionales et des lignes de produits
Des négociations sous-optimales avec les fournisseurs car les équipes achètent les mêmes produits de manière indépendante
Un carnet de commandes hors de contrôle en raison d’un besoin de plus de transparence entre la fabrication/l’approvisionnement et les ventes.
COMMENT LA RÉSOLUTION D’ENTITÉS FONCTIONNE DE BOUT EN BOUT
L’article End-to-End Entity Resolution for Big Data: A Survey de Christophides et ses coauteurs donne un aperçu en profondeur – une excellente explication de la méthodologie de résolution d’entités. Ne manquez pas les nombreux sujets que nous ne couvrirons pas ici.
Le figure suivante représente l’une des nombreuses façons de mettre en œuvre la résolution d’entité.
La résolution d’entité peut être un processus itératif. Nous ingérons et prétraitons les enregistrements, concevons des fonctionnalités de similarité, sélectionnons (et ajustons) un modèle de classification et regroupons les correspondances. Nous pouvons définir des règles (seuils de similarité) en vertu desquelles des paires hautement similaires sont considérées comme des correspondances avérées automatiquement (rouge), et distribuons un lot de cas probables mais incertains aux humains pour examen (vert). Les exemples résolus nous aident à apprendre et à affiner.
À un niveau élevé, voici les étapes à suivre dans un processus typique de bout en bout de résolution d’entités :
1. Prétraitement/normalisation en préservant uniquement la sémantique.
2. Construire des blocs d’enregistrements en limitant le nombre de comparaisons.
3. Concevoir des fonctionnalités pour mesurer la similarité des attributs.
4. Sélectionner (et ajuster) un modèle pour prédire la probabilité de correspondance par paire.
5. Convertir les correspondances par paire en clusters d’entités.
6. Examiner (un lot de) exemples probables mais incertains avec des humains.
Typiquement, vous ne distribuez qu’un lot de cas incertains aux humains pour examen. Et le résultat de cette étiquetage peut être utilisé pour ajuster à nouveau votre modèle de classification ou même vous faire repenser l’une des premières étapes (prétraitement, blocage, ingénierie de fonctionnalités). Un modèle plus fort peut détecter encore plus de cas intéressants qui valent la peine d’être examinés, ce qui rend ce processus itératif.
POURQUOI NE PAS CONSTRUIRE VOTRE CADRE DE RÉSOLUTION D’ENTITÉ EN INTERNE ?
Le coût de calcul généralement élevé ainsi que l’implication humaine dans le processus d’examen ajoutent une autre dimension à ce problème : le budget. Vous ne voulez pas que votre facture de cloud ou vos coûts de main-d’œuvre explosent.
Par exemple, utiliser la supervision faible pour étiqueter les paires à partir de heuristiques partagées par des experts en la matière de manière programmatique. Ou l’apprentissage machine actif pour donner la priorité aux échantillons pour examen manuel en fonction de l’incertitude estimée.
Chaque composant isolément semble être une tâche gérable. Le grand défi réside dans la diversité des compétences nécessaires pour construire et gérer tout : s’occuper de l’infrastructure et de la sécurité, construire le backend, le modèle de classification et le frontend pour les examinateurs.
Vous pouvez également construire certains composants pour lesquels votre équipe a plus de confiance et laisser les vendeurs faire le plus gros du travail. J’ai parlé à deux vendeurs proposant un moteur de correspondance solide en tant que produit – un logiciel que vous devez installer sur une infrastructure auto-gérée. Et j’ai parlé à des vendeurs proposant des solutions SaaS pour l’annotation afin de gérer les tâches d’examen.
Il semble que cela soit beaucoup de travail. Mais c’est également une occasion d’apprendre rapidement. Je recommande également d’expérimenter d’abord avec des frameworks open-source avant de parler aux vendeurs.
COMMENT VOUS POUVEZ RÉDUIRE DE MANIÈRE SIGNIFICATIVE VOS COÛTS DE MDM
La plupart des vendeurs de MDM que j’ai contactés fondent leur tarification sur le nombre total d’enregistrements ingérés dans leur plate-forme. Mais ce n’est pas tout. Ils essaieront également de vous vendre l’intégration avec des API externes, par exemple pour la validation d’adresse.
Chaque boîte verte est une opportunité d’économie d’argent. Le prétraitement (par exemple SQL) nous aide à sélectionner uniquement les enregistrements pertinents. La résolution d’entité open-source prend en charge les cas simples, réduisant à nouveau le nombre d’enregistrements alimentés dans la MDM. Enfin, des API tierces coûteuses ne sont appelées que là où elles ne peuvent être remplacées par des alternatives bon marché.
Vous devez investir pour saisir chacune des opportunités d’économies d’argent. Commençons par celles qui nécessitent le moins d’investissement.
Économisez de l’argent grâce à la prétraitements :
Tous les enregistrements clients dans vos systèmes sources ne sont pas également importants. Probablement, beaucoup n’apportent aucune valeur à l’entreprise ou ne correspondent pas à vos cas d’utilisation MDM. Les enregistrements zombies ne sont pas liés à une seule commande, transaction, contrat, opportunité ouverte ou autres entités liées aux opérations. Par conséquent, vous ne bénéficierez probablement pas de la résolution à des impasses.
À quel point est-il susceptible que vous bénéficiez de la résolution de vos clients B2C ? Le point de vente MDM est de fournir une vue à 360 degrés du client dans toutes les régions, lignes de produits, etc. Si cela est rarement bénéfique pour le B2C dans votre entreprise, pourquoi investir alors dans la résolution de ces entités ? L’idée générale est de collecter des cas d’utilisation ayant une valeur significative. Ensuite, posez des questions aux entreprises telles que “Avons-nous besoin d’enregistrements clients sans revenu pour répondre à vos besoins ?”. Toutes les réponses combinées identifieront le sous-ensemble qui mérite d’être ingéré dans la MDM. Exclure des enregistrements n’est pas une décision permanente. Un nouveau cas d’utilisation justifie-t