Comment construire un moteur de recherche meilleur que Google ?

Sridhar Ramaswamy n’a pas quitté Google pour construire un autre moteur de recherche. Du moins pas au début. À la fin de ses 15 années passées chez Google, Ramaswamy dirigeait toute la division publicitaire de l’entreprise, supervisant plus de 10 000 personnes – il savait mieux que la plupart combien de travail il fallait fournir pour bien faire la recherche. Il est presque impossible de surestimer la domination de Google dans la recherche. La plupart des études placent Google à environ 90 % du marché mondial de la recherche, et ce chiffre ne cesse d’augmenter depuis 20 ans. Google est le moteur de recherche par défaut dans presque tous les navigateurs, sur presque tous les appareils. Nous ne recherchons pas Internet ; nous le googlons. Bing et Yahoo sont les deuxième et troisième plus grands acteurs, et quand avez-vous pour la dernière fois utilisé Bing ou Yahoo pour quelque chose ? Google a dépensé son capital politique, technique et financier énorme pour que cela perdure. Mais ce que Ramaswamy savait mieux que la plupart des gens, ce sont toutes les choses que Google ne pouvait ou ne voulait pas faire avec son moteur de recherche. Avec des milliards d’utilisateurs et des centaines de milliards de dollars à protéger, Google était peu susceptible d’explorer des changements majeurs sur sa page de résultats, de nouveaux modèles économiques ou tout type de produits qui pourraient réduire la recherche des utilisateurs (Ramaswamy avait en réalité testé une fonctionnalité appelée Google Contributor qui permettait aux utilisateurs de payer pour une expérience sans publicité sur certains sites. Cela n’a pas fonctionné). Il y avait une opportunité ici de créer quelque chose que Google ne pouvait tout simplement pas ou ne voulait tout simplement pas faire. Ainsi, lorsque Ramaswamy a quitté la société en 2018, lui et Vivek Raghunathan, un ancien cadre de Google et de YouTube, ont cofondé une société appelée Neeva pour construire le moteur de recherche du futur. Cette année, The Verge explore comment Google Search a remodelé le Web en une place pour les robots et comment l’émergence de l’IA menace Google lui-même. Le parcours a été cahoteux, mais l’équipe de Neeva a fini par construire un moteur de recherche dont ils étaient fiers, un moteur de recherche qui était proche de battre Google, tant selon les métriques internes de Neeva que dans les études utilisateurs. Les personnes qui l’ont essayé l’ont bien aimé et Neeva avait une feuille de route remplie d’idées sur la façon d’améliorer encore la recherche. Encore un peu de temps, et ils auraient peut-être construit le futur de la recherche. Mais seulement quatre ans plus tard, Neeva a fermé. D’une certaine manière, l’éphémère existence de Neeva révèle tout ce que vous devez savoir sur les 20 dernières années de suprématie des moteurs de recherche. Construire un moteur de recherche est difficile. En construire un meilleur que Google est encore plus difficile. Mais si vous voulez battre Google, un meilleur moteur de recherche n’est que le tout début. Et ça ne fait que devenir plus difficile par la suite. Un moteur de recherche est à la fois une chose extrêmement complexe et une idée assez simple. Tout ce qu’un moteur de recherche fait réellement, c’est compiler une base de données de pages web – appelée “index de recherche” – puis rechercher dans cette base de données à chaque fois que vous effectuez une requête et servir le meilleur ensemble de ces pages les plus pertinentes. C’est tout le travail. À chaque petit pas de ce parcours, cependant, il y a d’énormes complications qui nécessitent des compromis critiques et complexes. La plupart d’entre eux se résument à deux choses : le temps et l’argent. Même si vous pouviez hypothétiquement construire une base de données constamment mise à jour de toutes les pages non dites d’internet, les coûts de stockage et de bande passante seuls ruinerait pratiquement n’importe quelle entreprise sur la planète. Et ce n’est même pas compter le coût de la recherche dans cette base de données des millions ou des milliards de fois par jour. Ajoutez à cela le fait que chaque milliseconde compte – Google annonce toujours combien de temps chaque requête a pris en haut de vos résultats – et vous n’avez de toute façon pas le temps de regarder toute la base de données. Mais d’abord, construire son propre moteur de recherche commence donc par une question étonnamment philosophique : qu’est-ce qui fait une bonne page web ? Vous devez décider de ce qui compte comme un désaccord raisonnable et de ce qui est simplement de la désinformation. Vous devez déterminer combien de publicités sont trop de publicités. Des sites clairement écrits par l’IA et remplis de choses inutiles pour le référencement : mauvais. Des blogs de recettes écrits par une personne et remplis de référencement : principalement bon. Du contenu pornographique ? Parfois accepté, parfois non. Une fois que vous avez eu toutes ces discussions et défini vos limites, vous pouvez identifier, par exemple, quelques milliers de domaines que vous voulez absolument inclure dans votre moteur de recherche. Vous y inclurez des sites d’actualités de CNN à Breitbart, des plateformes de discussion populaires comme Reddit et Stack Overflow et Twitter, des services utiles comme Wikipedia et Craigslist, des grandes plateformes comme YouTube et Amazon, et tous les meilleurs sites de recettes, de sport, de shopping et de tout le reste sur le Web. Parfois, vous pouvez vous associer à ces sites pour obtenir leurs données de manière structurée sans avoir à regarder chaque page individuellement ; de nombreuses grandes plateformes facilitent cela et le proposent même parfois gratuitement.