NLWeb
From Wikipedia, the free encyclopedia
NLWeb (Natural Language Web) est un protocole en Python, open source, lancé en 2025 par Microsoft, conçu pour simplifier la création d'interfaces en langage naturel pour les sites web[1]. Ce protocole est compatible avec toutes les plateformes, il fonctionne sur les principaux systèmes et se connecte à n'importe quelle base de données vectorielle.
Utilité
NLWeb permet en outre aux utilisateurs — qu'il s'agisse d'une IA ou d'un humain — d'interroger le contenu d'un site web directement en langage naturel, aussi facilement qu'on peut interagir avec un assistant IA. Pour cela, NLWeb exploite des standards web existants (tels que Schema.org[2] et RSS) afin de développer des capacités conversationnelles permettant de traiter les requêtes des utilisateurs grâce à des IA de type LLM, par exemple pour effectuer des recherches par similarité sémantiques dans le contenu des sites web et ensuite générer des réponses en langage naturel.
Principes
Le NLWeb est à la fois un protocole de communication et une couche d'abstraction sémantique : il fournit un niveau intermédiaire entre un site web (ou une base de données) et les agents d'IA, en représentant le sens du contenu plutôt que sa forme brute.
Grâce à cette structuration sémantique, une IA peut manipuler directement des concepts, sans devoir analyser elle‑même le code HTML, les structures techniques ou les formats internes du site.
Fonctionnement
Chaque instance fonctionne comme un serveur MCP, c'est‑à‑dire un service qui suit le Model Context Protocol qui est un protocole capable d'exposer des outils, des données ou des capacités d'un système, sous une forme standardisée et interrogeable par des agents d'IA. Dans ce contexte, l'instance NLWeb permet à un site web de rendre son contenu sémantiquement accessible aux agents IA et autres participants du Web[3].
Optimisation
Le contenu à indexer par NLWeb est optimisé quand il est structurée et organisé de manière à faciliter l'analyse par l'IA, qui peut alors raisonner sur les concepts plutôt que sur les mots.
Les articles courts, interconnectés et annotés sémantiquement, c'est à dire enrichis de métadonnées décrivant le sens de l'article, par exemple en identifiant les entités qu'elle contient, les relations entre ces entités ou la catégorie conceptuelle à laquelle elle appartient sont les meilleurs de ce point de vue[4].
Histoire
Ce protocole a été lançé en 2005. Parmi les premiers utilisateurs de NLWeb figurent TripAdvisor, Shopify, Eventbrite et Hearst.
