Potion Bottle Icon Manuel d'alchimie du code Potion Bottle Icon

Web sémantique - Historique et outils pour explorer

- 1,190 mots - Temps de lecture estimé: 7 minutes

🌘 Le World Wide Web


Sun Face IconQu’est-ce que le web sémantique et à quoi sert-il concrètement ?Sun Face Icon


Le web sémantique (Web 3.0) structure les données en triplets RDF pour que les machines comprennent le sens des informations et leurs relations. Basé sur les standards W3C comme RDF, OWL et SPARQL, il permet aux moteurs de recherche d’afficher des Knowledge Graphs et aux assistants vocaux de répondre à des questions précises. Des outils comme Wikidata, DBPedia et la librairie Python RDFLib permettent d’explorer et d’interroger ces données structurées.

Le World Wide Web est une immense collection d’informations et de données accessibles via Internet en utilisant le protocole HTTP (et désormais majoritairement HTTPS). L’accès s’effectue principalement via un navigateur moderne (tel que Firefox, Chrome, Safari ou Edge). Ce système de documents hypertextes connectés par des hyperliens a été introduit au CERN par Tim Berners-Lee.

À titre historique, le tout premier navigateur se nommait WorldWideWeb for NeXT.

Capture d'écran du navigateur WorldWideWeb pour NeXT, le tout premier navigateur web

🌘 Standardisation et identification

La standardisation du web repose sur deux entités principales :

Logo du W3C et du principe One Web

Pour identifier les ressources sur le WWW, on utilise les URI (Uniform Resource Identifier). Il en existe deux types principaux :

  1. URN (Uniform Resource Name) : Basée sur le nom de la ressource (ex: ISBN pour les livres).
  2. URL (Uniform Resource Locator) : Basée sur l’adresse d’information de la ressource.

Les caractéristiques essentielles d’une URI sont l’universalité, l’unicité, l’extensibilité et la fixabilité.

🌘 Les époques du web

L’évolution du web se découpe généralement en trois phases :


🌘 Le Web Sémantique

🌘 Pourquoi un web sémantique ?

Le web actuel a ses limites. Bien qu’il héberge des milliards de documents, les moteurs de recherche traditionnels indexent des mots-clés sans toujours comprendre le sens.

Il devient difficile de trouver de l’information précise ou d’associer de la crédibilité à une source. Un robot (crawler) ne distingue pas naturellement si le mot “Jaguar” désigne l’animal, la voiture ou une version de macOS. Le Web Sémantique vise à structurer ces informations pour que les machines puissent comprendre le contexte.

🌘 Problèmes à résoudre et objectifs

Le web sémantique aborde deux types de problèmes :

  1. La recherche d’information : Remplacer la recherche par mots-clés par une recherche basée sur des concepts et des relations (Ontologies).
  2. L’extraction d’information : Permettre aux algorithmes d’agréger des données provenant de sources multiples (ex: répondre à “Qui est la conjointe du président de la France ?” nécessite de comprendre les concepts de “président”, “conjointe” et l’entité “France”).

Les usages actuels incluent les Knowledge Graphs utilisés par Google ou Bing pour afficher des encadrés d’information directe, ou les assistants vocaux (Siri, Alexa) qui interrogent ces données structurées.


🌘 Composantes du web sémantique

L’architecture repose sur une pile technologique standardisée.

Diagramme de la pile technologique du web sémantique

🌘 XML et JSON-LD

Le XML a longtemps été le standard pour transporter des données structurées. Aujourd’hui, le JSON-LD (JavaScript Object Notation for Linked Data) est de plus en plus populaire, notamment pour le référencement Google (SEO).

Exemple classique en XML :

<?xml version="1.0"?>
<annuaire>
  <personne class="membre">
    <nom>Pelletier</nom>
    <prenom>Francois</prenom>
    <email>francois@exemple.org</email>
  </personne>
</annuaire>

🌘 RDF (Resource Description Framework)

Le RDF est le modèle de base du graphe. Il représente tout sous forme de triplets : <Sujet, Prédicat, Objet>.

Le vocabulaire est défini via RDF Schema (classes, propriétés) ou des standards plus récents. Contrairement à une base de données relationnelle (tableaux), le RDF fonctionne comme un graphe flexible.

<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:pers="http://www.monannuaire.com/personne#">
<rdf:Description rdf:about="http://www.monannuaire.com/personne/FP">
    <pers:nom>Pelletier</pers:nom>
    <pers:prenom>Francois</pers:prenom>
</rdf:Description>
</rdf:RDF>

🌘 OWL : Définir les ontologies

OWL (Web Ontology Language) permet de définir des règles logiques complexes (ex: “Si X est l’auteur de Y, alors Y est une œuvre de X”, ou “Un oncle est le frère d’un parent”). C’est ce qui permet à l’ordinateur de faire des déductions automatiques.

Diagramme des types de données XML et relations OWL

🌘 SPARQL

SPARQL est le langage de requête standard (l’équivalent du SQL pour le web sémantique). Il permet d’interroger des graphes de connaissances ouverts sur le web.

Exemple de requête moderne (Interroger Wikidata) :
Cette requête demande “Quelles sont les capitales des pays d’Europe ?”

SELECT ?paysLabel ?capitaleLabel
WHERE {
  ?pays wdt:P31 wd:Q6256.      # Le sujet est un pays
  ?pays wdt:P30 wd:Q46.        # Le pays est en Europe (Continent)
  ?pays wdt:P36 ?capitale.     # Le pays a pour capitale...
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". }
}

🌘 Projets et Outils du web sémantique

Le Linked Open Data Cloud illustre l’interconnexion des bases de données mondiales.

Diagramme du nuage Linked Open Data illustrant les bases de données mondiales interconnectées

🌘 Ressources sur les graphes (Actualisées)

Bases de connaissances majeures :

Vocabulaires et Schémas :

Jeux de données (Datasets) :

🌘 Logiciels libres pour explorer et développer

L’outillage a évolué pour s’intégrer aux langages modernes comme Python et JavaScript.

Outils d’exploration et de visualisation :

Outils de développement et Bases de données (Triple Stores) :

🌘 Exemples pratiques à essayer

Abonne-toi au fil RSS pour ne rien manquer.

Étiquettes