Web sémantique et modèle de données

Sommaire

data.bnf.fr et le web sémantique

Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données et adopte des standards pomus par le Consortium W3C, dans la perspective du web sémantique ou web de données (Linked Data).

En adoptant ces technologies, il a pour ambition de structurer les métadonnées de la BnF pour les rendre exploitables par des machines. Le projet data.bnf.fr utilise des données produites dans des formats catalographiques divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives et les manuscrits, et Dublin Core pour la bibliothèque numérique.

Ces données sont restructurées, regroupées, enrichies par des traitements automatiques et publiées selon le modèle descriptif du web sémantique, RDF. Le résultat est disponible sur ce site, selon plusieurs syntaxes de RDF : RDF-XML, RDF-N3, et RDF-NT.

Une partie des données sont alignées avec d'autres référentiels : id.loc.gov pour les langues et nationalités, DCMI type pour les types de documents. Elles sont aussi alignées vers des jeux de données bien identifiés par ailleurs : VIAF, Idref, Wikidata, etc. Enfin, les données des pages de thèmes Rameau sont alignées vers d’autres thésaurus, d'institutions étrangères (LCSH, DnB, BNE) ou plus spécialisés (Agrovoc, Geonames, Thesaurus W).

La contribution de la Bibliothèque nationale de France au web sémantique consiste à fournir :

  • des URI pour les ressources : toutes les ressources disposent d’identifiants pérennes, attribués selon le mécanisme ARK qui permet d’accéder à toutes les ressources de la bibliothèque.
  • pour chaque ressource, un ensemble de métadonnées associées à l’URI de la ressource sous forme de triplets RDF, selon les technologies du linked open data. Ces métadonnées sont récupérables sur chaque page (export) et pour toute la base (dump). Elles sont également requêtables par l'intermédiaire d'une console Sparql.

Expérimenter le modèle IFLA-LRM

Le modèle de données de data.bnf.fr s’appuie sur le modèle conceptuel de référence pour la structuration des données catalographiques en bibliothèque : IFLA-LRM (Library Reference Model), défini par la Fédération internationale des associations de bibliothécaires et des bibliothèques (IFLA).

Publié en 2017, ce modèle regroupe et remplace trois modèles antérieurs : FRBR (qui concernait les notices bibliographiques), FRAD (les notices d’autorité) et FRSAD (les notices d’autorité matière).

IFLA-LRM définit un ensemble d’entités (retenues pour leur pertinence pour l’utilisateur), dotées d’attributs, et reliées par des propriétés. Ce modèle entité-relation a été conçu pour être transposable dans les technologies du web sémantique.

Pour en savoir plus sur ce modèle, voir le site du programme national de la Transition bibliographique.

Schéma complet IFLA-LRM

Data.bnf.fr n’exploite pas la totalité du modèle IFLA-LRM, mais propose de naviguer dans les relations entre entités. Les différentes pages du site (voir une présentation succincte de leur contenu sur la page que demander à data ?) reflètent plusieurs entités du modèle :

  • les pages d'œuvres donnent accès à des informations sur l'œuvre en tant que telle et permettent en outre d'entrer dans l'arbre OEMI (Œuvre, Expression, Manifestation, Item). Les trois premiers niveaux sont exposés dans le RDF des pages, l'item n'étant appréhendable que sous la forme de la version numérique d'un document conservé dans les collectrions de la BnF, quand celle-ci est disponible. Dans les pages html elles-mêmes, les expressions peuvent être appréhendées indirectement par l'application du filtre de langue, qui permet de distinguer la langue des manifestations listées sous la rubrique "Éditions".
  • Les entités de type "Agent" sont représentées dans les pages "Auteurs" sous leurs deux sous-classes, celle de personne physique d'une part, celle des organisations d'autre part. Une personne peut être auteur d'une œuvre (un lien existe alors entre la page « auteur » et la page « œuvre » correspondante) ou contributeur d'une expression (préfacier, traducteur, librettiste...). Dans les données RDF, la relation entre un auteur et une ressource sera exprimée au niveau de l’œuvre si la personne est auteur de l’œuvre (auteur du texte original, compositeur, réalisateur) ; soit au niveau de l’expression si elle a produit une traduction, une interprétation (en musique), etc. La notion d’auteur exprimée au niveau de l’œuvre sera de toute façon répétée au niveau de l’expression.
  • Toutes les entités du modèle IFLA-LRM sont susceptibles d'être le sujet d'une œuvre, mais les pages de thèmes ont un périmètre plus restreint : elles sont construites à partir des notices d'autorité Rameau, le langage en vigueur pour l'indexation à la BnF.

Le modèle de données de data.bnf.fr (nouvelle fenêtre)

Ontologies et référentiels utilisés

L'emploi d'ontologies largement diffusées

La réutilisation de vocabulaires existants a été privilégiée pour favoriser l'interopérabilité, en particulier :

rdf

https://www.w3.org/TR/rdf-syntax-grammar/

rdfs

https://www.w3.org/TR/rdf-schema/

skos

http://www.w3.org/2004/02/skos/core

dcterms

https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-2

foaf

http://xmlns.com/foaf/0.1/

rdaregistry

http://rdaregistry.info/Elements/

Les vocabulaires suivants sont également utilisés :

bibo

https://www.dublincore.org/specifications/bibo/bibo/

bio

https://vocab.org/bio/

dbpedia

http://mappings.dbpedia.org/index.php/Main_Page

dc

https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-3

dcmi-box

https://www.dublincore.org/specifications/dublin-core/dcmi-box/

dcmitype

https://www.dublincore.org/specifications/dublin-core/dcmi-terms/#section-7

frbr-rda

http://metadataregistry.org/schema/show/id/14.html

geo

https://www.w3.org/2003/01/geo/wgs84_pos#

geonames

http://www.geonames.org/ontology#

go

http://geneontology.org/docs/ontology-documentation/

ign

http://data.ign.fr/def/topo/20190212.htm

Données embarquées pour favoriser le référencement

Les pages html de data.bnf.fr sont ouvertes sur le Web, et accessibles directement par les internautes depuis les moteurs de recherche.
C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, deux types de données sont embarquées pour structurer les pages du site :

  • Schema.org, qui fournit un vocabulaire pour ajouter de l'information au contenu HTML avec un format de microdonnées, favorisant le référencement par les grands moteurs de recherche.
  • Opengraph Protocol (OG) qui permet aux pages d'être représentées dans les réseaux sociaux.

C'est un vocabulaire très simple, mis en place pour encoder en RDFa quelques métadonnées qui seront récupérées lorsque l'utilisateur ajoutera la ressource à son profil Facebook. Dans le header de la page HTML, les métadonnées suivantes sont intégrées grâce à des balises META :

  • og:title (titre de la page)
  • og:description (description du contenu de la page)
  • og:type (type de ressource décrite : auteur et livre)
  • og:url (URL de la page)
  • og:image (URL de l’image illustrant la page)
  • og:author (pour les pages « Œuvres », le nom de l’auteur)

Ontologie et référentiels propres à la BnF

L'ontologie bnf-onto

Certaines propriétés et classes ne peuvent être exprimées que par une ontologie propre à la BnF : bnf-onto. Pour publier ses ontologies, la BnF a choisi un espace de nommage homogène de forme https://data.bnf.fr/ontology.

Référentiels propres à la BnF

Les référentiels spécifiques à la BnF sont déclarés à l’adresse suivante : https://data.bnf.fr/vocabulary.

Liste des référentiels :