Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données et adopte des standards promus par le Consortium W3C, dans la perspective du web sémantique ou web de données (Linked Data).
En adoptant ces technologies, il a pour ambition de structurer les métadonnées de la BnF pour les rendre exploitables par des machines. Le projet data.bnf.fr utilise des données produites dans des formats catalographiques divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives et les manuscrits, et Dublin Core pour la bibliothèque numérique.
Ces données sont restructurées, regroupées, enrichies par des traitements automatiques et publiées selon le modèle descriptif du web sémantique, RDF. Le résultat est disponible sur ce site, selon plusieurs syntaxes de RDF : RDF-XML, RDF-N3, et RDF-NT.
Une partie des données sont alignées avec d'autres référentiels : id.loc.gov pour les langues et nationalités, DCMI type pour les types de documents. Elles sont aussi alignées vers des jeux de données bien identifiés par ailleurs : VIAF, Idref, Wikidata, etc. Enfin, les données des pages de thèmes Rameau sont alignées vers d’autres thésaurus, d'institutions étrangères (LCSH, DnB, BNE) ou plus spécialisés (Agrovoc, Geonames, Thesaurus W).
La contribution de la Bibliothèque nationale de France au web sémantique consiste à fournir :
Le modèle de données de data.bnf.fr s’appuie sur le modèle conceptuel de référence pour la structuration des données catalographiques en bibliothèque : IFLA-LRM (Library Reference Model), défini par la Fédération internationale des associations de bibliothécaires et des bibliothèques (IFLA).
Publié en 2017, ce modèle regroupe et remplace trois modèles antérieurs : FRBR (qui concernait les notices bibliographiques), FRAD (les notices d’autorité) et FRSAD (les notices d’autorité matière).
IFLA-LRM définit un ensemble d’entités (retenues pour leur pertinence pour l’utilisateur), dotées d’attributs, et reliées par des propriétés. Ce modèle entité-relation a été conçu pour être transposable dans les technologies du web sémantique.
Pour en savoir plus sur ce modèle, voir le site du programme national de la Transition bibliographique.
Data.bnf.fr n’exploite pas la totalité du modèle IFLA-LRM, mais propose de naviguer dans les relations entre entités. Les différentes pages du site (voir une présentation succincte de leur contenu sur la page que demander à data ?) reflètent plusieurs entités du modèle :
La réutilisation de vocabulaires existants a été privilégiée pour favoriser l'interopérabilité, en particulier :
rdf |
|
rdfs |
|
skos |
|
dcterms |
https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-2 |
foaf |
|
rdaregistry |
Les vocabulaires suivants sont également utilisés :
bibo |
|
bio |
|
dbpedia |
|
dc |
https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-3 |
dcmi-box |
https://www.dublincore.org/specifications/dublin-core/dcmi-box/ |
dcmitype |
https://www.dublincore.org/specifications/dublin-core/dcmi-terms/#section-7 |
frbr-rda |
|
geo |
|
geonames |
|
go |
|
ign |
Les pages html de data.bnf.fr sont ouvertes sur le Web, et accessibles directement par les internautes depuis les moteurs de recherche.
C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, deux types de données sont embarquées pour structurer les pages du site :
C'est un vocabulaire très simple, mis en place pour encoder en RDFa quelques métadonnées qui seront récupérées lorsque l'utilisateur ajoutera la ressource à son profil Facebook. Dans le header de la page HTML, les métadonnées suivantes sont intégrées grâce à des balises META :
og:title
(titre de la page)og:description
(description du contenu de la page)og:type
(type de ressource décrite : auteur et livre)og:url
(URL de la page)og:image
(URL de l’image illustrant la page)og:author
(pour les pages « Œuvres », le nom de l’auteur)Certaines propriétés et classes ne peuvent être exprimées que par une ontologie propre à la BnF : bnf-onto. Pour publier ses ontologies, la BnF a choisi un espace de nommage homogène de forme https://data.bnf.fr/ontology.
Les référentiels spécifiques à la BnF sont déclarés à l’adresse suivante : https://data.bnf.fr/vocabulary.
Liste des référentiels :