BnF
BnF

Web sémantique et modèle de données

Sommaire :

Le web sémantique dans le projet data.bnf.fr

Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données sur le Web, y compris hors de la communauté des bibliothèques.

Afin d’encourager la réutilisation des données brutes, cette ouverture a deux aspects :

  • technique : respect des standards du « Web sémantique » et ouverture sur le « Web de données » (« linked data ») définis par le W3C.
  • juridique : les données sont placées sous Licence ouverte de l’État autorisant la réutilisation libre, y compris commerciale, avec mention de la source.

Les outils du « Web de données » répondent à des problèmes anciens des bibliothèques, en particulier autour de la gestion de formats divers (formats MARC, Dublin Core, XML-EAD, TEI…) et de l’échange de données.
Ils offrent une présence nouvelle de ces ressources sur le Web en les rendant plus facilement accessibles et réutilisables et en les liant à des ressources complémentaires.

Le projet data.bnf.fr utilise des données produites dans des formats divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives, et Dublin Core pour la bibliothèque numérique.
Ces données sont modélisées, et regroupées par des traitements automatiques et publiées selon les standards du web sémantique.

Pour en savoir plus :

Ce que la bibliothèque nationale de France fournit

  • Une exposition RDF en « Linked open data » pour les données de data.bnf.fr, disponible pour chaque page (par négociation de contenu) et pour toute la base.

Le logiciel utilisé : CubicWeb


CubicWeb est une plateforme open source de développement d'applications web sémantique, publiée sous la licence LGPL.
logo cubicweb

CubicWeb est lauréat du concours Dataconnexions 2013, organisé par Etalab, la mission sous l’autorité du premier ministre pour l’ouverture des données publiques.

Récupérer les données de data.bnf.fr : téléchargement des dumps et des pages

Les données sont disponibles sur ce site, selon plusieurs syntaxes de RDF (Resource description framework), soit RDF-XML, RDF-N3, et RDF-NT, ainsi qu’en JSON.

Vous pouvez les récupérer :

Un dump de l'intégralité des données RDF est également disponible sur notre serveur FTP : hôte : echanges.bnf.fr, port : 21
login : databnf, mot de passe : databnf
et via HTTP: dump rdf complet (rdf/xml)

Des dumps par types de données sont également disponibles :

  • Liens vers les sites extérieurs :dumps rdf-nt, dump rdf-n3, dump rdf-xml.
    Il comprend :
    • Alignements Agrovoc
    • Alignements Thesaurus W
    • Alignements Bibliothèque du Congrès
    • Alignements Bibliothèque nationale allemande (DNB)
    • Alignements Geonames
    • Alignements DBpedia
    • Alignements Wikipedia
    • Alignements VIAF
    • Alignements IdReF
    • Alignements Dewey

    La licence d'utilisation de ces données est disponible ici.

    Dernière mise à jour : 22 octobre 2012.

    Liens vers des sites et répertoires externes

    Les données de data.bnf.fr sont liées aux pages équivalentes dans d’autres répertoires de données. Elles sont « alignées » à des sets extérieurs : id.loc.gov pour les langues et nationalités, dewey.info pour les sujets, DCMI type pour les types de documents.
    Elles sont aussi alignées vers des jeux de données recensés dans CKAN, en particulier dbpedia et VIAF.

    Les sujets RAMEAU sont alignés avec :

    Un alignement a été réalisé entre le référentiel RAMEAU et les principaux domaines de la classification Dewey (http://dewey.info).
    Exemple : le thème RAMEAU « Architecture » est aligné avec le domaine Dewey « Architecture ».

    Les données sur les auteurs sont aussi liées à :

    • VIAF, Virtual Identifier for Authority File
    • IdRef, référentiel des auteurs des bibliothèques de l’enseignement supérieur, réalisé par l’ABES.
    • DBpedia et Wikipedia

    URI et URL dans data.bnf.fr

    Publication sur le Web sémantique : identifiants ARK et URI

    La BnF identifie les descriptions bibliographiques et les notices d’autorité ainsi que les documents numériques avec des identifiants ARK.

    L'identifiant ARK est construit de la façon suivante (exemple sur une notice du catalogue général):

    En savoir plus sur les identifiants ARK à la BnF.

    L’identifiant de la notice est aussi utilisé en interne pour lier les différentes notices et éventuellement les différentes bases entre elles.
    Exemple :
    La notice http://catalogue.bnf.fr/ark:/12148/cb30625225, est liée à la notice de Victor Hugo
    100 $311907966 $w.0..b.....$aHugo$mVictor$d1802-1885$40070

    Dans data.bnf.fr, les identifiants URI des unités documentaires sont établis à partir de l’identifiant ARK des notices d’autorité du catalogue général. Ils identifient les concepts décrits dans la classe skos: concept de notre modèle.

    Exemple :
    la notice d'autorité de Victor Hugo dans le catalogue général http://catalogue.bnf.fr/ark:/12148/cb11907966z et le "concept" de Victor Hugo dans data.bnf.fr http://data.bnf.fr/ark:/12148/cb11907966z sont construits sur le même identifiant ark.
    Ce sont des identifiants pérennes, http et actionnables qui permettent la publication des unités documentaires sur le Web sémantique.

    URL, négociation de contenu et redirection.

    Afin de faciliter l’indexation des pages par les moteurs de recherche, les URL comprennent des labels explicites.
    L’URL des pages œuvre, auteur, thème est formée suivant le principe : http://data.bnf.fr/ID/label

    Exemple :
    Personne : http://data.bnf.fr/ ID / prénom (100$m) _ nom (100$a)
    Organisation : http://data.bnf.fr / ID / nom (110$a)
    Œuvre : http://data.bnf.fr/ ID / titre (245$a ou 14X$a) _ complément de titre ($i)
    Pour Victor Hugo :
    http://data.bnf.fr/11907966/victor_hugo/

    Un mécanisme de redirection HTTP depuis les identifiants simples et les identifiants ARK vers les URL a été mis en place :


    http://data.bnf.fr/ark:/12148/cb11907966z redirige via HTTP 303 vers http://data.bnf.fr/11907966/victor_hugo/
    http://data.bnf.fr/11907966 redirige via HTTP 303 vers http://data.bnf.fr/11907966/victor_hugo/
    http://data.bnf.fr/11907966/victor_hugo redirige via HTTP 301 vers http://data.bnf.fr/11907966/victor_hugo/

    Le système de négociation de contenu est le suivant :
    http://data.bnf.fr/11907966/victor_hugo/” retourne une représentation du document générique qui est fonction de la négociation de contenu et donc des en-tête de la requête HTTP. Dans la réponse, l'en-tête « Content-location » est positionné à « data »/ « id-pivot »/description-lisible/ « lang ». « extension-mime »
    On peut avoir par exemple :


    http://data.bnf.fr/11907966/victor_hugo/fr.html
    http://data.bnf.fr/11907966/victor_hugo/en.html
    http://data.bnf.fr/11907966/victor_hugo/rdf.xml
    http://data.bnf.fr/11907966/victor_hugo/rdf.n3
    http://data.bnf.fr/11907966/victor_hugo/fr.pdf
    http://data.bnf.fr/11907966/victor_hugo/en.pdf
    Il n'y a pas de langue pour les fichiers RDF.

    Pour faciliter la vie des internautes, les URL qu'ils sont susceptibles d'essayer ou d'inventer doivent renvoyer un résultat. Comme ces URLs n'existent pas, on utilise le code HTTP 303 pour la redirection vers une représentation pré-déterminée et on ignore les en-têtes de négociation de contenu. data/1234/victor_hugo.html => data/1234/victor_hugo/fr.html data/1234/victor_hugo.rdf => data/1234/victor_hugo/rdf.xml data/1234/victor_hugo.n3 => data/1234/victor_hugo/rdf.n3 data/1234/victor_hugo.pdf => data/1234/victor_hugo/fr.pdf

    Mécanique FRBR et concepts œuvres, auteurs et sujets

    Modèle FRBR

    Data.bnf.fr s’inscrit dans les évolutions récentes en matière de description bibliographique en expérimentant et adaptant le modèle FRBR (Functional requirements for Bibliographic Records) élaboré par l’IFLA.
    Ce modèle comprend trois groupes d'entités liées par des relations : les informations sur les documents, les personnes physiques ou morales, et les sujets ou thèmes.

    • Les pages « œuvres » :

    Le premier groupe du modèle FRBR décrit les différents aspects d’une production intellectuelle ou artistique, à travers 4 niveaux : l’œuvre, l’expression, la manifestation et l’item.
    Le niveau de l'œuvre est celui de la création intellectuelle ou artistique. Exemple : Le colonel Chabert d'Honoré de Balzac. Les pages « œuvres » de data.bnf.fr sont créées à partir des notices d'autorité correspondantes de la BnF, présentes dans le Catalogue général.
    Le niveau de l’expression (différentes versions d’une même œuvre comme une traduction, une adaptation ou une abréviation) n’apparaît pas dans les pages html de data.bnf.fr, mais il est présent dans le RDF correspondant.
    Le niveau de la manifestation est celui de la matérialisation d'une expression. Exemple : une édition des Misérables comme « Nouvelle impression illustrée. 1879-1882. Paris. E. Hugues ». Les manifestations d’une œuvre sont listées dans la page « œuvre » et regroupées dans la section « Vie et éditions de l’œuvre ». Ce niveau correspond à la notice bibliographique dans le catalogue général de la BnF ou, dans le catalogue BnF-Archives et manuscrits, à un niveau de description identifié par une cote.
    Le niveau de l'item est celui de l'exemplaire physique. Il est accessible par le lien vers la notice dans le Catalogue général de la BnF ou dans BnF-Archives et manuscrits, ou vers l'exemplaire numérisé dans la bibliothèque numérique Gallica.

    Notons que des relations de tout à partie peuvent exister entre :

    • une œuvre et une autre œuvre. Par exemple : Le Père Goriot, d'Honoré de Balzac, est contenu dans Les Scènes de la vie privée du même auteur, et tous deux ont le statut d'œuvre et sont dotés d’une page data.bnf fr.
    • une manifestation et une autre manifestation. Par exemple : une édition particulière du Père Goriot est contenue dans la manifestation Etudes de mœurs, qui est une édition regroupant plusieurs textes de Balzac.

    • Les pages « auteurs » :

    Une personne peut être auteur d'une œuvre (un lien existe alors entre la page « auteur » et la page « œuvre » correspondante) ou contributeur d'une expression (préfacier, traducteur, librettiste...). Cependant, le niveau de l'expression n’étant pas distinct de celui de la manifestation dans les pages html de data.bnf.fr, les contributeurs apparaissent au niveau de la manifestation.
    Les différents rôles de création ou de contribution d’une personne font l'objet d'un référentiel dans le format Intermarc adopté par la BnF, ainsi que de la part de la bibliothèque du Congrès ; ces référentiels complètent le RDF des pages.

    • Les pages « thèmes » :

    Parmi les données exposées et récupérables, se trouvent notamment les notices de sujets RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié) de la BnF. Elles ont été converties dans le langage RDF SKOS (Simple Kowledge Organisation), dans le cadre du projet européen TELplus. Ce référentiel est désormais maintenu à jour sur data.bnf.fr avec la base de données totale et actualisée de la BnF.
    Pour obtenir des URI déréférençables dans le site data.bnf.fr, les URI du projet initial, de type http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12650268p, sont converties en URI simplement composés d’une racine http://data.bnf.fr et de l’ark de la notice RAMEAU correspondante.
    Exemple : l’URI type http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12650268p, pour le sujet « ornithologie », sera remplacé par : http://data.bnf.fr/ark:/12148/cb12650268p
    Les manifestations, ayant pour sujet un terme RAMEAU, sont rattachées à la page « Thème » correspondante.
    De plus, le site comprend des pages regroupant des études (œuvres et manifestations) au sujet d'une œuvre ou d'un auteur. Elles ne sont pas indexées par les moteurs de recherches et ne sont accessibles que depuis les pages « œuvres » ou « auteurs » correspondantes. Par exemple : sur la page « Napoléon », on trouvera un lien vers une page regroupant les documents portant sur Napoléon, tels que Vie de Napoléon Buonaparte, 1827.

    Alignements et regroupements par œuvre (« clustering »)

    Dans les pages « auteurs » et « œuvres », les manifestations sont regroupées autour des œuvres correspondantes grâce au lien à une notice d'autorité Titre Conventionnel (TIC), exprimé dans les notices bibliographiques d’origine du Catalogue général.
    Pour certaines manifestations non reliées dans le catalogue, un alignement simple est d’ores et déjà mis en œuvre dans data.bnf.fr : lorsqu’une manifestation est expressément liée, dans la notice bibliographique d’origine, à la notice d’autorité de l’auteur et que la chaîne de caractères du titre correspond exactement à celle de l’œuvre, la manifestation est automatiquement rattachée à l’œuvre.
    Exemples : Notice bibliographique de la BnF avec un lien à la notice autorité auteur « Jean de la Fontaine » et un lien vers la notice d’autorité titre « Les Fables ». Notice bibliographique de la BnF sans lien vers la notice d’autorité titre « La cigale et la fourmi » mais avec un lien vers la notice autorité auteur La Fontaine.

    Modèle de données RDF

    Le schéma ci-dessous présente l'organisation générale des données dans data.bnf.fr, fondé sur les grandes entités du modèle FRBR :

    Consulter le schéma simple du modèle de données

    Exemple 1 : Victor Hugo, auteur des Contemplations.

    Exemple de graphe 1 : Victor Hugo, auteur des Contemplations.


    Exemple 2 : Charles Baudelaire, préfacier d’une édition du Scarabée d’or d’Edgar Poe.

    Exemple de graphe 2 : Charles Baudelaire, préfacier d’une édition du Scarabée d’or d’Edgar Poe.

    Consulter le schéma complet du modèle de données

    Consulter le schéma complet du modèle de données.

    Ontologie et vocabulaires employés

    La réutilisation de vocabulaires existants a été privilégiée pour favoriser l'interopérabilité, en particulier :
    rdf : http://www.w3.org/1999/02/22-rdf-syntax-ns;
    rdfs : http://www.w3.org/2000/01/rdf-schema ;
    skos : http://www.w3.org/2004/02/skos/core ;
    dc : http://dublincore.org/documents/dces/ ;
    foaf : http://xmlns.com/foaf/spec/ ;
    RDAgroup2elements : http://rdvocab.info/uri/schema/FRBRentitiesRDA ;
    RDArelationships : http://rdvocab.info/RDARelationshipsWEMI
    RDVocab : http://RDVocab.info/Elements.
    owl : http://www.w3.org/TR/owl-features/
    ore : http://www.openarchives.org/ore/1.0/rdfxml

    Néanmoins, certaines propriétés et classes ne peuvent être exprimées que par une ontologie et des vocabulaires propres à la BnF.

    Vocabulaires BnF

    Les référentiels spécifiques de la BnF sont déclarés à l’adresse suivante : http://data.bnf.fr/vocabulary.
    Liste des vocabulaires :

    • Liste des codes de pays : http://data.bnf.fr/vocabulary/countrycodes
    • Liste des codes de rôles : http://data.bnf.fr/vocabulary/roles, alignés sur les codes de rôles de la Bibliothèque du Congrès. Il s’agit des rôles de création ou de contribution exercés par les personnes ou organismes sur les documents (par exemple, auteur, dialoguiste, éditeur scientifique, dessinateur, etc.)
    • Liste des types de sujets RAMEAU : http://data.bnf.fr/vocabulary/scheme. Le référentiel RAMEAU, utilisé à la BnF, dans le format Intermarc, permet d’identifier le sujet des ressources (indexation sujet). Parmi les 8 types de sujets, les plus courants sont les noms communs, les noms géographiques et les subdivisions chronologiques.

    Présentation de l’ontologie BnF : bnf-onto

    Pour publier ses ontologies, la BnF a choisi un espace de nommage homogène, de forme http://data.bnf.fr/ontology.

    L’ontologie bnf-onto est déclarée à l’adresse suivante : http://data.bnf.fr/ontology/bnf-onto/.

    Liste des propriétés :
    anl = une notice analytique (ANL) est une sous-notice bibliographique établie pour décrire une partie d’un document (texte inclus dans un ouvrage, illustration d’un livre, etc.).http://data.bnf.fr/ontology/bnf-onto/anl.
    cote = cote d’un document d’archives : numéro unique identifiant une unité intellectuelle ou matérielle conservée dans les collections (manuscrit, dossier, etc.).http://data.bnf.fr/ontology/bnf-onto/cote.
    depiction = la vignette préférée d’une image, choisie par un opérateur pour illustrer une page data.bnf.fr.http://data.bnf.fr/ontology/bnf-onto/depiction.
    ean = numéro d’identification EAN (European Article Numbering), qui correspond au code barre d’un livre. http://data.bnf.fr/ontology/bnf-onto/ean.
    expositionVirtuelle = URL d’une exposition virtuelle de la BnF.http://data.bnf.fr/ontology/bnf-onto/expositionVirtuelle.
    isbn = numéro international d’identification d’un livre, ISBN (International standard book number). http://data.bnf.fr/ontology/bnf-onto/isbn.
    imgAlt = texte alternatif pour les images. http://data.bnf.fr/ontology/bnf-onto/imgAlt.
    issn = numéro international d’identification d’un périodique, ISSN (International standard serial number).http://data.bnf.fr/ontology/bnf-onto/issn.
    ismn = numéro international d’indentification pour les publicatiosn musicales imprimées (en particulier les partitions), ISMN (International standard music number).http://data.bnf.fr/ontology/bnf-onto/ismn.
    ouvrageJeunesse = édition d’un ouvrage destinée à un public jeune. Cette propriété permet de trier les éditions, qui ont souvent un contenu différent, adapté au public jeune, malgré un titre identique.http://data.bnf.fr/ontology/bnf-onto/ouvrageJeunesse.
    role = nom (litéral) pour désigner en toutes lettres le rôle des contributeurs.http://data.bnf.fr/ontology/bnf-onto/role.

    Données embarquées: schema.org et Opengraph Protocol

    Les pages « auteurs », « œuvres » et « thèmes » sont ouvertes sur le Web, et accessibles directement par les internautes depuis les moteurs de recherche. C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, nous avons choisi d'embarquer deux types de données pour structurer les pages html « auteurs », « œuvres » et « thèmes » :

  • Schema.org, qui fournit un vocabulaire pour ajouter de l'information au contenu HTML avec un format de microdonnées, favorisant le référencement par les grands moteurs de recherche.
  • Nous avons utilisé les éléments suivants, s'appliquant à toute la partie « body » du html :

    Pages « Auteur »
    itemtype=http://schema.org/Person
    itemprop="description" itemprop="birthdate" itemprop="deathdate" itemprop="nationality" itemprop="memberOf"

    itemtype= http://schema.org/Organization
    itemprop="description" itemprop="image" itemprop="name" itemprop="url" itemprop="members" itemprop="founding date" itemprop="founders"
    Avec, pour les groupes, des sous-classes d'organisation :
    itemscope itemtype= http://schema.org/PerformingGroup itemscope itemtype= http://schema.org/DanceGroup itemscope itemtype= http://schema.org/TheaterGroup itemscope itemtype= http://schema.org/MusicGroup

    Pages « Œuvre »
    itemtype=http://schema.org/Book
    itemprop="description" itemprop="inLanguage" itemprop="datePublished" itemprop="genre"

  • Opengraph Protocol (OG) qui permet aux pages d'être représentées dans les réseaux sociaux :
  • C'est un vocabulaire très simple, mis en place pour encoder en RDFa quelques métadonnées qui seront récupérées lorsque l'utilisateur ajoutera la ressource à son profil Facebook. Dans le header de la page HTML, les métadonnées suivantes sont intégrées grâce à des balises META :

    og: title (titre de la page)
    og: description (description du contenu de la page)
    og: type (type de ressource décrite : auteur et livre)
    og: url (URL de la page)
    og: image (URL de l’image illustrant la page)
    og: author (pour les pages « Œuvres », le nom de l’auteur)

    Exploitation des données bibliographiques dans data.bnf.fr

    Data.bnf.fr s’appuie sur des données bibliographiques structurées et liées pour construire les pages auteur, œuvre et thème, en particulier :

    • Structure : les zones et sous-zones du format MARC.

    Par exemple, la page regroupant tous les documents au sujet d’un auteur ou d’une œuvre, est constituée en retrouvant automatiquement toutes les notices bibliographiques liées en zone 6XX (zone d’indexation sujet) à la notice d’autorité personne ou œuvre.
    • Liens : entre notices bibliographiques ou instruments de recherche et notices d’autorité.

    Les liens aux données d’autorité personne et œuvre réalisés dans les descriptions bibliographiques des documents permettent de les regrouper dans des pages auteur ou œuvre de manière fiable.
    Exemple : la description de l’édition « l’Alchimiste » (http://catalogue.bnf.fr/ark:/12148/cb31009441) d’Alexandre Dumas est rattaché à la notice d’autorité « Alexandre Dumas » (http://catalogue.bnf.fr/ark:/12148/cb119010630), en zone 100 $3 (Intermarc).
    En Intermarc : 100 $311901063 $w.0.2b.....$aDumas$mAlexandre$d1802-1870$40070
    • Codes de fonctions associés à ces liens

    Les différentes activités dans les pages auteurs correspondent aux différents types de contributions des auteurs sur des documents (traducteur, préfacier, compositeur…).
    Elles sont retrouvées automatiquement grâce aux codes de fonctions associés au lien entre la notice bibliographique et la notice d’autorité.
    Ces codes de fonctions sont répertoriés ici : http://data.bnf.fr/vocabulary/roles.
    Exemple : Baudelaire est traducteur de « Dix contes d'Edgar Poe » (http://catalogue.bnf.fr/ark:/12148/cb311263053).
    La notice bibliographique du document est liée à la notice d’autorité de l’auteur « Charles Baudelaire » avec un code de fonction 0680 qui correspond au rôle de traducteur. 700 $311890582 $w 0 b.....$aBaudelaire$mCharles$d1821-1867$40680

    Mappings entre le format InterMarc et le RDF fourni

    Nous fournissons des tableaux des équivalences entre le format Intermarc employé à la BnF, le format Unimarc, utilisé couramment comme format d'échange en bibliothèques, et les vocabulaires RDF tel qu'il est employé dans le site data.bnf.fr.

    Vous trouverez :

  • la conversion de sujet RAMEAU à RDF,
  • la conversion des notices d'autorité titre de la BnF (titres uniformes textuels, titres conventionnels et titres uniformes musicaux),
  • la conversion des notices d'autorité personne vers le RDF,
  • la conversion des notices d'autorité organisation vers le RDF,
  • la conversion des notices bibliographiques vers le RDF,
  • la conversion de notices du catalogue BnF archives et manuscrits en EAD (encoded archive description).