Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données sur le Web, y compris hors de la communauté des bibliothèques.
Afin d’encourager la réutilisation des données brutes, cette ouverture a deux aspects :
Les outils du « Web de données » répondent à des problèmes anciens des bibliothèques, en particulier autour de la gestion de formats divers (formats MARC, Dublin Core, XML-EAD, TEI…) et de l’échange de données.
Ils offrent une présence nouvelle de ces ressources sur le Web en les rendant plus facilement accessibles et réutilisables et en les liant à des ressources complémentaires.
Le projet data.bnf.fr utilise des données produites dans des formats divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives, et Dublin Core pour la bibliothèque numérique.
Ces données sont modélisées, et regroupées par des traitements automatiques et publiées selon les standards du web sémantique.
Data.bnf.fr et Gallica ont reçu le Stanford Prize for Innovation in Research Libraries (SPIRL). Voir le rapport complet.Pour en savoir plus :
CubicWeb est une plateforme open source de développement d'applications web sémantique, publiée sous la licence LGPL.

Les données sont disponibles sur ce site, selon plusieurs syntaxes de RDF (Resource description framework), soit RDF-XML, RDF-N3, et RDF-NT, ainsi qu’en JSON.
Vous pouvez les récupérer :
Un dump de l'intégralité des données RDF est également disponible sur notre serveur FTP : hôte : echanges.bnf.fr, port : 21
login : databnf, mot de passe : databnf
et via HTTP: dump rdf complet (rdf/xml)
Des dumps par types de données sont également disponibles :
La licence d'utilisation de ces données est disponible ici.
Dernière mise à jour : 22 octobre 2012.
Les données de data.bnf.fr sont liées aux pages équivalentes dans d’autres répertoires de données. Elles sont « alignées » à des sets extérieurs : id.loc.gov pour les langues et nationalités, dewey.info pour les sujets, DCMI type pour les types de documents.
Elles sont aussi alignées vers des jeux de données recensés dans CKAN, en particulier dbpedia et VIAF.
Les sujets RAMEAU sont alignés avec :
Un alignement a été réalisé entre le référentiel RAMEAU et les principaux domaines de la classification Dewey (http://dewey.info).
Exemple : le thème RAMEAU « Architecture » est aligné avec le domaine Dewey « Architecture ».
Les données sur les auteurs sont aussi liées à :
La BnF identifie les descriptions bibliographiques et les notices d’autorité ainsi que les documents numériques avec des identifiants ARK.
L'identifiant ARK est construit de la façon suivante (exemple sur une notice du catalogue général): 
En savoir plus sur les identifiants ARK à la BnF.
L’identifiant de la notice est aussi utilisé en interne pour lier les différentes notices et éventuellement les différentes bases entre elles.
Exemple :
La notice http://catalogue.bnf.fr/ark:/12148/cb30625225, est liée à la notice de Victor Hugo
100 $311907966 $w.0..b.....$aHugo$mVictor$d1802-1885$40070
Dans data.bnf.fr, les identifiants URI des unités documentaires sont établis à partir de l’identifiant ARK des notices d’autorité du catalogue général. Ils identifient les concepts décrits dans la classe skos: concept de notre modèle.
Exemple :Afin de faciliter l’indexation des pages par les moteurs de recherche, les URL comprennent des labels explicites.
L’URL des pages œuvre, auteur, thème est formée suivant le principe :
http://data.bnf.fr/ID/label
Un mécanisme de redirection HTTP depuis les identifiants simples et les identifiants ARK vers les URL a été mis en place :
Le système de négociation de contenu est le suivant :
http://data.bnf.fr/11907966/victor_hugo/” retourne une représentation du document générique qui est fonction de la négociation de contenu et donc des en-tête de la requête HTTP. Dans la réponse, l'en-tête « Content-location » est positionné à « data »/ « id-pivot »/description-lisible/ « lang ». « extension-mime »
On peut avoir par exemple :
Pour faciliter la vie des internautes, les URL qu'ils sont susceptibles d'essayer ou d'inventer doivent renvoyer un résultat. Comme ces URLs n'existent pas, on utilise le code HTTP 303 pour la redirection vers une représentation pré-déterminée et on ignore les en-têtes de négociation de contenu. data/1234/victor_hugo.html => data/1234/victor_hugo/fr.html data/1234/victor_hugo.rdf => data/1234/victor_hugo/rdf.xml data/1234/victor_hugo.n3 => data/1234/victor_hugo/rdf.n3 data/1234/victor_hugo.pdf => data/1234/victor_hugo/fr.pdf
Data.bnf.fr s’inscrit dans les évolutions récentes en matière de description bibliographique en expérimentant et adaptant le modèle FRBR (Functional requirements for Bibliographic Records) élaboré par l’IFLA.
Ce modèle comprend trois groupes d'entités liées par des relations : les informations sur les documents, les personnes physiques ou morales, et les sujets ou thèmes.
Le premier groupe du modèle FRBR décrit les différents aspects d’une production intellectuelle ou artistique, à travers 4 niveaux : l’œuvre, l’expression, la manifestation et l’item.
Le niveau de l'œuvre est celui de la création intellectuelle ou artistique. Exemple : Le colonel Chabert d'Honoré de Balzac. Les pages « œuvres » de data.bnf.fr sont créées à partir des notices d'autorité correspondantes de la BnF, présentes dans le Catalogue général.
Le niveau de l’expression (différentes versions d’une même œuvre comme une traduction, une adaptation ou une abréviation) n’apparaît pas dans les pages html de data.bnf.fr, mais il est présent dans le RDF correspondant.
Le niveau de la manifestation est celui de la matérialisation d'une expression. Exemple : une édition des Misérables comme « Nouvelle impression illustrée. 1879-1882. Paris. E. Hugues ». Les manifestations d’une œuvre sont listées dans la page « œuvre » et regroupées dans la section « Vie et éditions de l’œuvre ». Ce niveau correspond à la notice bibliographique dans le catalogue général de la BnF ou, dans le catalogue BnF-Archives et manuscrits, à un niveau de description identifié par une cote.
Le niveau de l'item est celui de l'exemplaire physique. Il est accessible par le lien vers la notice dans le Catalogue général de la BnF ou dans BnF-Archives et manuscrits, ou vers l'exemplaire numérisé dans la bibliothèque numérique Gallica.
Notons que des relations de tout à partie peuvent exister entre :
Une personne peut être auteur d'une œuvre (un lien existe alors entre la page « auteur » et la page « œuvre » correspondante) ou contributeur d'une expression (préfacier, traducteur, librettiste...). Cependant, le niveau de l'expression n’étant pas distinct de celui de la manifestation dans les pages html de data.bnf.fr, les contributeurs apparaissent au niveau de la manifestation.
Les différents rôles de création ou de contribution d’une personne font l'objet d'un référentiel dans le format Intermarc adopté par la BnF, ainsi que de la part de la bibliothèque du Congrès ; ces référentiels complètent le RDF des pages.
Parmi les données exposées et récupérables, se trouvent notamment les notices de sujets RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié) de la BnF. Elles ont été converties dans le langage RDF SKOS (Simple Kowledge Organisation), dans le cadre du projet européen TELplus. Ce référentiel est désormais maintenu à jour sur data.bnf.fr avec la base de données totale et actualisée de la BnF.
Pour obtenir des URI déréférençables dans le site data.bnf.fr, les URI du projet initial, de type http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12650268p, sont converties en URI simplement composés d’une racine http://data.bnf.fr et de l’ark de la notice RAMEAU correspondante.
Exemple :
l’URI type http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12650268p, pour le sujet « ornithologie », sera remplacé par : http://data.bnf.fr/ark:/12148/cb12650268p
Les manifestations, ayant pour sujet un terme RAMEAU, sont rattachées à la page « Thème » correspondante.
De plus, le site comprend des pages regroupant des études (œuvres et manifestations) au sujet d'une œuvre ou d'un auteur. Elles ne sont pas indexées par les moteurs de recherches et ne sont accessibles que depuis les pages « œuvres » ou « auteurs » correspondantes.
Par exemple : sur la page « Napoléon », on trouvera un lien vers une page regroupant les documents portant sur Napoléon, tels que Vie de Napoléon Buonaparte, 1827.
Dans les pages « auteurs » et « œuvres », les manifestations sont regroupées autour des œuvres correspondantes grâce au lien à une notice d'autorité Titre Conventionnel (TIC), exprimé dans les notices bibliographiques d’origine du Catalogue général.
Pour certaines manifestations non reliées dans le catalogue, un alignement simple est d’ores et déjà mis en œuvre dans data.bnf.fr : lorsqu’une manifestation est expressément liée, dans la notice bibliographique d’origine, à la notice d’autorité de l’auteur et que la chaîne de caractères du titre correspond exactement à celle de l’œuvre, la manifestation est automatiquement rattachée à l’œuvre.
Exemples :
Notice bibliographique de la BnF avec un lien à la notice autorité auteur « Jean de la Fontaine » et un lien vers la notice d’autorité titre « Les Fables ».
Notice bibliographique de la BnF sans lien vers la notice d’autorité titre « La cigale et la fourmi » mais avec un lien vers la notice autorité auteur La Fontaine.
Le schéma ci-dessous présente l'organisation générale des données dans data.bnf.fr, fondé sur les grandes entités du modèle FRBR :

Exemple 1 : Victor Hugo, auteur des Contemplations.
Consulter le schéma complet du modèle de données
La réutilisation de vocabulaires existants a été privilégiée pour favoriser l'interopérabilité, en particulier :
rdf : http://www.w3.org/1999/02/22-rdf-syntax-ns;
rdfs : http://www.w3.org/2000/01/rdf-schema ;
skos : http://www.w3.org/2004/02/skos/core ;
dc : http://dublincore.org/documents/dces/ ;
foaf : http://xmlns.com/foaf/spec/ ;
RDAgroup2elements : http://rdvocab.info/uri/schema/FRBRentitiesRDA ;
RDArelationships : http://rdvocab.info/RDARelationshipsWEMI
RDVocab : http://RDVocab.info/Elements.
owl : http://www.w3.org/TR/owl-features/
ore : http://www.openarchives.org/ore/1.0/rdfxml
Néanmoins, certaines propriétés et classes ne peuvent être exprimées que par une ontologie et des vocabulaires propres à la BnF.
Les référentiels spécifiques de la BnF sont déclarés à l’adresse suivante : http://data.bnf.fr/vocabulary.
Liste des vocabulaires :
L’ontologie bnf-onto est déclarée à l’adresse suivante : http://data.bnf.fr/ontology/bnf-onto/.
Liste des propriétés :
anl = une notice analytique (ANL) est une sous-notice bibliographique établie pour décrire une partie d’un document (texte inclus dans un ouvrage, illustration d’un livre, etc.).http://data.bnf.fr/ontology/bnf-onto/anl.
cote = cote d’un document d’archives : numéro unique identifiant une unité intellectuelle ou matérielle conservée dans les collections (manuscrit, dossier, etc.).http://data.bnf.fr/ontology/bnf-onto/cote.
depiction = la vignette préférée d’une image, choisie par un opérateur pour illustrer une page data.bnf.fr.http://data.bnf.fr/ontology/bnf-onto/depiction.
ean = numéro d’identification EAN (European Article Numbering), qui correspond au code barre d’un livre. http://data.bnf.fr/ontology/bnf-onto/ean.
expositionVirtuelle = URL d’une exposition virtuelle de la BnF.http://data.bnf.fr/ontology/bnf-onto/expositionVirtuelle.
isbn = numéro international d’identification d’un livre, ISBN (International standard book number). http://data.bnf.fr/ontology/bnf-onto/isbn.
imgAlt = texte alternatif pour les images. http://data.bnf.fr/ontology/bnf-onto/imgAlt.
issn = numéro international d’identification d’un périodique, ISSN (International standard serial number).http://data.bnf.fr/ontology/bnf-onto/issn.
ismn = numéro international d’indentification pour les publicatiosn musicales imprimées (en particulier les partitions), ISMN (International standard music number).http://data.bnf.fr/ontology/bnf-onto/ismn.
ouvrageJeunesse = édition d’un ouvrage destinée à un public jeune. Cette propriété permet de trier les éditions, qui ont souvent un contenu différent, adapté au public jeune, malgré un titre identique.http://data.bnf.fr/ontology/bnf-onto/ouvrageJeunesse.
role = nom (litéral) pour désigner en toutes lettres le rôle des contributeurs.http://data.bnf.fr/ontology/bnf-onto/role.
Les pages « auteurs », « œuvres » et « thèmes » sont ouvertes sur le Web, et accessibles directement par les internautes depuis les moteurs de recherche. C'est pourquoi, outre les méthodes traditionnelles d'indexation de la page d'accueil, nous avons choisi d'embarquer deux types de données pour structurer les pages html « auteurs », « œuvres » et « thèmes » :
Nous avons utilisé les éléments suivants, s'appliquant à toute la partie « body » du html :
Pages « Auteur »
itemtype=http://schema.org/Person
itemprop="description" itemprop="birthdate" itemprop="deathdate" itemprop="nationality" itemprop="memberOf"
itemtype= http://schema.org/Organization
itemprop="description" itemprop="image" itemprop="name" itemprop="url" itemprop="members" itemprop="founding date" itemprop="founders"
Avec, pour les groupes, des sous-classes d'organisation :
itemscope itemtype= http://schema.org/PerformingGroup itemscope itemtype= http://schema.org/DanceGroup itemscope itemtype= http://schema.org/TheaterGroup itemscope itemtype= http://schema.org/MusicGroup
Pages « Œuvre »
itemtype=http://schema.org/Book
itemprop="description" itemprop="inLanguage" itemprop="datePublished" itemprop="genre"
C'est un vocabulaire très simple, mis en place pour encoder en RDFa quelques métadonnées qui seront récupérées lorsque l'utilisateur ajoutera la ressource à son profil Facebook. Dans le header de la page HTML, les métadonnées suivantes sont intégrées grâce à des balises META :
og: title (titre de la page)
og: description (description du contenu de la page)
og: type (type de ressource décrite : auteur et livre)
og: url (URL de la page)
og: image (URL de l’image illustrant la page)
og: author (pour les pages « Œuvres », le nom de l’auteur)
Data.bnf.fr s’appuie sur des données bibliographiques structurées et liées pour construire les pages auteur, œuvre et thème, en particulier :
Nous fournissons des tableaux des équivalences entre le format Intermarc employé à la BnF, le format Unimarc, utilisé couramment comme format d'échange en bibliothèques, et les vocabulaires RDF tel qu'il est employé dans le site data.bnf.fr.
Vous trouverez :