À propos de data.bnf.fr

Sommaire

Objectifs du projet data.bnf.fr

Les principaux objectifs de data.bnf.fr sont les suivants :

  • accroître la visibilité des données de la BnF, par une meilleure exposition sur le Web,
  • fédérer les données de la BnF, au sein et au-delà des catalogues,
  • contribuer à la coopération et l’échange de métadonnées par la création de liens entre des ressources structurées et de confiance,
  • faciliter la réutilisation des métadonnées (sous Licence ouverte) par des tiers.

Le projet data.bnf.fr a pour but de rendre les données de la Bibliothèque nationale de France plus utiles sur le Web. Ces données sont d’ordres divers ; elles permettent notamment de décrire et identifier les documents conservés à la BnF, ainsi que les personnes ou organisations qui en sont les auteurs. Le site permet de rassembler autour de ses pages d'auteurs, d'œuvres, de thèmes, de lieux, de dates et de périodiques des ressources de la Bibliothèque nationale de France, ainsi que des ressources extérieures. Ces pages articulent les différents contenus, liens et services que l'établissement fournit sur Internet, qui sont pour des raisons techniques dispersés dans les différentes applications de la BnF. Le projet s’inscrit en outre dans une démarche d’ouverture de la BnF au Web de données et d’adoption des standards du Web sémantique.

Mis en ligne en juillet 2011, data.bnf.fr continue d’évoluer et de s’accroître.

Open data

Les données de data.bnf.fr sont disponibles selon la Licence ouverte de l'État, utilisée notamment par data.gouv.fr. La réutilisation et la reproduction des données RDF sont libres et gratuites pour tout usage, y compris commercial. Une mention d’attribution est nécessaire.
Pour en savoir plus : Conditions d’utilisation des données de data.bnf.fr

Le projet data.bnf.fr se place ainsi résolument dans le mouvement d’ouverture des données publiques (Open Data). Portée par des acteurs civiques et les gouvernements, l’ouverture des données publiques vise à rendre accessibles les données non nominatives, ne relevant ni de la vie privée, ni de la sécurité et collectées ou produites par des organismes publics. Intégrée à la législation française par la transposition de la directive européenne de 2003 (Directive 2003/98/EC du Parlement européen et du Conseil du 17 novembre 2003 concernant la réutilisation des informations du secteur public) dans l’Ordonnance numéro 2005-650 du 6 juin 2005 relative à la liberté d’accès aux documents administratifs et à la réutilisation des informations publiques, l’ouverture des données publiques s’inscrit dans une politique nationale.

Ses principaux enjeux sont démocratiques et économiques, à savoir d’une part rendre l’action publique plus transparente et efficace et rationaliser la création de données publiques, par la diffusion et la mise en commun des données et d’autre part développer l’activité économique par la mise à disposition d’informations ré-exploitables, commercialement ou non.

Ses objectifs s’accordent avec les missions de la Bibliothèque nationale de France, à savoir « assurer l’accès du plus grand nombre aux collections, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec la conservation de ces collections », et permettre « la consultation à distance en utilisant les technologies les plus modernes de transmission des données » (art. R341-2 du Code du patrimoine).

Il s’agit donc de faire partager aux citoyens les bénéfices du travail des bibliothèques sur l’identification et le signalement des collections qu’elles possèdent, y compris les collections numériques. C’est un moyen d’améliorer la circulation et la réutilisation des données de la BnF, en les rendant interopérables pour leur donner un nouveau degré d’audience et de visibilité sur le Web.

Contour des données diffusées sur le site

Data.bnf.fr expose des données structurées de haute qualité.

Les pages HTML de data.bnf.fr sont générées automatiquement à partir des données et des identifiants figurant dans les différentes bases de la BnF : BnF catalogue général, BnF archives et manuscrits, Gallica. Les pages HTML sont générées selon des processus informatiques utilisant les technologies du Web sémantique.

Le dépôt légal des documents publiés en France étant obligatoire, les collections disponibles sur les auteurs et les œuvres sont très complètes et reflètent la diversité de la production culturelle française. Plusieurs millions de documents, libres de droits, sont numérisés et accessibles gratuitement dans Gallica.

Les notices d’autorité sont à la base des pages du site : les « autorités personne et organisation » pour les pages d'auteurs, les « autorités titres » pour les pages d'œuvres et les « autorités RAMEAU » (le langage d’indexation sujet utilisé à la BnF) pour les pages thématiques.

En 2021, data.bnf.fr dispose d'une couverture presque totale des données de bonne qualité des catalogues, avec notamment plus de 2 millions d'auteurs à son actif.

Comment fonctionne data.bnf.fr ?

Data.bnf.fr extrait, transforme et regroupe dans une base commune des données issues de bases distinctes et produites dans des formats différents, afin de les lier entre elles et de les rendre interopérables.

Ses pages sont indexées par les moteurs de recherche, alors que ceux-ci ne référencent pas les données et les métadonnées présentes dans les bases non indexables de la BnF, et signalent les documents numériques directement accessibles.

Pour cela, data.bnf.fr s’appuie sur plusieurs éléments :

  • les identifiants uniques et pérennes attribués à chaque notice : ce sont des identifiants ARK à la BnF, attribués aux notices du Catalogue général et aux documents numérisés de Gallica,
  • les standards de description bibliographique, comme le modèle IFLA-LRM et sa modélisation en RDF pour leur exposition dans le web de données,
  • les notices d’autorité décrivent des personnes, des organisations, des œuvres et des thèmes,
  • des techniques d’alignement et de fédération de données.

Les notices d’autorité constituent le noyau de la structuration des données : les informations issues de différentes sources qui sont liées aux mêmes auteurs, œuvres ou thèmes se retrouvent ainsi agrégées dans ces pages.

Les pages Auteur rassemblent toutes les notices bibliographiques contenant un lien vers l’identifiant de l’auteur.
Les pages Œuvre rassemblent toutes les notices contenant à la fois un lien vers l’identifiant de l’auteur et un lien vers celui de l’œuvre. En l’absence de lien, un mécanisme d’alignement simple par comparaison des chaînes de caractères est mis en œuvre.
Les pages Thème agrègent les informations sur un thème donné (les différentes manières de le nommer, forme retenue et formes rejetées, à la BnF et dans d’autres établissements, selon plusieurs vocabulaires) et les œuvres sur ce thème.


On trouve également dans data.bnf.fr :
Des pages Lieu construites à partir de deux types de notices distinctes (Rameau d'une part, département des Cartes et plans d'autre part), progressivement fusionnées sous forme de pages uniques fournissant notamment des coordonnées géographiques.
Des pages Date qui affichent des relations entre des œuvres, des organisations, des auteurs, des documents, etc. et cette date.
Des pages Spectacle qui rassemblent les notices bibliographiques éponymes.
Des pages Périodique, également construites à partir des notices bibliographiques de périodiques, fournissent des informations succinctes sur le titre, et le cas échéant, sur les auteurs en relation.

Création algorithmique d'œuvres

Data.bnf.fr permet d'expérimenter une nouvelle manière de structurer l'information, non plus centrée sur le document mais sur l'oeuvre de l'auteur, mais l'oeuvre à laquelle se rattache chaque document est rarement décrite dans le catalogue (moins de 8% des documents). Si on voulait reprendre ce travail manuellement sur les 12 millions de notices du catalogue, il faudrait y consacrer 45 ans, à raison de 2 minutes par document. Or un processus national est en cours, la Transition bibliographique, visant à mettre en pratique cette nouvelle structuration (en adoptant le modèle IFLA-LRM, Library Reference Model).

La BnF expérimente donc un processus semi-automatique pour générer la description de chaque oeuvre à partir des informations décrivant ses éditions successives. Le premier corpus traité concerne les imprimés du XXe siècle.

Pour chaque auteur, on extrait les titres de ses publications pour les regrouper par similarité. Et pour chaque groupe, un programme calcule les informations relatives à l'oeuvre à partir de ce qu'il trouve dans les documents (formes de titre alternatives, titres de traduction, date de la première publication, autres auteurs). Le résultat de ces calculs est ensuite mis en ligne sur data.bnf.fr pour évaluer la pertinence du processus.

Il est également soumis au regard critique des internautes, qui sont invités à réagir pour nous signaler des problèmes.

Comme ces problèmes peuvent avoir plusieurs origines (données sources, critères de regroupement, etc), la BnF ne peut pas s'engager pas à les corriger rapidement. Elle peut en revanche l'intégrer dans les corrections à apporter, pour le jour où ces mêmes oeuvres seront versées dans le catalogue général.

Vous pouvez aussi participer à ce grand chantier et nous aider à améliorer la fiabilité des données en signalant les erreurs que vous constatez sur ces œuvres calculées automatiquement : data[arobase]bnf.fr.

Les liens externes dans data.bnf.fr

Data.bnf.fr s’intègre dans le Web en proposant des liens permettant de rediriger l’utilisateur vers des ressources internes ou externes à la BnF.

On trouve plusieurs types de liens :

  • des liens vers d’autres référentiels extérieurs avec lesquels les données de la BnF sont alignées, comme la Bibliothèque du Congrès, la Deutsche Nationalbibliothek, VIAF (fichier d’autorité international virtuel), IdRef, Geonames, Agrovoc et Thesaurus W.
  • des liens vers des formulaires de recherche dans lesquels la recherche de l’auteur, du thème ou de l’œuvre a été remplie automatiquement : BnF catalogue général, CCFr, BnF archives et manuscrits, CNLJ-La Joie par les livres, Europeana, SUDOC (Système universitaire de documentation), Worldcat, Wikipedia.
  • des données de Wikipedia : elles permettent de proposer les vignettes illustrant les auteurs, s’il n’en existe pas dans Gallica. Ces données sont récupérées via DBpedia et Wikidata.

Des formats bibliographiques au web sémantique

Le projet data.bnf.fr utilise des données produites dans des formats divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives et les manuscrits, et Dublin Core pour la bibliothèque numérique.

Ces données sont restructurées, regroupées, enrichies par des traitements automatiques et publiées selon la recommandation du W3C pour le web sémantique, RDF. Le résultat est disponible sur ce site, selon plusieurs syntaxes de RDF : RDF-XML, RDF-N3, et RDF-NT.
Pour en savoir plus : Web sémantique et modèle de données

Les identifiants ARK

Considérations générales sur les ARK BnF

La BnF attribue des identifiants dans le domaine ARK 12148 (Bibliothèque nationale de France) selon les principes suivants.

  • Aucun identifiant ARK ne sera attribué à nouveau ; c'est-à-dire qu'une fois qu'un lien entre un identifiant ARK et un objet aura été publié, ce lien devra être considéré comme unique, et ce pour une durée indéfinie.
  • Les identifiants ARK attribués par la BnF ne contiennent, dans la mesure du possible, aucune information sémantique facilement reconnaissable ; cela contribue à faciliter leur utilisation indépendamment d'un contexte de temps ou de lieu.
  • Les identifiants ARK attribués par la BnF contiennent un caractère de contrôle qui les garantit contre des erreurs de caractère isolées et des erreurs de transposition. Un utilisateur ayant fait une faute de frappe en tapant un ARK obtiendra une réponse HTTP 400 et un message l’informant que l’ARK fourni est erroné.

Mutabilité des ressources

La mutabilité des ressources présentes dans data.bnf.fr et identifiées par des ARK est définie comme suit.

  • Les données présentes dans data.bnf.fr et identifiées par des ARK sont issues de différents catalogues et applications de la BnF (Catalogue général, Gallica, BAM). Néanmoins, les métadonnées descriptives diffusées par data.bnf.fr présentent un différentiel par rapport à celles des applications sources. Les modifications peuvent être de plusieurs ordres :
    • Les métadonnées sont susceptibles d’avoir été enrichies de données extérieures (Wikimedia, VIAF, Bibliothèque du Congrès, etc.) ;
    • Les métadonnées peuvent avoir été enrichies grâce à des inférences permettant de déduire des informations et des liens non présents dans les données sources ;
    • Certaines métadonnées présentes initialement dans les notices sources des catalogues et applications de la BnF peuvent ne pas être affichées dans les données de data.bnf.fr.
  • Data.bnf.fr met en avant des données dont l’application n’est pas la productrice. Les notices sources peuvent être scindées, remplacées, supprimées ou dé-publiées des applications et catalogues de la BnF. Dans ces différents cas, il est nécessaire de se référer aux politiques de maintien des ARK émanant des différents sites producteurs des notices. À terme, data.bnf.fr mettra en place des mécanismes de redirection pour que les ressources soient accessibles.

Autorité d’adressage

L’autorité d’adressage data.bnf.fr gère les qualificatifs de service génériques suivants :

  • « description » : les données dans data.bnf.fr sont scindées en deux groupes:
    • Les informations portées par un ARK suffixé par #about concernent les entités elles-mêmes, les choses du monde réel ;
    • Les informations portées par un ARK non suffixé concernent les notices, les descriptions des entités
  • « policy » : politique de permanence de la ressource. La politique de permanence des ressources rendues disponibles sur le site data.bnf.fr est à consulter sur les sites producteurs des données, notamment le Catalogue général, Gallica, BAM, etc.

Disponibilité

Les services (hors sparql) et les données de data.bnf.fr sont accessibles 24h/24h 7j/7j. Il convient de mentionner que des indisponibilités temporaires peuvent être liées à des problématiques de service interne et ne sont pas toujours prévisibles.

Pour en savoir plus, sur le site de la BnF : L’identifiant ARK (Archival Resource Key)

Principaux jalons du projet

Les principales évolutions du projet sont résumées sur cette page.

Data.bnf.fr et Gallica ont reçu le Stanford Prize for Innovation in Research Libraries (SPIRL).

Références

FOUCHER Tiphaine, « Le web de données en pratique : data.bnf.fr », Vidéo coproduite par la BnF et le Cnfpt.

LEVOIN Xavier, 2021. Data.bnf.fr : améliorer la découvrabilité des contenus culturels sur le web, Archimag, n°341, p. 28-29.

LAPÔTRE Raphaëlle, 2018. Data.bnf.fr as a sandbox for FRBRization: automated work creation in data.bnf.fr, SWIB18 : https://youtu.be/-cabjegojNw.

LAPÔTRE Raphaëlle, 2017. Library Metadata on the Web: the Example of data.bnf.fr, JLIS.it 8, 3, p. 58-70. Doi: 10.4403/jlis.it-12402.

BERMES Emmanuelle, 2016. Vers de nouveaux catalogues. Paris : Cercle de la librairie.

BERMES Emmanuelle, BOULET Vincent, LECLAIRE Céline, 2016. Améliorer l’accès aux données des bibliothèques sur le web : l’exemple de data.bnf.fr.IFLA World Library and Information Congress : http://library.ifla.org/1447/1/081-bermes-fr.pdf.

BERMES Emmanuelle, 2014. Les bibliothèques sur le Web.Les catalogues au défi du Web (session 2) : http://video.cnfpt.fr/conferences-1/les-catalogues-au-defi-du-web-les-bibliotheques-sur-le-web.

BERMES Emmanuelle, avec la collaboration d’Antoine Isaac et Gautier Poupeau, 2013. Le Web sémantique en bibliothèque. Paris : Cercle de la librairie.