À propos de data.bnf.fr

Version en cours

Ce site, en ligne depuis juillet 2011, est développé de manière continue, avec des mises à jour régulières.

Vous consultez actuellement en ligne la Version [1.31.1] de data.bnf.fr mise en ligne le 20 septembre 2016.

Comment récupérer les données de data.bnf.fr


Sommaire :

Pour contacter l'équipe : data@bnf.fr


Présentation du projet

Les principaux objectifs du service data.bnf.fr sont :

  • accroître la visibilité des données de la BnF, par une meilleure exposition sur le Web,
  • fédérer les données de la BnF, au sein et au-delà des catalogues,
  • contribuer à la coopération et l’échange de métadonnées par la création de liens entre des ressources structurées et de confiance,
  • faciliter la réutilisation des métadonnées (sous Licence ouverte) par des tiers.

Le projet data.bnf.fr a pour but de rendre les données de la Bibliothèque nationale de France plus utiles sur le Web. Ces données sont d’ordre divers, elles permettent notamment de décrire et identifier les documents conservés à la BnF, ainsi que les personnes ou organisations qui en sont les auteurs. Le site permet de rassembler autour de ses pages auteur, œuvre, thème, date et lieu, des ressources de la Bibliothèque nationale de France, ainsi que des ressources extérieures. Ces pages articulent les différents contenus, liens et services que la BnF fournit sur Internet, qui sont pour des raisons techniques dispersés dans les différentes applications de la BnF.
Mis en ligne en juillet 2011, data.bnf.fr continue d’évoluer et de s’accroître.

Data.bnf.fr permet :

  • d’accéder aux ressources de la BnF directement depuis une page Web, sans avoir à connaître préalablement les services de la BnF ;
  • de s’orienter dans les ressources de la BnF et de trouver éventuellement des ressources extérieures.

L’objectif est donc de valoriser la richesse des fonds de la BnF sur le Web et de servir de pivot entre les différentes ressources :data.bnf.fr est donc au service des autres applications de la BnF. Enfin, le projet s’inscrit dans une démarche d’ouverture de la BnF au Web de données et d’adoption des standards du Web sémantique. Le logiciel utilisé est le logiciel open source CubicWeb.

Data.bnf.fr et Gallica ont reçu le Stanford Prize for Innovation in Research Libraries (SPIRL)

Data.bnf.fr dans le mouvement de l'ouverture des données publiques

Les données de data.bnf.fr sont disponibles selon la Licence ouverte française, utilisée par data.gouv.fr. La réutilisation et la reproduction des données RDF sont libres et gratuites pour tout usage, y compris commercial. Une mention d’attribution est nécessaire.
Pour en savoir plus : Conditions d’utilisation des données de data.bnf.fr

Le projet data.bnf.fr se place ainsi résolument dans le mouvement d’ouverture des données publiques (Open Data). Portée par des acteurs civiques et les gouvernements, l’ouverture des données publiques vise à rendre accessibles les données non nominatives, ne relevant ni de la vie privée, ni de la sécurité et collectées ou produites par des organismes publics. Intégrée à la législation française par la transposition de la directive européenne de 2003 « Directive on re-use of public sector information » (Directive 2003/98/EC) dans l’Ordonnance numéro 2005-650 du 6 juin 2005 relative à la liberté d’accès aux documents administratifs et à la réutilisation des informations publiques, l’ouverture des données publiques s’inscrit dans une politique nationale.

Ses principaux enjeux sont démocratiques et économiques, à savoir d’une part rendre l’action publique plus transparente et efficace et rationaliser la création de données publiques, par la diffusion et la mise en commun des données et d’autre part développer l’activité économique par la mise à disposition d’informations ré-exploitables, commercialement ou non.

Ses objectifs s’accordent avec les missions de la Bibliothèque nationale de France, à savoir « assurer l’accès du plus grand nombre aux collections, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec la conservation de ces collections », et permettre « la consultation à distance en utilisant les technologies les plus modernes de transmission des données » (décret du 3 janvier 1994 portant création de la BnF).

Il s’agit donc de faire partager aux citoyens les bénéfices du travail des bibliothèques sur l’identification et le signalement des collections qu’elles possèdent, y compris les collections numériques. C’est un moyen d’améliorer la circulation et la réutilisation des données de la BnF, en les rendant interopérables pour leur donner un nouveau degré d’audience et de visibilité sur le Web. Les usages possibles sont multiples et innovants. Par exemple, des bibliothèques peuvent ainsi se lier aux données de la BnF en plus de les récupérer. De plus, les données sont appelées à sortir du monde des bibliothèques et à avoir une diffusion bien plus large.

Feuille de route du projet

Les évolutions prévues à l’horizon 2019 suivent les grands axes suivants :

  • Pérenniser la diffusion en RDF des données, en améliorant la fraîcheur et la complétude des données par des mises à jour plus régulières, en publiant la totalité des références à des documents numérisés de Gallica et en intégrant de nouvelles ressources comme les informations du dépôt légal du Web.
  • Aligner les référentiels de la BnF avec ceux d’autres opérateurs de confiance sur le web et renforcer le rôle de data.bnf.fr comme pivot des données culturelles françaises en ligne.
  • Favoriser la réutilisation des données ouvertes et expérimenter des visualisations innovantes, pour offrir de nouvelles formes d’exploration, d’analyse et d’affichage des données et des collections de la BnF, comme le proposent déjà lespages « Atelier ».
  • Développer les traitements automatiques des données, en particulier pour la création de liens entre œuvres et documents, dans la perspective de l'implémentation du modèle conceptuel de présentation des notices bibliographiques FRBR dans nos catalogues. Il s'agit de calculer les liens entre notices bibliographiques et notices d’autorité titre textuels et musicaux, et à plus long terme, de proposer la création de notices d'autorité titre, lorsque ces dernières n'existent pas, par regroupement automatique des éditions (manifestations).

Pour en savoir plus : Présentation de data.bnf.fr au congrès de l’IFLA 2016

Contour des données diffusées sur le site

Data.bnf.fr expose des données structurées de haute qualité.

Les pages HTML de data.bnf.fr sont générées automatiquement à partir des données et des identifiants figurant dans les différentes bases de la BnF : BnF catalogue général, BnF archives et manuscrits, Gallica. Les pages HTML sont générées selon des processus informatiques utilisant les techniques du Web sémantique.

Le dépôt légal des documents publiés en France étant obligatoire, les collections disponibles sur les auteurs et les œuvres sont très complètes, et reflètent la diversité de la production culturelle française. Plusieurs millions de documents, libres de droits, sont numérisés et accessibles gratuitement dans Gallica.

Les notices d’autorité sont à la base des pages du site : les « autorités personne et organisation » pour les pages auteur, les « autorités titres » pour les pages œuvre et les « autorités RAMEAU » (le langage d’indexation sujet utilisé à la BnF) pour les pages thématiques.

En juin 2016, data.bnf.fr dispose d'une couverture presque totale des données de bonne qualité des catalogues, avec notamment 2 millions d'auteurs à son actif.

Les liens externes dans data.bnf.fr

Data.bnf.fr s’intègre dans le Web en proposant des liens permettant de rediriger l’utilisateur vers des liens externes au site, qu’il s’agisse de sites de la BnF ou non.

On trouve plusieurs types de liens :

  • des liens vers d’autres référentiels extérieurs avec lesquels les données de la BnF sont alignées, comme la Bibliothèque du Congrès, la Deutsche Nationalbibliothek, VIAF (fichier d’autorité international virtuel), IdRef, Geonames, Agrovoc et Thesaurus W.
  • des liens vers des formulaires de recherche dans lesquels la recherche de l’auteur, du thème ou de l’œuvre a été remplie automatiquement : BnF catalogue général, CCFr, BnF archives et manuscrits, CNLJ-La Joie par les livres, Europeana, SUDOC (Système universitaire de documentation), Worldcat, Wikipedia.
  • des données de Wikipedia : elles permettent de proposer les vignettes illustrant les auteurs, s’il n’en existe pas dans Gallica. Ces données sont récupérées via DBpedia et Wikidata.
Liens externes dans data.bnf.fr

Comment ça marche ?

Data.bnf.fr extrait, transforme et regroupe dans une base commune des données issues de bases distinctes et produites dans des formats différents, afin de les lier entre elles et de les rendre interopérables.

Ses pages sont indexées par les moteurs de recherche , alors que ceux-ci ne référencent pas les données et les métadonnées qui sont cachées dans les bases non indexables de la BnF. Les pages de data.bnf.fr décrivent les ressources de la BnF qui sont souvent dissimulées dans le Web « profond », et signalent les documents numériques directement accessibles.

Pour cela, data.bnf.fr s’appuie sur plusieurs éléments :

  • les identifiants uniques et pérennes attribués à chaque notice : ce sont des identifiants ARK à la BnF, attribués aux notices du Catalogue général et aux documents numérisés de Gallica,
  • les standards de description bibliographique , comme le modèle FRBR et sa modélisation en RDF pour leur exposition dans le web de données,
  • les notices d’autorité : ces notices décrivent des personnes, des organisations, des œuvres et des thèmes,
  • des techniques d’alignement et de fédération de données.

Les notices d’autorité constituent la noyau de la structuration des données : les informations issues de différentes sources qui sont liées aux mêmes auteurs, œuvres ou thèmes, se retrouvent ainsi agrégées dans ces pages.

Les pages Auteur rassemblent toutes les notices descriptives ayant un lien à l’identifiant de l’auteur.
Les pages Œuvre rassemblent toutes les notices ayant un lien à la fois à l’identifiant de l’auteur et à celui de l’œuvre. En l’absence d’un lien vers la notice, un mécanisme d’alignement simple par comparaison des chaînes de caractères est mis en œuvre.
Les pages Thème agrègent les informations sur un thème donné (la manière de le désigner – forme retenue et formes rejetées – à la BnF et dans d’autres établissements, selon plusieurs vocabulaires) et les œuvres parues sur ce thème.

Exposition des données en RDF

Le respect des standards du Web sémantique permet l'exposition et l'intégration de données utiles, fiables et validées dans l'univers croissant du Web de données. Ceci doit être fait conformément aux initiatives internationales qui facilitent l'utilisation des données publiques, informationnelles ou administratives.
Pour en savoir plus : Le Web sémantique à la BnF

Le socle du web sémantique est le RDF (Ressource Description Framework). Cette recommandation du Consortium W3C définit un modèle de graphe pour décrire les ressources du Web et leurs métadonnées et permettre leur traitement automatique.

L’utilisation de données ouvertes liées favorise l’échange de données, y compris en dehors de la communauté des bibliothèques, et offre une solution pour l’interopérabilité des formats. La Deutsche Nationalbibliothek, la British Library et la Bibliothèque du Congrès ont également adopté ces outils afin d’ouvrir leurs données bibliographiques.

Parmi les données exposées et récupérables, se trouvent les notices d'autorité sujet du référentiel RAMEAU ( Répertoire d'autorité-matière encyclopédique et alphabétique unifié ). Elles ont été converties dans le langage RDF SKOS (Simple Knowledge Organization System), dans le cadre du projet européen TELplus . Ce référentiel est désormais maintenu à jour sur data.bnf.fr avec la base de données entière et actualisée de la BnF. Pour en savoir plus : Récupérer les données de data.bnf.fr

Bibliographie

BERMES Emmanuelle, Vers de nouveaux catalogues, Paris : Cercle de la librairie, 2016.
BERMES Emmanuelle, « Les bibliothèques sur le Web », dans Les catalogues au défi du Web (session 2), 26 novembre 2014. Disponible en ligne : http://video.cnfpt.fr/conferences-1/les-catalogues-au-defi-du-web-les-bibliotheques-sur-le-web [consulté le 28 février 2017].

BERMES Emmanuelle, avec la collaboration d’Antoine Isaac et Gautier Poupeau, Le Web sémantique en bibliothèque, Paris : Cercle de la librairie, 2013.

BERMES Emmnuelle, BOULET Vincent, LECLAIRE Céline, « Améliorer l’accès aux données des bibliothèques sur le web : l’exemple de data.bnf.fr », dans IFLA World Library and Information Congress, 2016. Disponible en ligne : http://library.ifla.org/1447/1/081-bermes-fr.pdf [consulté le 28 février 2017].

SIMON Agnès, « Illustrations et démonstrations », dans Les catalogues au défi du Web (session 2), 26 novembre 2014. Disponible en ligne : http://video.cnfpt.fr/conferences-1/les-catalogues-au-defi-du-web-illustrations-et-demonstrations-agnes-simon [consulté le 28 février 2017].