Récupérer les données de data.bnf.fr

Le projet data.bnf.fr s'inscrit dans une démarche d'ouverture des données. Cette démarche a été définie par le Consortium W3C dans la perspective du Web sémantique ou Web de données (Linked Data).
Pour en savoir plus sur le web sémantique et le web de données à la BnF

Il s'agit de structurer les ressources pour que les machines puissent mieux les exploiter. Le projet data.bnf.fr utilise des données produites dans des formats divers, notamment Intermarc pour les catalogues de livres, XML-EAD pour les inventaires d'archives et les manuscrits, et Dublin Core pour la bibliothèque numérique.

Ces données sont restructurées, regroupées, enrichies par des traitements automatiques et publiées selon le modèle descriptif du web sémantique, RDF. Le résultat est disponible sur ce site, selon plusieurs syntaxes de RDF : RDF-XML, RDF-N3, et RDF-NT.

Une partie des données sont alignées sur d'autres référentiels : id.loc.gov pour les langues et nationalités, DCMI type pour les types de documents. Elles sont aussi alignées vers des jeux de données recensés dans CKAN, en particulier DBpedia et VIAF. Enfin, les données des pages thèmes RAMEAU sont alignées vers d’autres thésaurus, de bibliothèques étrangères (LCSH, DnB, BNE) ou plus spécialisés (Agrovoc, Geonames, Thesaurus W).

Comprendre le modèle de données de data.bnf.fr

Ce que la Bibliothèque nationale de France fournit

  • Des URI pour les ressources : toutes les ressources disposent d’identifiants pérennes, attribués selon le mécanisme ARK qui permet d’accéder à toutes les ressources de la bibliothèque.
  • Pour chaque ressource, un ensemble de métadonnées associées à l’URI de la ressource sous forme de triplets RDF, selon les technologies du linked open data. Ces métadonnées sont récupérables sur chaque page (export) et pour toute la base (dump).

Comment récupérer les données de data.bnf.fr ?

o hôte : echanges.bnf.fr
port : 21

o login : databnf
mot de passe : databnf

  • En téléchargeant via HTTP le dump de l'intégralité des données RDF :

o dump rdf complet (rdf/xml)

o dump rdf thèmes RAMEAU (xml)

o dump rdf thèmes RAMEAU (n3)

o dump rdf thèmes RAMEAU (nt)

o dump rdf documents liés aux thèmes RAMEAU (rdf/xml)

o dump rdf documents liés aux thèmes RAMEAU (n3)

o dump rdf documents liés aux thèmes RAMEAU (nt)

o dump rdf auteurs (rdf/xml)

o dump rdf auteurs (n3)

o dump rdf auteurs (nt)

o dump rdf organisations (rdf/xml)

o dump rdf organisations (n3)

o dump rdf organisations (nt)

o dump rdf contributions (rdf/xml)

o dump rdf contributions (n3)

o dump rdf contributions (nt)

o dump rdf oeuvres (xml)

o dump rdf oeuvres (n3)

o dump rdf oeuvres (nt)

o dump rdf éditions/manifestations/expressions (rdf/xml)

o dump rdf éditions/manifestations/expressions (n3)

o dump rdf éditions/maniefstations/expressions (nt)

o dump rdf études (rdf/xml)

o dump rdf études (n3)

o dump rdf études (nt)

o dump rdf lieux (rdf/xml)

o dump rdf lieux (n3)

o dump rdf lieux (nt)

o dump rdf dates (rdf/xml)

o dump rdf dates (n3)

o dump rdf dates (nt)

o dump rdf spectacles (rdf/xml)

o dump rdf spectacles (n3)

o dump rdf spectacles (nt)

o dump rdf périodiques (rdf/xml)

o dump rdf périodiques (n3)

o dump rdf périodiques (nt)

o dump rdf liens externes (rdf/xml)

o dump rdf liens externes (n3)

o dump rdf liens externes (nt)

o dump rdf codes géographiques(rdf/xml)

o dump rdf codes géographiques (n3)

o dump rdf codes géographiques (nt)

o dump rdf codes de genre musical (rdf/xml)

o dump rdf codes de genre musical (n3)

o dump rdf codes de genre musical (nt)

o dump rdf codes de rôle (rdf/xml)

o dump rdf codes de rôle (n3)

o dump rdf codes de rôle (nt)

Vous pouvez consulter la licence de réutilisation de ces données.

Le logiciel utilisé : CubicWeb

CubicWeb est une plateforme libre de développement d'applications web sémantique, publiée sous la licence LGPL.
Dans le cadre du projet, le logiciel permet notamment :

  • d’extraire et intégrer des données de sources hétérogènes et dans des formats variés (CSV, MARC, Dublin Core, EAD-XML, RDF),
  • de les fusionner, de les aligner et les regrouper dans une base SQL,
  • de générer les pages souhaitées sous n’importe quel format, en l’occurrence : HTML, JSON, RDF-XML ou PDF.

Il s’appuie sur le langage de requête RQL (Relation Query Language), similaire au langage SPARQL du W3C, et sur le langage Python.

CubicWeb est lauréat du concours Dataconnexions 2013 , organisé par Etalab, la mission sous l’autorité du Premier ministre pour l’ouverture des données publiques.