Processus expérimental : Les oeuvres générées automatiquement

Les pages d'oeuvre générées automatiquement sont le résultat d'un processus expérimental que la Bibliothèque nationale de France réalise grâce au projet data.bnf.fr.

Depuis 2011, data.bnf.fr permet à la BnF de publier ses données sur le web de données selon des standards internationaux (le linked data). Il permet aussi d'expérimenter une nouvelle manière de structurer l'information, non plus centrée sur le document (décrivant l'édition 2001 de Madame Bovary dans un format de poche, ou une version lue du même roman), mais sur l'oeuvre de l'auteur, regroupant toutes ses éditions successives (Madame Bovary, de Flaubert, écrit en 1856).

Mais l'oeuvre à laquelle se rattache chaque document est rarement décrite dans le catalogue (moins de 8% des documents). Si on voulait reprendre ce travail manuellement sur les 12 millions de notices du catalogue, il faudrait y consacrer 45 ans, à raison de 2 minutes par document. Or un processus national est en cours, la Transition bibliographique, visant à adopter cette nouvelle manière de faire (l'adoption du modèle LRM, Library Reference Model).

La BnF expérimente donc un processus semi-automatique pour générer la description de chaque oeuvre à partir des informations décrivant ses éditions successives. Le premier corpus traité concerne les imprimés du XXe siècle.

Pour chaque auteur, on extrait les titres de ses publications, pour les regrouper par similarité. Et pour chaque groupe un programme calcule les informations relatives à l'oeuvre à partir de ce qu'il trouve dans les documents (formes de titre alternatives, titres de traduction, date de la première publication, autres auteurs).

Le résultat de ces calculs est ensuite mis en ligne sur data.bnf.fr pour évaluer la pertinence du processus.

Il est également soumis au regard critique des internautes, qui sont invités à réagir pour nous signaler des problèmes.

Comme ces problèmes peuvent avoir plusieurs origines (données d'origine, critères de regroupement, etc), la BnF ne peut pas s'engager pas à les corriger rapidement. Elle peut en revanche l'intégrer dans les corrections à apporter, pour le jour où ces mêmes oeuvres seront chargées au bout de quelques mois dans le catalogue général.

Vous pouvez aussi participer à ce grand chantier et nous aider à améliorer la fiabilité des données en signalant les erreurs que vous constatez sur ces œuvres calculées automatiquement.