Experimenteller Prozess: Autogenerierte Werke

Die automatisch generierten Werkseiten sind das Ergebnis eines experimentellen Prozesses, den die Bibliothèque nationale de France dank des Projekts Data durchführt.

Seit 2011 ermöglicht Data der BnF, ihre Daten nach internationalen Standards im Datenweb zu veröffentlichen (die sogenannten Linked Data). Es ermöglicht auch das Experimentieren mit einer neuen Art der Informationsstrukturierung, die sich nicht mehr auf das Dokument konzentriert (Beschreibung der Ausgabe 2001 von Madame Bovary im Taschenbuchformat oder einer gelesenen Version desselben Romans), sondern auf das Werk des Autors, das alle seine aufeinanderfolgenden Ausgaben zusammenfasst (Madame Bovary von Flaubert, geschrieben 1856).

Das Werk, auf das sich jedes Dokument bezieht, wird jedoch selten im Katalog beschrieben (weniger als 8% der Dokumente). Wollte man diese Arbeit manuell für die 15 Millionen Einträge im Katalog übernehmen, müsste man 45 Jahre dafür aufwenden, bei 2 Minuten pro Dokument. Nun ist ein nationaler Prozess im Gange, La Transition bibliographique, der darauf abzielt, diese neue Arbeitsweise zu übernehmen (die Übernahme des IFLA-LRM-Modells, Library Reference Model).

Die BnF experimentierte daher mit einem halbautomatischen Prozess, um die Beschreibung jedes Werkes aus den Informationen zu generieren, die seine aufeinanderfolgenden Ausgaben beschreiben. Der erste Korpus, der bearbeitet wurde, betrifft Drucke aus dem 20.

Für jeden Autor werden die Titel seiner Veröffentlichungen extrahiert, um sie nach Ähnlichkeit zu gruppieren. Und für jede Gruppe berechnet ein Programm die Informationen über das Werk anhand dessen, was es in den Dokumenten findet (alternative Titelformen, Übersetzungstitel, Datum der Erstveröffentlichung, andere Autoren).

Das Ergebnis dieser Berechnungen wird dann auf Data hochgeladen, um die Relevanz des Verfahrens zu bewerten.

Es wird auch dem kritischen Blick der Internetnutzer ausgesetzt, die aufgefordert sind, zu reagieren und uns auf Probleme hinzuweisen.

Da diese Probleme mehrere Ursachen haben können (Ursprungsdaten, Gruppierungskriterien usw.), kann sich die BnF nicht verpflichten, sie schnell zu beheben. Sie kann sie hingegen in die vorzunehmenden Korrekturen einbeziehen, für den Tag, an dem dieselben Werke nach einigen Monaten in den Gesamtkatalog geladen werden.

Sie können sich auch an dieser großen Baustelle beteiligen und uns helfen, die Zuverlässigkeit der Daten zu verbessern, indem Sie Fehler melden, die Sie bei diesen automatisch berechneten Werken feststellen.