Bienvenue sur DokuPedia, wiki universitaire consacré à la documentation. Vous êtes invités a créer un compte et à contribuer, en ajoutant un nouvel article ou en modifiant celui-ci.
Vous pouvez également utiliser le moteur ou l'améliorer
Google Custom Search

Archives ouvertes et patrimoine culturel numérisé

Un article de DokuPedia.

Sommaire

Rappel sur la numérisation des collections patrimoniales culturelles

Une politique publique

La numérisation du patrimoine culturel procède en premier lieu d'une volonté publique, les collections patrimoniales étant le plus souvent la propriété d'institutions publiques. Elle s'appuie historiquement sur des campagnes d'inventaire et de normalisation des systèmes descriptifs des collections initiées par la création en 1964 de l'inventaire général des monuments et des richesses artistiques de France.
Le but a été de constituer progressivement une documentation (catalogues) aidant à la connaissance du patrimoine.


La documentation accumulée sur une longue période a abouti dans les années 70 aux premières bases de données de documents analogiques dans les domaines de la peinture, de la sculpture, des archives.
En 1986, le musée d'Orsay a été le premier musée au monde a expérimenté une bases de données numérique fonctionnant en réseau permettant l'accès à des documents de différents types (images, sons, textes). L'essor des technologies de l'information dans les années 90, notamment avec l'Internet, va accentuer les campagnes de numérisation (à partir de 1996 pour la France) et l'intérêt d'une visibilité accrue dans le cadre de réseaux numériques et de coopérations.

Des projets associant différents partenaires publics et privés

Les évolutions techniques soutenues par des partenariats scientifiques avec, entre autres, l'Institut de Recherche et d'Histoire des Textes (IRHT) pour le patrimoine écrit, le Laboratoire d'InfoRmatique en Image et Systèmes d'information (liris), ou encore avec des entreprises spécialisées telle que la société AJLSM, développent des solutions logicielles pour les bases de données de patrimoine culturel, comme la Banque Numérique du Savoir d'Aquitaine (BNSA). Elles s'accompagnent, au niveau national comme au niveau européen, de programmes de coopération pour numériser et diffuser le patrimoine culturel en plus d'offrir une solution avec ses limites de conservation de ce patrimoine. Il s'agit, avec l'Internet, de faire entrer le monde de la culture dans la société de l'information et des technologies de l'information.


Au niveau national, la coopération repose sur des appels à projet lancés par le Ministère de la Culture qui permettent une définition des projets de numérisation (objectifs, moyens) et une participation de l'état au niveau financier et "logistique". Les organismes éligibles à un soutien institutionnel sont des bibliothèques, musées, centres d'archives et centres de documentation dont les projets doivent répondre à une politique de diffusion envers un public le plus large possible, ainsi qu'à des critères thématiques, de qualité et d'intérêt de préservation. En 2005, 100 projets ont été retenus en France.
Exemple de projet de numérisation retenu en 2007.


Des comités de pilotage associant structures culturelles, structures scientifiques et monde politique organisent des projets, comme celui de la Bibliothèque Numérique Européenne associant les directions et les établissements publics du ministère (Livre, Archives, BnF, INA), les départements ministériels concernés (industrie, enseignement supérieur et recherche, affaires européennes) ainsi que des experts publics (Conseil général des Mines, Documentation Française) et privés (Editis, Thomson, Syndicat National de l’Edition).


Au niveau européen également, le projet Michael (avril 2005) vise à la constitution d'un portail d'accès multilingue aux ressources culturelles numériques de différents pays d'Europe est un exemple, en remplaçant cette fois-ci le fonctionnement en réseau des autorités par le fonctionnement en mode archives ouvertes.


Aujourd'hui, les principales ressources patrimoniales françaises numérisées peuvent être consultées sur le catalogue des collections numérisées qui fonctionne sur une architecture de bases de données de type archives ouvertes. D'autres catalogues en ligne du ministère de la culture permettent par exemple d'accéder aux bases de données Joconde (Beaux-arts, archéologie), ou encore à l'ensemble organisé des quatre bases Palissy (mobilier), Mérimée (architecture), Mémoire (photographie), Archidoc (notices bibliographiques) ainsi qu'à la base commune "Thésaurus". Ce dernier exemple montre une organisation possible de bases de données numériques thématiques liées entre elles par un outil commun, un thésaurus, et par une mise en commun possible des contenus des quatre bases selon la requête de l'utilisateur.

Appliquer le concept des archives ouvertes au patrimoine culturel numérisé

Extension du domaine d'application des archives ouvertes à la ressource culturelle

Les archives ouvertes sont indissociables du mouvement du libre accès à l'information scientifique et technique. Elles sont utilisées dans un contexte très précis : celui de la diffusion et de l'évaluation des prépublications scientifiques. Leur emploi dans un autre contexte et pour une autre ressource reprend les objectifs d'emploi initiaux avec une extension du domaine d'application et des usages.


L'utilisation des archives ouvertes dans le domaine du patrimoine culturel se comprend avec l'existence de bases de données numériques liées aux programmes de numérisation et surtout un patrimoine culturel numérique considéré comme une ressource primaire faisant partie des savoirs essentiels à l'humanité, avec le savoir scientifique. C'est le sens de la déclaration de Berlin de novembre 2003, relative à l'accès ouvert aux savoirs scientifiques et techniques qui inclut le patrimoine culturel comme savoir essentiel qui doit être le plus accessible possible. Les objectifs du libre accès s'appliquent donc au patrimoine culturel et sa diffusion va tirer parti des possibilités offertes par le système des archives ouvertes.

Les motifs principaux d'intérêt

  • Donner accès à des ressources numériques où qu'elles se trouvent par un portail d'accès unique tout en préservant l'original non numérisé qui est éventuellement protégé par le droit d'auteur.
  • Donner accès directement à l'exemplaire numérique et faciliter l'accès aux contenus des bases de données inaccessibles par les moteurs de recherches non adaptés.
  • Mettre en cohérence des fonds numériques appartenant à différentes structures unies dans un projet documentaire commun.
  • Renforcer l'interopérabilité technique des systèmes (bases de données), sémantiques (description des contenus) et organisationnels (cohérence des pratiques) par l'existence de recommandations spécifiques.
  • Constituer de vastes ensembles thématiques ou géographiques (régional, national, européen) raisonnés
  • Enrichir le service aux utilisateurs par une présentation contextualisée des ressources et des services associés : accès à des images, au texte intégral, à la description de la ressource, accès selon des ensembles définis (sets).
  • Renforcer la visibilité et la fréquentation d'un site et surtout d'une production culturelle suivant une volonté de politique culturelle d'un état, d'une civilisation (cadre européen et bibliothèque numérique européenne).


La constitution d'ensembles numériques permet un renouvellement de la diffusion de la ressource consacrant l'importance d'outils de diffusion et surtout de repérage tels que les catalogues et les bibliographies. Avec l'agrégation de contenus de plusieurs bases en une seule, le protocole OAI-PMH, les possibilités de recherches sont donc étendues et facilitées en direction du web profond.

Une utilisation normalisée par des outils reconnus et adaptés

Adaptation du protocole OAI-PMH

Le protocole OAI-PMH (version 2.0) demeure la référence pour la normalisation du fonctionnement des archives ouvertes "culturelles".


L'adaptation du protocole OAI-PMH à la ressource culturelle se traduit par des recherches sur les outils utilisés, en particulier les formats d'échanges de métadonnées dont le Dublin Core non qualifié. Ainsi, il est apparu à l'usage que le format de description générique de métadonnées Dublin Core pouvait être insuffisant. Des recherches ont été menées pour la mise en place d’un - Dublin Core culture qui vise à pallier le manque de précision du schéma du Dublin Core, d’un point de vue de la description mais aussi de la localisation par l’usager. Cette étude d’un Dublin Core pour la ressource patrimoniale a eu lieu dans le cadre du projet "24 Hour Museum", un projet de création d’un portail d’accès en mode OAI aux collections de musées britanniques.


Il reste que l'emploi d'outils génériques (Dublin Core non qualifié) ou de formats ouverts comme le langage XML ne saurait taire les difficultés d'harmonisation technique essentielle au bon fonctionnement d'un réseau OAI-PMH. Il est en tout cas possible d’exposer une description de la ressource patrimoniale dans d’autres formats d'enregistrement comme le format Marc-XML, qui propose une description plus riche et complète des ouvrages numérisés. Ainsi nous avons plusieurs représentations possibles d’un même objet pour des usages différents au sein d’un même entrepôt.

Les objets documentaires OAI-PMH avec une ressource culturelle

Unité documentaire (élément où item), enregistrement et ressource sont repris dans le contexte culturel.

  • La ressource correspond à l'"original" numérique dans sa base d'origine.
  • L'unité documentaire est la définition de la ressource dans l'entrepôt OAI-PMH, l'unité décrite, par exemple un livre , une collection de livres (set) à laquelle on attribue un identifiant unique (identifier) qui permet d'accéder à la ressource d'origine.
  • L'enregistrement est une version au minimum en Dublin Core non qualifié (OAI_DC) de l'item. il peut y avoir autant de version d'un même item (donc d'une même ressource) qu'il y a de formats disponibles.


Exemple d'un enregistrement en XML, selon le format OAI_DC correspondant à un item, ici un ouvrage (Source : Les bibliothèques virtuelles humanistes (afficher le code source pour avoir la version xml)) :

header:
  identifier : oai:bvh.univ-tours.fr/numfiche=53
  datestamp : 2006-06-13
  setSpec : bvh:Art

metadata:
   dc: 
      identifier: http://www.bvh.univ-tours.fr/Consult/index.asp?numfiche=53
      title: L'Architecture et Art de bien bastir
      creator: Alberti, Leon Battista
      publisher: Kerver, Jacques (Paris)
      date: 1553
      subject: Art - Architecture
      description: [8], 228 f., [2] f. de pl., in 2°
      description: La première et seule édition de la traduction française du De re aedificatoria 
      de L. B. Alberti
      (éd. princeps, Florence, 1485). Dans cette traduction, le traducteur aurait suivi pour le texte       
      l'édition strasbourgeoise 
      de l'original latin (Commerlander, 1541, in-4°) et l'édition vénitienne 
      de la traduction italienne (trad. de Pietro Lauro, Valgrisi, 1546), y compris pour la table des    
      chapitres ; 
      pour les illustrations, cette édition parisienne reprend les gravures qui accompagnent 
      la traduction italienne de Cosimo Bartoli (Torrentino, 1550).
      description: Reliure vélin. Planches entre f. E ij (chiffré 166) et f. Eiij (160, i.e. 167).
      description: Centre d'Études Supérieures de la Renaissance - Tours - SR 2 / 4781
      language: fr
      type: texte imprimé
      format: image/jpeg
      source: Centre d'Études Supérieures de la Renaissance - Tours - SR 2 / 4781
      right: Centre d'Études Supérieures de la Renaissance - Tours

Comment interroger une archive ouverte à l'aide des instructions et des paramètres

Le "dialogue" avec une archive ouverte, quelle que soit sa nature, s'effectue selon des requêtes préétablies d'avance (les instructions), au nombre de six, que l'on affine avec des "paramètres". Certains paramètres sont obligatoires : Si l'on demande une liste d'enregistrements (Listrecords) ou un enregistrement (GetRecord) ou une liste des identifiants (ListIdentifiers) pour chaque élément (items), on doit mentionner le format (MetadataPrefix) qui est au minimum le Dublin Core (plusieurs formats peuvent coexister).

Les éléments sont combinées selon une syntaxe immuable où seules instructions et paramètres varient :

[adresse de l'entrepôt]?verb=[instruction]&[paramètre]=valeur&[paramètre]=valeur



Ce qui donne par exemple : http://www.inra.fr/prodinra/sdx/oai/pinra/notices?verb=Identify pour identifier un entrepôt.


Voici deux tableaux donnant un aperçu des instructions et des paramètres permettant l'accès à une archive (Source : Sévigny, Martin : Les instructions et paramètres OAI. In Atelier ADNX: présentation du protocole et des normes associées(en ligne). Mise à jour le 30/01/2006 (page consultée le 10/03/2007)) :


Instructions et paramètres associés permettant d'interroger une archive ouverte :
InstructionParamètres associésDescription
Identify Permet d'identifier l'entrepôt (informations techniques, de propriété, date de création)
ListMetadataFormats identifier Permet d'obtenir les formats disponibles dans l'entrepôt où ceux des enregistrements pour une ressource, dont le format oai_dc (avec le paramètre associé identifier)
ListSets resumptionToken Permet d'obtenir la liste des ensembles thématiques d'enregistrements.
ListIdentifiers from until metadataPrefix* set resumptionToken Permet d'obtenir une liste des identifiants des items d'un entrepôt, limitée avec les paramètres (temporel avec from et until, selon un format,un ensemble, un lot d'items si enregistrements nombreux à afficher sur plusieurs pages
ListRecords from until metadataPrefix* set resumptionToken Permet d'obtenir la liste des enregistrements selon dates, format de métadonnées de l'enregistrement, ensemble d'appartenance de l'enregistrement, liste prédéfinie
GetRecord identifier* metadataPrefix* permet d'obtenir un enregistrement précis, dans un format, avec un identifiant unique (uri)



InstructionParamètres associésDescription
metadataPrefix ListIdentifiers ListRecords GetRecord Indique le format de métadonnées à utiliser, par son préfixe. Le préfixe du format Dublin Core, obligatoire, est oai_dc
identifier ListMetadataFormats GetRecord Indique un item précis par son identifiant.
from ListIdentifiers ListRecords Permet la moisson sélective en indiquant de retourner des enregistrements correspondant à des items modifiés depuis une certaine date. La date doit être en UTC exprimée selon la norme ISO8601, par exemple 2002-02-08T08:55:46Z ou encore 2002-02-08 , selon la granularité acceptée par l'entrepôt.
until ListIdentifiers ListRecords Permet la moisson sélective en indiquant de retourner des enregistrements correspondant à des items modifiés depuis une certaine date. La date doit être en UTC exprimée selon la norme ISO8601, par exemple 2002-02-08T08:55:46Z ou encore 2002-02-08 , selon la granularité acceptée par l'entrepôt.
set ListIdentifiers ListRecords Permet la moisson sélective en indiquant de retourner des enregistrements qui font partie d'un ensemble précis.
resumptionToken ListSets ListIdentifiers ListRecords Un entrepôt peut retourner les réponses à ces trois instructions en plusieurs pages pour limiter les ressources utilisées et les risques d'erreurs. Dans ce cas, avec chaque page, il doit retourner un code qui permet de demander la suite. Ce code doit être indiqué par ce paramètre lorsque le moissonneur demande cette suite.


Exemples
  • Identifier un entrepôt :

http://www.inra.fr/prodinra/sdx/oai/pinra/notices?verb=Identify

  • Demander la liste des formats d'exposition des métadonnées :

http://oai.co.allenpress.com/oai/plosonline?verb=ListMetadataFormats

  • Demander la liste des enregistrements en format oai_dc (Dublin core non qualifié):

http://oai.co.allenpress.com/oai/plosonline?verb=ListRecords&metadataPrefix=oai_dc

  • Demander un enregistrement précis en format oai_dc :

http://www.bibliovault.org/perl/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Awww.bibliovault.org%3A0226141365

Quelques réalisations

Gallica

L’application du protocole OAI-PMH à la bibliothèque numérique Gallica correspond à une évolution de l’offre. Au plus de 36000 documents proposés selon ce mode d’accès s’ajouteront progressivement les notices du catalogue BN-Opale Plus mais aussi la base iconographique du département des manuscrits, Mandragore. Ainsi l’intégration de l’ensemble des collections numériques de la Bibliothèque nationale de France se poursuit afin de constituer une "bibliothèque raisonnée" dont le visage correspond à des choix politiques, à travers le choix de contenus de références en accès libre et selon les demandes des utilisateurs afin de proposer un ensemble cohérent satisfaisant la découverte et la recherche de l’information.

Picture Australia

Il s’agit d’un projet de mise à disposition d'une collection d’image du patrimoine national australien (provenant de musées, de bibliothèques, de centres d’archives, d’agences photographiques). Le portail d’accès permet d’accéder à une collection iconographique de structures aussi bien publiques que privées. Il offre différents services aux utilisateurs comme la possibilité de suivre des parcours thématiques, d’accéder aux ressources originales, d’acheter des images...

Banque numérique du savoir d'Aquitaine

Le portail de la banque numérique du savoir d'Aquitaine peut servir d’exemple de structure ayant mis en place un projet de développement d’archives ouvertes accessibles par portail dans une perspective de numérisation de ressources culturelles régionales.
Parrainé par le ministère de la culture et la région Aquitaine, ce projet vise à constituer une mémoire de l’identité régionale axée sur la numérisation de fonds publics et la diffusion auprès du public. Des services spécifiques sont prévus comme la constitution de thématiques de ressources, de services d’accès (moteurs de recherche, accès cartographique…) et surtout de services éducatifs destinés au public jeune. Il consacre une répartition des rôles entre la DRAC, donc l’Etat, et la région Aquitaine (questions d’ingénierie technique et questions juridiques). Le projet associe par ailleurs des partenaires publics et privés, notamment la société AJLSM chargée de la résolution technique du portail en mode OAI.

Projet Strabon

Du nom d’un historien et géographe grec d’Asie Mineure, ce projet reposant sur l’usage du protocole OAI-PMH vise à la création d’un réseau numérique d’élaboration de produits multimédias entre huit pays européens et douze pays du sud de la Méditerranée. Dirigé par le consortium Eumedis (Euro-Mediterranean Information Society) et associant la Maison des Sciences de l’Homme, le projet Strabon a pour ambition d’être une porte d’accès à la société de l’information pour des pays défavorisés du Sud. La promotion de patrimoines nationaux doit en outre être au service du développement économique, scientifique et social des régions concernées. Les productions réalisées servent à l’appropriation d’une technologie du libre (logiciels) issue d’expériences collectives et donc profitables immédiatement en dehors de tout usage privatif.


Liens

DokuPedia sémantique