Bienvenue sur DokuPedia, wiki universitaire consacré à la documentation. Vous êtes invités a créer un compte et à contribuer, en ajoutant un nouvel article ou en modifiant celui-ci.
Vous pouvez également utiliser le moteur ou l'améliorer
Google Custom Search

Numérisation des fonds

Un article de DokuPedia.



                        Numériseur de livres
                        Numériseur de livres
  • La numérisation est une opération permettant de convertir une donnée analogique en langage numérique, c'est-à-dire en un fichier codé en langage binaire (succession de 0 et de 1).
    Ce procédé est utilisé pour la reproduction de documents de format texte, son, image ou encore vidéo sur un support numérique pour permettre leur lecture sur un ordinateur.
  • La numérisation des fonds présente pour les bibliothèques et centres de documentation de nombreux avantages:
    Faible encombrement, meilleure conservation dans le temps, facilité de diffusion et de représentation, possibilité de traitement de l'image (agrandissement, paramétrages des couleurs), production de métadonnées (données secondaires des caractéristiques d'un document) afin d'optimiser l'indexation, création de liens hypertextes.


Sommaire

Histoire de la numérisation

D’après le site le Net des Etudes françaises, la numérisation des fonds a démarré dès 1994.
Cependant les grandes bibliothèques numériques ne sont vraiment mises en ligne que plus tard, vers 1997-1998.

L’Unesco a établi 4 phases d’évolutions technologiques qui l’ont rendue possible :

  1. Ere du calcul (débuts de l’informatique)
  2. Ere du dialogue et des interfaces (interaction avec l’utilisateur, technologie WYSIWYG, Cédérom)
  3. Ere de la mémoire (cartouches magnétiques, disques optiques, baisse des prix au Mo de la mémoires des disques durs)
  4. Ere des réseaux (Internet)



DATE EVENEMENTS
1943 Alan Turing met au point le Colossus, 1er ordinateur électronique.
1962 Lancement du projet de recherche ARPANET aux Etats-Unis par la DARPA, ancêtre d’Internet.
1971 Genèse du Projet Gutenberg, première bibliothèque numérique au monde.
1976 Premières cartouches magnétiques par IBM (capacité : 50,2 Mb).
1985 Invention du CD-Rom par Philips (stockage des données numérisées).
1991 Création de l’Unicode, système d’encodage permettant de traiter toutes les langues de la planète.
1991 Tim Berners Lee annonce la naissance du World Wide Web public.
1993 Naissance du 1er navigateur Web : Mosaic 1.0.
Création d’ABU: la bibliothèque universelle, première bibliothèque numérique francophone.
Lancement par Adobe de l’Acrobat Reader, premier logiciel de lecture.
1995 Apparition du DVD-Rom qui multiplie par 7 les capacités du CD-Rom.
1996 Création du DAISY Consortium pour définir un standard de livre audionumérique (numérisation des livres audio).
1997 Mise en ligne de Gallica, bibliothèque numérique de la Bibliothèque nationale de France.
2000 Lancement du Million Book Project dans le but de numériser un million de livres. Le projet cède ensuite la place à l’Open Content Alliance (OCA), lancée par l’Internet Archive en octobre 2005.
Création de Distributed Proofreaders pour aider à la numérisation des livres du domaine public
Mise en ligne de Bookshare.org, grande bibliothèque numérique pour personnes aveugles et malvoyantes.
2004 Lancement du Projet Gutenberg Europe et de Distributed Proofreaders Europe.
Apparition de Google Print [site disparu], le projet de bibliothèque numérique mondiale de Google.
2005 Lancement de l’Open Content Alliance (OCA), projet public et coopératif de bibliothèque numérique mondiale
2006 Lancement de Google Book Search / Google Livres en remplacement de Google Print.
Mise en place de la Bibliothèque numérique pour le Handicap (BnH) à destination de toutes les personnes en situation de handicap.
Initiation de Live Search Books, le projet de bibliothèque numérique mondiale de Microsoft
Développement d'une bibliothèque numérique planétaire dans la Text Archive, sous l'égide de l'Internet Archive. La barre des 200.000 livres numérisés est franchie en mai 2007

Que faut-il numériser ?

Pour répondre à cette question, l'Etat du Colorado a listé une série de questions servant à définir les caractéristiques d'un programme de numérisation.
Les questions préalables à un projet de numérisation de fonds sont les suivantes :

  • Quel est votre projet ?
  • Quel est votre public ?
  • Quelles sont les caractéristiques physiques de votre collection ?
  • A qui appartiennent les collections ?
  • Quel est votre calendrier ?
  • Comment le projet-il financé ?
  • Qui sont les responsables aux différents stades du projet ?
  • Comment réaliserez-vous le travail de numérisation ?
  • Quelle organisation prévoyez-vous pour les métadonnées ?
  • Comment prévoyez-vous de donner accès à la collection ?
  • Dans quelles conditions prévoyez-vous de maintenir cette collection à l'avenir ?

La plupart des bibliothèques font généralement le choix de programmes de numérisation pour des documents fragiles, rares, peu accessibles (conservation) ou peu maniables (diffusion). Ces documents concernent le plus souvent :

  • Des manuscrits, ils peuvent être datés du Moyen-Age, de la Renaissance ou il peut s'agir de manuscrits littéraires , on peut noter les initiatives intéressantes de la Bibliothèque Nationale Centrale de Florence (manuscrits de Galilée), ou encore les réalisations de la Bibliothèque Universitaire d'Aberdeen ("Aberdeen Bestiary")
  • Des livres imprimés (incunables, collections thématiques comme les "Classiques" des sciences sociales de l'Université du Québec qui a numérisé les classiques francophones des sciences sociales)
  • Des documents iconographiques (ex. : avec Medic@ de la BIUM ou encore la Bibliothèque Numérique de l'INHA) pour faciliter les recherches sur les images, dessins, photos, estampes etc...
  • Des journaux (les collections du XIXème et du XXème siècle sont fragilisées, on peut citer la revue "Nature" dans CNUM, la bibliothèque numérique du CNAM)
  • Des outils de références (cartes, calendriers, chronologies, répertoires), par exemple la Bibliothèque de l’Institut d’aménagement et d’urbanisme de la Région Île-de-France (IAURIF) offre la consultation gratuite de 300 cartes numérisées
  • Des expositions permanentes ou temporaires (sur des thèmes spécifiques tels que la littérature moderne, les oeuvres religieuses, la reliure etc...), comme le propose la Bibliothèque royale des Pays-Bas avec sa réalisation intituée "The Hundred Highlights"
  • Des documents vidéos (cours en ligne, colloques de la Bibliothèque Universitaire de Karlsruhe)
  • Des enregistrements sonores (musique, paroles, histoire), comme en propose la médiathèque de la Cité de la Musique
  • Des collections d'intérêt local (la BM de Toulouse numérise les plaques de verre représentant la ville au XIXème siècle, Montpellier numérise les archives locales de la télévision)
  • Des collections spéciales (numérisation des volumes annuels d'Histoire de l'Académie royale )
  • Des documents éphèmères (tracts, affiches, programmes de théâtre), La Base "Archives et images" de la Bibliothèque de Documentation Internationale Contemporaine propose notamment des affiches historiques.

Techniques de Numérisation

Chaîne de numérisation

Image:chaine_de_numerisation.gif

Matériel employé

  1. Les scanners: (scanner bureautique, scanner à livres)
    Il en existe différentes sortes:
    • le modèle le plus simple permet de numériser les feuilles volantes
    • un autre modèle (le "flat bed"), permet de numériser les ouvrages à plat.

    Il faut dans ce cas appuyer l’ouvrage ouvert contre la vitre du numériseur (gros inconvénient pour les reliures et les ouvrages épais )

    • avec le troisième modèle, l’appareil photo-numérique, l’opération ressemble à une prise de vue. Une caméra de numérisation photographie l’ouvrage ouvert selon un angle raisonnable. Certains procédés, rectifient la courbure, évitant ainsi d’écraser l’ouvrage.

    La caméra numérique est réglable et s’adapte à la taille du document à numériser. Cependant, il est déconseillé de numériser les documents de grand format pour lesquels la perte d’informations est notable sans un matériel très performant.

    • le dos numérique haut de gamme permet de numériser un document opaque de 60 cm dans une résolution de 300 dpi

    (7000 pixels x 7000 pixels)

    • Pour un usage courant, et toujours en appréciant le type de document à numériser et son usage final, de petits numériseurs peuvent être utilisés car ils sont peu coûteux et d’utilisation simple. Il s'agira de bien doser la résolution : trop haute les défauts du papier sont visibles, trop basse, la lisibilité n’est pas bonne.
  2. Les numériseurs à diapositives et transparents :
    • les scanners à plat, certains très performants sont relativement onéreux.
    • les grosses stations de type carrousel à diapositives, malgré leur prix élevé satisfont davantage des exigences grand-public
    • les scanners à tambour recommandés pour la photogravure (également coûteux).
  3. Les scanners de microforme :

  4. Certains lecteurs de microformes sont dotés d'une fonction de numérisation (résolution de 200 à 400 dpi), mais il existe également des appareils haut de gamme très coûteux, d'une grande productivité et qui permet de numériser microfilms, microfiches et films en jaquette.

  5. Appareils photographiques numériques:
    • Cette technique est intéressante pour créer des images destinées à être diffusées sur Internet ou pour réaliser des tirages au format carte postale, mais ces images ne peuvent être agrandies fortement.


Enfin la saisie au clavier est également une méthode permettant la numérisation.

Procédés de numérisation

Les modes d'acquisition d'un document numérique peuvent être réalisés à partir de texte, d'images et de texte, ou d'image seule.
Pour la numérisation par scanner, la surface du document est balayée à l’aide de moyens photoélectriques, et analysée selon un damier fictif recouvert de points appelés pixels (ce sont de très petits carrés blancs, noirs ou de couleur) : plus la finesse d’échantillonnage est grande, plus fidèle est l’image, c’est la "résolution" de l’image, mais plus les fichiers sont volumineux. Pour diminuer éventuellement la place occupée, on utilise des algorithmes de compression. (CCITT ou JBIG pour les textes, JPEG pour les images, DjVu pour les documents mélangeant textes et illustrations,MPEG, MPEG2 pour les vidéos, HPEG pour les documents multimédias.)
La valeur numérique du pixel détermine sa couleur ou son intensité. On le code selon une unité de mesure binaire : le bit dont la valeur est 0 ou 1. Un pixel peut être représenté par un ou plusieurs bits selon le degré de gris ou de couleur désiré.
L’ensemble des points est enregistré dans un fichier d’images. Le format d’un fichier images le plus couramment utilisé est le format TIFF (Tagged Image Format File) mais on peut également employer du JPEG (Joint Photographic Expert Group), du GIF (Graphics Interchange Format) ou du PNG (Portable Networks Graphics).
Deux modes de numérisation sont possibles :

  • le mode image
  • le mode texte
  1. Le mode image
    Permet de produire une photographie de chaque page du document. On obtient ainsi une copie du document en fac-similé électronique (en langage binaire). Le mode image nécessite une description bibliographique complète, comprenant une indexation établie à l’aide d’un thésaurus, qui facilitera l’accès au document.
    • Avantages du mode image
      • Le plus simple à réaliser
      • Le moins coûteux
    • Inconvénients du mode image
      • Il occupe de la place sur le support, donc encombrement des fichiers important.
      • Sans indexation, ni mots-clés, le texte ne peut être que feuilleté. Ce mode interdit toute recherche sur le texte.
  2. Le mode texte
  3. C’est l’image numérisée (en mode image mais avec des contrastes accentués) qui est traitée à l’aide d’un logiciel de reconnaissance optique de caractères (OCR = Optical Character Recognition). Cette méthode permet à un système de récupérer le contenu d’un document numérisé, d’une "image", sous forme de texte.

    • Avantages du mode texte
      • permet une recherche en "plein texte " et une navigation au sein du document. Par exemple "naviguer" d’une table des matières vers un chapitre, ou de document à document
      • permet un déplacement rapide à l’intérieur d’un document
      • permet une interrogation en langage naturel, facilitant l’accès simple et direct à l’information à tout utilisateur (expert ou occasionnel)
      • permet d’associer la question à des critères qui caractérisent les documents (date, auteur, thème…)
      • peut s’appliquer pour les non-voyants
      • permet de recoder en SGML, par exemple le titre, le titre de paragraphe
      • satisfaisant pour la recherche
    • Inconvénients du mode texte
      • l'OCR modifie la présentation du document original
      • la recherche en plein texte peut créer du "bruit".
      • l'OCR ne peut reconnaître actuellement, les caractères non latins (dont les caractères gothiques), les signes diacritiques, les lettres manuscrites. Mais les recherches continuent d'évoluer : cf. notamment la "recherche floue"
      • l'OCR exige une régularité dans la typographie et l’encre, or de manière générale les documents originaux anciens, les articles de différents journaux par exemple, présentent une typographie et une impression de qualité variable.

Ces défauts exigent donc une relecture très minutieuse et des corrections, par conséquent ces opérations risquent de se révéler longues, fastidieuses et coûteuses. Pour y remédier il est possible de choisir l’option de la saisie manuelle du texte. La saisie est effectuée en général "au kilomètre" par deux ou trois personnes, ainsi les erreurs ne portent pas sur les mêmes caractères, une relecture s’impose mais s’avère moins longue, donc moins coûteuse que la méthode précédente.
Cette dernière méthode sera appliquée par exemple pour le projet de "bibliothèque virtuelle des œuvres classiques de la littérature arabe" (entre l’Institut du Monde Arabe, l’UNESCO, et la Bibliothèque des Langues Orientales).
Il paraît hors de propos de saisir un ouvrage dans son intégralité (sauf si le coût en est modique), et l’option la plus couramment choisie concerne la saisie des tables des matières, des sommaires, des bibliographies. Cette solution offre un bon compromis et facilite la recherche sur le contenu.
Aujourd’hui, la plupart des logiciels d’OCR, tels que Abby Fine Reader, Simple OCR ou encore Readiris Pro, ne sont pas complètement satisfaisants, les plus performants d’entre eux qui affichaient un taux de reconnaissance de 99%, atteignent aujourd'hui un taux de 99,8% pour des documents imprimés de bonne qualité. Mais il n’existe pas de norme en matière de taux de reconnaissance optique de caractères, chaque logiciel annonçant son propre taux d’erreur, qui s’avère en réalité, et après vérification, toujours inférieur à celui annoncé par le système. Pour les documents imprimés, le niveau d'erreur toléré est de une erreur pour 10 000 caractères, la double saisie manuelle atteint en général cette "performance".

Devant l'évolution continue de la technologie, on peut espérer des améliorations :

  • en terme de puissance informatique, ce qui devrait entraîner une réduction des coûts
  • en terme de compréhension du contenu, grâce à des traitements de plus en plus sophistiqués -recours à des dictionnaires et/ou à des traitements sémantiques.

D’une manière générale la qualité finale dépendra :

  • de la qualité de l’original (de l’encre, des contrastes qui peuvent s’atténuer avec le temps)
  • de la numérisation (réglages…)

Note : Un autre mode de représentation, opposé au mode image est le mode vectoriel. On l’utilise principalement pour représenter des dessins géométriques, des plans, des schémas (dans la conception assistée par ordinateur ou CAO. La conversion (Raster) d’un mode de représentation vectoriel en mode points est possible).

Résolution des images

La résolution est la finesse d'échantillonnage (à la saisie) La définition est la finesse du point d'affichage (à la restitution de l'image)

La résolution exprime la précision de la numérisation. On calcule la résolution au nombre de pixels par pouce ou dpi (dots per inch = points par pouce; 1 pouce = 2,54 cm); elle dépendra d’une part de la qualité du document initial (support, caractères, encre, images, couleurs etc.) d’autre part du type d’exploitation désiré :

  • Feuilletage rapide et signalétique : il n’est pas utile que la résolution soit de très bonne qualité.
  • Lecture ou travail de recherche à l’écran sur le contenu, puis impression : une résolution moyenne d’environ 300 dpi (taux choisi par la BnF) sera suffisante, elle devra permettre une bonne lisibilité.

Pour les caractères originaux très petits ou de mauvaise qualité : 400 dpi. On peut également opter pour 600 dpi pour l’archivage, notamment lorsqu’il s’agit de manuscrits. Les Etats-Unis emploient couramment cette résolution.

Il est préférable que la résolution des images fixes soit suffisamment lisible à l’écran, sans toutefois utiliser une haute résolution à l'impression (environ 200 à 300 dpi), cela entraînera une perte d'informations par rapport au document original, mais évitera, dans la mesure du possible les reproductions pirates. exemple : pour un ekta une résolution de 2000 dpi (3072x2048) sera utilisée pour permettre une impression A4 à 300 dpi

Il est conseillé, dans certains cas, d’adopter différents taux de résolution sachant que l’on peut abaisser un taux de résolution élevé (mais pas l’inverse) : pour les images fixes, par exemple il est possible de passer d’un affichage de "vignettes" ou de "mosaïques" (la résolution d’entrée étant de bonne qualité) au plein écran qui permet cinq niveaux de résolution, et par conséquent autant de niveaux d’affichage).

La qualité des images dépendra de la taille du document original : plus le document est grand, plus la finesse des détails se perd lors de la réduction de l’image à la taille de l’écran, à l’inverse un document de petit format gagnera en lisibilité. De même, le critère de qualité dépendra également de la définition et de la résolution de l'écran de consultation. (La définition d'un moniteur s'exprime en nombre de points ou pixels en hauteur et en largeur, par exemple : 1024x768).


Dans tous les cas essayer d’obtenir une haute définition de départ, puis procéder pour la consultation à un sous-échantillonnage adapté à la diffusion sur le net.

Stockage des données obtenues

Pour répondre aux importants besoins de stockage requis par le numérisation des fonds (particulièrement en mode page), un certain nombre de supports sont employés :

  • Les disques optiques numériques
  • Internet
  1. Les disques optiques numériques sont les supports privilégiés dans la mesure où ils offrent d'importantes capacités de stockage, des possibilités de duplication (par matriçage et pressage), une lecture optique et une couche de protection qui en réduit l'usure, pour un faible coût total.
  2. TYPOLOGIE DES DISQUES OPTIQUES
    *
    Non effaçables
    *
    Effaçables
    *
    En Lecture Seule
    Enregistrables
    *
    DON

    (Disque Optique Numérique)

    *
    WORM (2 faces) - 5,25 pouces - 2,6 à 9,1 Go DON Magnéto-optique - 3,5 pouces à 5,25 pouces - 2,3 Go à 9,1 Go
    CD CD-ROM - 4,72 pouces (12 cm) - 650 Mo à 740 Mo CD-R - 4,72 pouces (12 cm) - 650 Mo à 740 Mo CD-RW ou CD-E - 4,72 pouces (12 cm) - 650 Mo (format UDF, enregistrement PC)
    DVD DVD Vidéo ou DVD-ROM - 4,72 pouces (12 cm)- 4,7 Go face simple, 9,4 Go double face DVD-R - 4,72 pouces (12 cm) - 4,7 Go face simple, 9,4 Go double face . Les DVD+R sont développés sans l'aval des clubs d'industriels du DVD mais possèdent la même capacité de stockage DVD-RW - 4,72 pouces (12 cm)- monoface 4,7 Go, DVD+RW idem, DVD-RAM - 12 cm - 9,4 Go par disque


    Les supports de stockage sont en constante évolution, ces nouveaux supports de stockage font notamment la part belle aux disques multi-couches (Pioneer, Philips, Mitsubishi). Parmi ces nouveaux supports, on peut citer :

    • Le Century Disc dont le substrat à base de verre trempé et sa couche réflexive en métal inoxydable garantissent une très longue conservation. Ils ont été adopté par la BNF pour stocker une partie de ses collections patrimoniales numérisées.
    • Le Blu-Ray Disc (BD ou High Density-DVD) qui peut stocker de 15 à 25 Go par couche.
    • Le HVD (Holographic Versatile Disc) : ce prototype peut contenir l'équivalent de 2000 disques compacts.
  3. Internet représente également un bouleversement dans le monde de l'édition et des bibliothèques, mais également un formidable outil de stockage et de diffusion des fonds numérisés. Pour leur diffusion sur Internet, les fichiers obtenus seront décrits par le biais de métadonnées (éléments de données bibliogaphiques à inclure dans les pages Web définis par le Dublin Core puis ISO 15836 ou encore le RDF du consortium W3C : nom de l'auteur, titre de l'oeuvre, localisation, conditions d'exploitation, mentions de copyright, mots-clés, descriptif technique, type d'objet, date de création)
    On peut constater l'essor de l'utilisation d'Internet pour les fonds numérisés à travers de grands projets réalisés sur Internet tels que : Gallica (la bibliothèque numérique de la BNF qui propose un accès à 90 000 ouvrages numérisés, fascicules de presse compris, à plus de 80000 images et à plusieurs dizaines d'heures de ressources sonores), le Project Gutenberg (180 000 ouvrages dans sa collection) ou encore le projet de Bibliothèque Numérique Européenne (en collaboration avec 25 États membres) baptisé "Europeana", constitué d'un noyau dur de 12 000 documents issus des fonds des bibliothèques nationale de France, de Hongrie et du Portugal, elle comportera 6 millions de livres numérisés à l'horizon de 2010.

Coût de la numérisation

La numérisation d'un grand nombre de volumes d'une bibliothèque ou d'un centre de documentation implique un investissement dans des machines spécialisées capables de numériser plusieurs milliers de pages à l'heure. Le scanner tourne-page de Kirtas peut numériser 2400 pages à l'heure en couleur ou noir et blanc. Les scanners Digitizing Line d'i2S peuvent atteindre 3000 pages par heure. Une machine de ce type revient environ à 300 000 €.
Le Ministère de la Culture et de la Communication lance un appel à projets de numérisation et prévoit une enveloppe pour le budget 2008 de 3 000 000 €, afin de financer les projets répondant à certains critères (accès sur Internet, documents libres de droit).

Droit et numérisation des fonds

La reproduction d'une œuvre encore protégée par la propriété littéraire et artistique sous forme numérisée ainsi que sa représentation sur écran requièrent l'autorisation préalable de l'auteur ou de ses ayants droit. Une œuvre est protégée en fonction de sa nature, d’une part (toute ouvre de l’esprit originale), et de la durée de la protection d’autre part (70 ans après le décès de son auteur). Le document numérique ne constitue pas une exception dans le droit d’auteur.

A - Que doit faire la bibliothèque pour garantir le respect du droit d’auteur dans le cadre de la numérisation de ses fonds?

1. Pour le droit patrimonial

Il convient de distinguer deux cas : ou bien le document concerné est tombé dans le domaine public et l'on peut considérer que la bibliothèque, comme tout autre, a le droit d'en permettre un accès public, ou bien le document ne l'est pas, les ayants droit peuvent alors autoriser ou interdire ces nouveaux usages et doivent en établir les conditions matérielles et financières. Toute cession de droits doit être constatée par écrit. Elle fera donc l'objet d'un contrat entre la bibliothèque et les ayants droit. Il conviendra de s'assurer que les éventuels éditeurs avec lesquels la bibliothèque s'apprête à contracter sont bien titulaires des droits de numérisation cédés par leurs auteurs. Il est important de définir le plus exhaustivement et le plus précisément possible les conditions d'exploitation des oeuvres numérisées par la bibliothèque. Chaque usage ainsi que chaque droit nécessaire à cet usage doivent faire l'objet d'une cession explicite. La numérisation d'un document, qu'il s'agisse d'une image ou d'un texte, entraîne une succession d'actes qui peuvent être juridiquement qualifiés de la façon suivante :

  • exercice d'un droit de reproduction à l'occasion du transfert du document à partir d'un support donné (papier, ekta...) vers un autre support (numérique, électronique)
  • exercice d'un droit de représentation à l'occasion de la communication au public sur des postes de lecture (consultation sur écran)
  • exercice d'un droit de reproduction à l'occasion du stockage nécessaire à la visualisation des données (reproduction éphémère sur la mémoire vive de l'ordinateur ou sur le serveur)
  • exercice d'un droit de reproduction par le lecteur lorsqu'il effectue un déchargement du document consulté, sur papier ou sur disquette

Les bibliothèques devront solliciter l'autorisation des ayants droit tant au titre du droit de reproduction qu'au titre du droit de représentation. Elles veilleront à la stipulation de l'étendue, de la destination, du lieu et de la durée de l'exploitation dans le contrat passé avec les ayants droit. Celui-ci devra préciser les modalités de la cession du droit de reproduction et de représentation en définissant les conditions d'exploitation des oeuvres :

  • la consultation sur place et la transmission à distance hors site sont-elles toutes deux autorisées ? Quels sont les autres supports éventuels pour lesquels les droits sont cédés (CD Rom...) ?
  • le déchargement d'une partie du document consulté sur papier et/ou sur support numérique indépendant (disquette...) par l'usager est-il autorisé ?
  • l'exploitation des documents numérisés peut-elle ou non être de nature commerciale ? (création de produits éditoriaux, vente de fichiers numérisés...)

En fonction de la nature et de l'exploitation potentielle des documents numérisés, une co-production avec les éditeurs privés concernés pourra être privilégiée. Un contrat fixera très précisément les droits et les obligations de chacune des parties (engagements financiers, titularité des droits, conditions de l'exploitation des fichiers numérisés par les deux parties...).

2. Pour le droit moral
L'auteur a le droit d'exiger qu'à toute publication ou communication de son œuvre son nom soit apposé sur le support matériel de cette œuvre, même s'il ne s'agit que d'une reproduction partielle comme une courte citation. La mention du nom du créateur s'impose donc lorsque l'on numérise un document, qu'il s'agisse d'une œuvre littéraire, d'une photographie ou d'une création de tout autre genre. D’autre part L'auteur a droit au respect de son œuvre. La numérisation ne doit apporter aucune modification, suppression, ou adjonction qui pourraient fausser le jugement porté sur l'œuvre (pas de mise à jour, pas d'adjonction de préface sans l'accord exprès de l'auteur). Le juge a considéré que la dénaturation d'une photographie par une reproduction médiocre constituait une atteinte au droit au respect de l'œuvre. La bibliothèque entreprenant la numérisation d'une œuvre veillera donc tout particulièrement aux modalités de présentation du texte et s'attachera à être le plus fidèle possible à sa présentation initiale sous forme papier.

B - La bibliothèque ou le centre de documentation ont-ils des droits par rapport à leurs fonds numérisés?

Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les oeuvres ainsi reproduites. La bibliothèque peut cependant bénéficier d'une protection juridique au titre de la conception et de la production de la base de données qu'elle a ainsi constituée, que les oeuvres numérisées appartiennent ou non au domaine public.

C - Quid de la commercialisation des fonds numérisés ?

Les bibliothèques ont l'habitude, depuis de nombreuses années, de fournir aux lecteurs et éditeurs qui en font la demande, des reproductions de leurs collections tombées dans le domaine public. Avec la diffusion des nouveaux supports, on peut s'attendre à ce que les clients des services de reproduction demandent la fourniture de fichiers numériques sur CD-R, plutôt que des tirages photo ou des ektachromes. La tarification de ces reproductions peut inclure deux éléments. Le premier est lié aux travaux matériels de reproduction (prix du support CD-R, du gravage des disques, ...). Cette part de la tarification est fixe, elle peut être réclamée à tout lecteur faisant une demande de reprographie numérique. Le deuxième élément correspond à la redevance liée au droit de diffusion des images. Le montant de cette part est modulable (à négocier avec les ayants-droits si l’œuvre n’est pas dans le domaine public)

Grands projets de numérisation

En France :

  • Gallica et plus récemment Gallica 2 (version bêta), est la bibliothèque numérique de la Bibliothèque Nationale de France.
    Elle propose des livres numérisés, des cartulaires, des revues, des photos et une collection d'enluminures.
    On y trouve :
    90 000 volumes imprimés en mode image,
    1 200 volumes imprimés en mode texte,
    500 documents sonores,
    80 000 images fixes.
  • La BNuE (Bibliothèque Numérique Européenne) est, contrairement à ce que laisse penser son nom, un projet essentiellement français, notamment en ce qui concerne son financement, (taxe sur les appareils de reprographie français).
    Elle projette de mettre 2 millions d'ouvrages à disposition en 2008 et la numérisation de 100 000 ouvrages par an.
    Actuellement, son site en version bêta (europeana.eu) rend accessible 12 000 références.

A l'Etranger :

  • Le programme Google Book Search de Google lancé en 2004, successeur du très polémique "Google Print" a permis de scanner 8,5 millions de livres. Son grand avantage est de permettre de faire des recherches sur l'intégralité du texte de certains livres numérisés.
  • Microsoft a de son côté fait évoluer les fonctionnalités de sa plateforme de recherche et de services en ligne Live Search Book et a signé un accord avec des éditeurs américains, ainsi qu'avec les universités de Californie et de Toronto.
  • Depuis 2005, l'Unesco et la Bibliothèque du Congrès américaine ont un projet de bibliothèque numérique mondiale, il comprend notamment la préservation du patrimoine des pays en voie de développement et la mise en réseau des bibliothèques numériques existantes.
  • Le projet Gutenberg initié en 1971 par Michael Hart est en pleine accélération : il revendique désormais 20 000 titres dont presque 2000 en Français en texte intégral et en format universel.
  • Le projet européen E-books on Demand représente un nouveau concept de bibliothèque numérique : les livres des bibliothèques partenaires sont scannés à mesure que les utilisateurs en font la demande au coup par coup (en payant), les fichiers viennent ensuite alimenter les fonds libre d'accès..
  • Le moteur de recherche chinois Baïdu est également engagé dans un projet de bibliothèque numérique.

Enjeux de la numérisation :

  1. La mondialisation de l'information:
    Le document peut être accessible dès sa création dans le monde entier. Cependant, la mondialisation a pour conséquences:
    • le problème des langues (86% des pages accessibles sont en anglais et 2,4% en français)
    • la délocalisation des traitements (le document est numérisé en France, mais est traité dans un pays en développement
    • les problèmes juridiques (certains pays ne reconnaissent pas les législations sur le droit l'information),
    • la mise en commun des fonds (avec la création du portail commun TEL, The European Library, permettant la normalisation des métadonnées et l'accès    multilingue dans le cadre de la bibliothèque numérique européenne)
    • le mouvement du libre-accès (open access), de plus en plus développé.
  2. La sécurité et la confidentialité:
    • La numérisation n'est pas sans poser un certain nombre de problèmes au niveau de l'authenfication des documents (le document a-t'il fait l'objet d'une falsification?).
    • Pour les protéger, deux techniques principales sont utilisées pour la protection des documents numérisés : la cryptographie et le tatouage (filigrane ou   empreinte au sein des données numérisées).
    • Les DRMS (Data Rights Management Systems) définissent en ce sens les règles d'accès, de cryptage, l'affectation des métadonnées, la sécurisation de la diffusion par l'octroi de clés aux acheteurs, le suivi des transactions.
  3. La pérennité du document numérique:
    • Le dépôt légal des documents numérique, la longue conservation des supports optiques, et la pérennité des systèmes de lecture (migration du support et   du contenu à chaque nouvelle avancée technologique ou rafraîchissement du support et de l'émulation de l'environnement numérique), représentent les points   essentiels visant à transmettre les fonds numérises aux prochaines générations.


Références et sources

  • Imprimées:
    • CHAUMIER, Jacques. Document et numérisation. Paris : ADBS Editions, 2006. 119 p. (Sciences et techniques de l'information)
    • INRIA. Bibliothèques numériques. Paris : ADBS Editions, 2000. 246 p. (Sciences de l'information)
    • JACQUESSON, Alain , RIVIER, Alexis. Bibliothèques et documents numériques. Paris : Editions du Cercle de la Librairie, 1999. 377 p. (Bibliothèques)
    • BERRONEAU, Delphine. Les bibliothèques numériques. 2005. 87 p. Mémoire Master 2 Ingénierie des Médias pour l'Education, Université de Poitiers.
    • MOLLIER, Jean-Yves. Pour une bibliothèque numérique universelle. BBF, 2007, t. 52, n°3, p. 16-21
  • Ressources électroniques:
    • BNF: Numérisation : aspects techniques, 2007 (consultée le 10/12/2007)
    • BNF: Numérisation : aspects juridiques, 2006 (consultée le 14/12/2007)
    • DEBLOCK, Fabrice: Les bibliothèques numériques face aux contraintes techniques, 2006. (consultée le 10/12/2007)
    • CLUBIC: Visite d'une usine "tourne pages", 2005 (consultée le 10/12/2007)

Liens internes

DokuPedia sémantique