Bienvenue sur DokuPedia, wiki universitaire consacré à la documentation. Vous êtes invités a créer un compte et à contribuer, en ajoutant un nouvel article ou en modifiant celui-ci.
Vous pouvez également utiliser le moteur ou l'améliorer
Google Custom Search

Les langages documentaires

Un article de DokuPedia.


L'objectif de tout documentaliste est de pouvoir répondre aux questions de ses utilisateurs. Il lui faut donc rechercher ces réponses dans les gisements d'information auxquels il peut accéder. Pour rechercher, il lui faut des outils et l'un d'entre eux est le langage documentaire. Celui-ci en effet, facilite cette recherche en faisant correspondre la question exprimée par l'utilisateur à travers son propre vocabulaire avec les informations figurant dans les documents (au sens large du terme) réalisés par des auteurs s'exprimant eux mêmes avec leurs propres mots.


Sommaire

Définition du langage documentaire

Une définition donnée par l'AFNOR(Association Française de Normalisation) précise : langage artificiel constitué de représentations de notions et de relations entre ces notions et destiné dans un système documentaire, à formaliser les données contenues dans les documents et dans les demandes des utilisateurs.

Rôle et fonctions du langage documentaire

Rôle

Le rôle du langage documentaire est donc de faire coïncider le langage naturel de l'usager avec le langage d'indexation du document. Les langages documentaires sont des outils qui servent de pont entre les utilisateurs et les informations contenues dans les textes qu'ils recherchent.


Fonctions

La fonction générale des langages documentaires est de faciliter le repérage des documents par sujets et d'aider à la recherche d'information. Les langages documentaires permettent de répondre aux ambiguités du langage naturel et d'éviter notamment les pièges du langage naturel : la synonymie, la polysémie. Les langages documentaires ont trois fonctions :

  • normaliser la représentation des sujets des documents
  • permettre à l'utilisateur de "naviguer" entre les sujets voisins
  • présenter le contenu des documents sélectionnés pour faciliter le choix définitif

Typologies des langages

Les langages à structure hiérarchique

  • Ils sont basés sur la règle logique qui va des concepts génériques aux concepts spécifiques, c'est à dire que l'on respecte une hiérarchie (d'où leur nom);
  • Ils n'utilisent pas les mots du langage naturel mais un code basé sur les chiffres, les lettres et autres symboles grammaticaux.

Ce premier type de langage se subdivise en plusieurs catégories : les plans de classement, les classifications universelles et les classifications spécialisées.

Les grandes classifications encyclopédiques découlent d'un système décimal où la notion générale est représentée par un chiffre et les notions de plus en plus spécifiques par des chiffres dont le nombre s'accroît avec la spécificité :

notion générale : 1

notion plus spécifique : 11

notion encore plus spécifique : 111


Les langages à structure combinatoire

Ils sont basés sur l'utilisation des mots du langage naturel. Parmi ceux-ci se rangent les lexiques ou liste de mots-clés ou liste de mots vedettes et les thésaurus.

Les classifications à structure classificatoire ou hiérarchique universelles

La classification Dewey

Né en 1851,Melvil Dewey est à l'origine de la première revue professionnelle pour bibliothèques "Library Journal". Bibliothécaire dans un collège américain, sa classification décimale apparaît comme le premier véritable langage documentaire. En 1876 il publia, après plusieurs années d'expérimentation aux USA, la première édition (24p.) de sa classification décimale qui très vite se répandit aux USA et en Grande-Bretagne, ainsi que dans les pays du Commonwealth.

Dewey a réparti l'ensemble du savoir humain en 10 grandes classes, 100 divisions, 1000 sections et une multitude de sous-sections.


000 Généralités

100 Philosophie et psychologie

200 Religion

300 Sciences sociales

400 Langues

500 Sciences naturelles et mathématiques

600 Technologie

700 Arts

800 Littérature et techniques d'écriture

900 Géographie et histoire


L'arborescence du système Dewey

Un article Wikipédia

La classification Dewey expliquée par le CRDP Aquitaine

La Classification Décimale Universelle

La classification Dewey servit de base aux travaux de deux belges, Paul Otlet et Henri Lafontaine, qui dès 1885, entreprirent l'établissement d'un index général de classement couvrant l'ensemble des connaissances humaines. En 1905, après un accord avec Dewey, l'Institut International de Bibliographie (IIB), précédemment dénommé Office International de Bibliographie, publia la première édition internationale complète de la classification décimale universelle (CDU). Cette première édition comportait environ 33000 subdivisions et un index alphabétique de 38000 entrées. Au fil des années, les tables furent affinées et complétées. L'IIB fut transformé en 1931 en IID (Institut International de Documentation) et le siège de cette organisation fut transféré de Bruxelles (Belgique) à La Haye (Pays-Bas) qui, à l'heure actuelle, héberge toujours le centre national de la CDU. Mais depuis 1938, l'IID s'est transformé en Fédération Internationale de Documentation (FID). Cette fédération dirige toujours les travaux relatifs à la CDU.


Les principes

La CDU a été conçue comme un moyen d'indexer, de ranger et de retrouver les informations sur toute la production scientifique, littéraire, artistique, de tous les temps et de tous les pays.... Toutes les connaissances peuvent être liées les unes aux autres à l'aide de signes particuliers. Cette classification universelle va du général au spécifique, c'est à dire du général au particulier à l'aide de subdivisions décimales.

La structure

La CDU se compose de tables développées définissant la structure hiérarchique des notions les unes par rapport aux autres et d'un lexique alphabétique permettant de lire et de se servir de la classification. Toutes les connaissances ont été divisées en 10 grandes classes désignées par des fractions décimales.

0 Généralités : méthodologie, documentation, écriture, enregistrement, rassemblement et diffusion des informations.

1 Philosophie, métaphysique, logique, morale, psychologie

2 Religion, théologie

3 Sciences sociales, y compris la statistique, le droit, l'enseignement

4 Philologie, linguistique

5 Sciences mathématiques, physiques et naturelles

6 Sciences appliquées : médecine et technologie

7 Beaux-arts y compris l'architecture, la photographie, les divertissements et les sports

8 Littérature et Belles Lettres

9 Géographie, biographie, histoire

Exemple :

51 - Mathématiques

511 - Arithmétique

512 - Algèbre

512.1 - Formules algébriques, binômes

513 - Géométrie

Un article Wikipédia

L'arborescence de la CDU

La CDU expliquée par le CRDP Aquitaine

La classification de la Bibliothèque du Congrès aux Etats-Unis (Library of Congress)

C'est également en 1897, à la suite d'un déménagement, que cette classification a été élaborée. Faite uniquement pour les besoins spécifiques de cette bibliothèque, cette classification s'est vue adoptée en totalité ou en partie par un certain nombre de bibliothèques aux USA et à l'extérieur. Elle est alphanumérique et comporte 21 classes, elles-mêmes subdivisées en sous-classes allant du général au particulier. Cette bibliothèque étant actuellement accessible dans sa quasi intégralité sur internet, la connaissance de cette classification est une aide précieuse pour la consultation des catalogues de cette bibliothèque.

Un article Wikipédia

L'arborescence de la classification de la Bibliothèque du Congrès


La Classification de Bliss

Henry Bliss, bibliothécaire du collège de la cité de New-York, publia en 1935 un schéma suffisamment développé pour pouvoir être appliqué. Les tables complètes ont fini de paraître en 1953. L'ordre des sciences adopté par Bliss se présente sous la forme d'une classification tabulaire à deux dimensions. Il y a en tout 22 classes qui possèdent chacune des subdivisions. En tête de chacune des classes principales, Bliss donne, avant les tables de classification elles-mêmes, un tableau synoptique montrant les relations logiques et systématiques des sujets, la subordination et la coordination de ceux-ci. C'est également une classification alphanumérique.


La Classification de Colon

M. Ranganathan, professeur de mathématiques puis bibliothécaire à Madras et à Delhi (Inde) a publié sa classification en 1933. Celle-ci a fait l'objet de nombreuses rééditions successives. Cette classification vise également à l'universalité et est ce que que l'on pourrait nommer une classification "analytico-synthétique". En effet, avant de construire l'indice de classification, il faut décomposer le sujet en unités distinctes qui sont transcrites en symboles. Cette classification utilise les symboles traditionnels (lettres capitales, minuscules, chiffres, signes de ponctuation). C'est la méthode d'analyse qui en fait l'originalité. En effet, elle consiste à décomposer les sujets à l'aide de 5 concepts fondamentaux : PMEST : Personnalité - Matière - Energie - Espace - Temps

Ceci permet l'adjonction de facettes au sujet traité. Elle permet donc une approche par point de vue et ceci la différencie des classifications strictement hiérarchiques. Ces facettes sont une approche qui, aujourd'hui, reprend de l'importance car elles permettent d'exprimer l'aspect synthétique d'un sujet. Ainsi, la documentation pourra par exemple être abordée sous l'angle du métier (donc statut, ressources humaines, etc...), sous l'angle aménagement des lieux (local, équipement etc), sous l'angle procédés (reproduction, stockage, etc), sous l'angle outils (logiciels documentaires, langages documentaires, etc), sous l'angle traitement (analyse, indexation...).



La classification BBK (URSS)

Classification à point de vue marxiste-léniniste, elle a été élaborée en collaboration, par les grandes bibliothèques d'URSS à partir de la CDU, jugée peu satisfaisante. Elle comporte des tables normalisées qui offrent la possibilité d'exprimer dans l'indice, les aspects les plus divers du contenu. Les qualités structurales de la CDU ont été retenues et la base de cette classification est un système décimal hiérarchique d'indices.



Les classifications à structure classificatoire ou hiérarchique spécialisées

Les classifications spécialisées

Contrairement aux précédentes, ces classifications présentent une grande diversité à la fois sur le fond et sur la structure car elles ont été élaborées pour répondre à des besoins très spécifiques.

Quelques classifications spécialisées

  • Pour les sciences agricoles

On peut citer le système de classification des sciences agricoles élaboré par S. Von Frauendorfer et inspiré de la CDU ainsi que la classification des sciences du sol de Vickery pour son domaine particulier.

  • Pour les sciences géologiques

On peut citer la classification du BRGM (Bureau de recherches géologiques et minières, France) à la notation alphanumérique.

  • En énergie atomique

Il existe, notamment en France, la classification du CEA (Commisariat à l'Energie Atomique).

  • Pour les normes

Les normes sont toujours présentées grâce à une classification qui leur est propre : la classification internationale des normes ou ICS. C'est une classification hiérarchique alphanumérique à 3 niveaux. Bien d'autres systèmes ont été élaborés de par le monde. Nous n'en avons cité que quelques uns.

Les langages à structure combinatoire

Les lexiques

Les lexiques utilisent les mots du langage naturel

Ce sont des listes de mots généralement présentées en ordre alphabétique formant un vocabulaire plus ou moins fermé et plus ou moins structuré. Ce vocabulaire tente d'éliminer les risques majeurs du langage naturel, à savoir la synonymie et la polysémie, en définissant un vocabulaire contrôlé. Ce sont des listes de mots-clés ou des vedettes matières. Ce type de langage est surtout utilisé dans les centres de documentation car il est mieux adapté à la grande spécificité de l'information traitée dans les centres, à l'automatisation, et sa mise à jour est plus facile.

L'indexation à l'aide des lexiques


Elle comporte 3 étapes :

  • l'identification des concepts qui dépend du texte analysé
  • leur sélection dépend des besoins des utilisateurs et de l'outil d'indexation
  • la traduction des concepts retenus en langage documentaire

Avec une classification, l'indice qui sert à indexer le document ne représente pas tous les concepts. Tous les concepts contenant un document ne sont pas représentés car l'obligation d'indexation est plutôt restreinte à un domaine.

Or l'usage d'un lexique permet de tenir compte de tous les concepts développés dans l'unité d'un document car la possibilité d'utilisation de termes est plus riche.

Le catalogue de vedettes matières ou listes d'autorités est développé pour servir d'outil d'indexation.

Ces listes comportent des vedettes (termes génériques), des sous vedettes (termes spécifiques) et des renvois d'orientation tel que "voir" ou "voir aussi".

Chaque vedette est indépendante des autres mais elles peuvent se combiner. Elles s'utilisent de la même manière qu'un lexique.

Un lexique peut être :

  • très simplifié : simple liste alphabétique
  • plus organisé : certains mots-clés comportent des renvois qui permettent d'éliminer les synonymies ou sont un rappel de notions proches.

Exemple : Drogue Voir aussi Toxicomanie

  • élaboré : c'est le cas des listes d'autorités de vedettes, et notamment de vedettes-matières qu'utilisent les bibliothèques.

On y trouvera en effet, outre les renvois cités ci-dessus, des "facettes".

Exemple : Faim voir aussi Carence alimentaire et Famine

Faim, géographie

Faim, lutte


ou bien des vedettes spécifiques

Exemple : Fibre

Fibre artificielle

Fibre de verre

Fibre optique

Fibre textile voir aussi textile


Le Répertoire d'Autorité Matière Encyclopédique et Alphabétique Unifié RAMEAU est un répertoire terminologique conçu comme un outil d'aide à l'indexation matière, destiné à uniformiser l'accès par sujet aux documents des fonds de bibliothèques. Sa gestion est assurée par le MESR et la BNF. C'est un répertoire constitué par le fichier d'autorité matière de la base BN-OPALE(catalogue en ligne de la BNF pour les livres, périodiques et publications officielles entrées dans les collections depuis 1970).

Le Thésaurus

Historique

Le premier thésaurus à véritable vocation documentaire fut le thésaurus de l'ASTIA (Armed services Technical Information Agency), mis au point aux USA en 1966. En France, c'est également dans le domaine militaire, avec la structuration du CEDOCAR (Centre de Documentation de l'Armement) qu'apparaît le thésaurus.


Définition

"Thésaurus" vient du latin : recueil ou répertoire. Un thésaurus est un répertoire de mots qui ont entre eux des relations. Ce répertoire est appliqué à un domaine particulier des connaissances. Donc, contrairement aux classifications, il n'existe pas de thésaurus universel couvrant toutes les connaissances humaines.

Selon les termes de l'AFNOR, un thésaurus est un langage documentaire fondé sur une structuration hiérarchique d'un ou plusieurs domaines de connaissances et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels.


Caractéristiques

  • Un thésaurus est basé sur les mots du langage naturel.
  • Le vocabulaire d'un thésaurus n'est pas basé sur des unitermes mais comporte, au contraire, des groupes de mots que l'on considère dans leur ensemble et que l'on désigne sous le terme de descripteurs.

Exemple : Analyse des systèmes - discipline linguistique - langage de programmation - personnel national d'encadrement.

  • Contrairement aux classifications, où un seul indice représente toute l'information contenue dans l'unité documentaire, l'indexation avec un thésaurus consiste à relever autant de descripteurs que nécessaire pour définir toute l'information de cette unité.
  • C'est un langage contrôlé. Seuls les descripteurs du thésaurus peuvent être utilisés. Donc, pour chaque concept d'indexation relevé, il vous faudra vérifier dans le thésaurus le descripteur qu'il faudra employer pour représenter ce concept.
  • C'est un langage structuré. Chacun des descripteurs figurant dans le thésaurus est relié à certains autres descripteurs par divers types de relations.


Structure

Il s'agit d'un outil de recherche, puisque la traduction des concepts en descripteurs intéresse les concepts du fonds documentaire et les questions des utilisateurs. Le thésaurus pourra avoir la forme  :

  • d'un langage pré-coordonné

Exemple : pour le terme "Elevage de bovins" on associe les deux notions d'élevage et de bovins avant l'indexation. Le descripteur du thésaurus sera "ELEVAGE DE BOVINS"

  • d'un langage post-coordonné

C'est au moment de l'indexation, suivant le sens du texte analysé, que l'on coordonne les deux termes en les associant. On aura donc : BOVIN + ELEVAGE


Organisation

Le thésaurus comporte deux parties :

  • une partie où les descripteurs sont présentés systématiquement par domaine de connaissance (ou champs ou facettes). Comme pour les classifications, les notions sont classées du générique au spécifique.

L'ensemble du domaine traité par le thésaurus est organisé en "champs" et "sous-champs" qui regroupent l'ensemble des descripteurs.

  • une partie alphabétique qui peut être permutée. Les descripteurs y sont représentés par ordre alphabétique. Si le thésaurus est permuté, chacun des mots formant un descripteur trouve sa place au sein de cette liste alphabétique : on permute sur chaque mot constituant le descripteur.

Les relations entre descripteurs

Il existe plusieurs types de relations :

  • Les relations hiérarchiques sont celles qui permettent de rapprocher un descripteur de sens plus générique (TG) à un descripteur de sens plus spécifique (TS). Dans chacun de ces niveaux, il peut y avoir plusieurs niveaux (TG1, TG2...).

Exemple 1 : le descripteur VIANDE se présentera de la façon suivante :


VIANDE

TG1 -Produit animal

TS1 -Viande de mouton

-Viande de bovin

-Viande de volaille


Exemple 2 : pour le descripteur MALADIE DE CARENCE, nous aurons :


TG1 -Trouble nutritionnel

TG2 -Trouble du métabolisme

TS1 -Carence en vitamines

TS1 -Carence minérale

TS1 -Carence protéique

TS2 -Carence en oligo-éléments

  • Les relations associatives sont des relations de synonymie. Le langage du thésaurus est contrôlé pour éviter que des synonymes ne surchargent son vocabulaire. C'est ainsi que, ayant relevé plusieurs synonymes, on en choisit un que l'on introduit comme descripteur dans le thésaurus, et l'on interdit l'usage des autres termes. Pour ce faire, on utilise :

E pour les termes interdits et EP pour les termes autorisés.


Exemple :

Voiture - Automobile

Automobile EP Voiture

Voiture E Automobile

Il arrive souvent qu'un terme fasse penser à un second terme qui lui est associé par le sens mais pas par la hiérarchie. Ces relations s'expriment sous la forme :

TA (terme associé) ou VA (voir aussi).


Exemple : en reprenant notre descripteur MALADIE DE CARENCE nous aurons :

TG1 Trouble nutritionnel

TG2 Trouble du métabolisme

TS1 Carence en vitamines

TS1 Carence minérale

TS2 Carence en oligo-élément

TS1 Carence protéique

VA Malnutrition - Oligo-élément


En conclusion, un descripteur peut-être défini par les différentes relations suivantes :

X descripteur

EP Synonymes interdits

TG1, 2... Termes génériques

TS1, 2 ... Termes spécifiques

TA Termes associés

En ce qui concerne la polysémie, le thésaurus ajoute un "NA : note d'application" qui permet de définir le sens

Ex : PECHE (fruit) ou PECHE (poisson)

Règles d'écriture

Par mesure de facilité et de normalisation, la plupart des thésaurus en langue française ont adopté quelques règles générales d'écriture :

  • utilisation des termes au singulier sauf lorsque le terme n'existe qu'au pluriel

Exemple : beaux-arts

  • des contraintes matérielles ont conduit à des abréviations de termes

Exemple : international peut devenir INTERNAT. ou Université se transforme en UNIV.


Les différents types de thésaurus

Différents facteurs vont intervenir sur le type des thésaurus :

1) le domaine d'application

Ce domaine peut être un champ de connaissance très spécifique : la médecine vétérinaire ou l'économie par exemple. En fonction de ce domaine, le thésaurus sera plus ou moins spécifique et l'on parlera de macro-thésaurus ou de micro-thésaurus

2) son aire d'extension

Dans le cadre des échanges internationaux entre systèmes documentaires ayant les mêmes domaines d'intérêt ou lorsque le système documentaire recouvre plusieurs langues, ces systèmes ont élaboré des thésaurus multilingues.


Les différentes formes de thésaurus

  • Les thésaurus à organisation hiérarchique linéaire

C'est la forme la plus classique : la partie sémantique présente les champs et sous-champs suivant la présentation du sommaire, et au sein de chaque champ, la liste des descripteurs qu'ils contiennent.

  • Les thésaurus à représentation graphique

- la partie alphabétique reste identique. Cette liste comporte à la fois :

les descripteurs avec leur champ d'appartenance

les non-descripteurs qui renvoient aux descripteurs les représentant.

-c'est dans la partie hiérarchique du thésaurus qu'intervient la représentation graphique. Cette représentation peut être :

sous forme d'arbre

sous forme tabulaire

sous forme de schémas fléchés


Elaboration d'un thésaurus

Pour élaborer un thésaurus, deux processus s'appliquent :

  • La méthode analytique

Au fur et à mesure que les documents sont traités, on note les termes d'indexation et leur fréquence d'utilisation. On procède de même lorsqu'il s'agit d'un fonds déjà existant et pour lequel on veut passer d'un langage antérieur à un thésaurus.

  • La méthode synthétique

On cherche tous les termes concernant le domaine à l'étude dans des index, des fichiers, dictionnaires, encyclopédies. On peut donc facilement, champ par champ, créer les relations sémantiques entre les mots.


Comment utiliser le thésaurus ?

L'utilisation s'applique aux textes analysés et aux questions posées.

  • Pour indexer les textes, il existe plusieurs cas de figure :

a) le système documentaire pratique le résumé, et c'est au sein de ce résumé que l'on va introduire les descripteurs.

b) le système documentaire a prévu des champs spécifiques pour l'indexation. Celle-ci pourra alors être pratiquée à plusieurs niveaux :

- le niveau générique qui permettra de classer la notice dans un domaine : ceci peut-être utile pour son édition dans un bulletin bibliographique, par exemple.

- le niveau spécifique qui est destiné réellement à la recherche, notamment dans les fichiers inversés, des banques de données.

  • Pour indexer les questions, et pour obtenir des réponses pertinentes lors d'une recherche, il va falloir établir l'équation de recherche. Elle s'écrit comme une formule mathématique avec des signes tels que les parenthèses, les (+) et les (-), les fonctions "ET", "OU", "SAUF" appelées opérateurs booléens.

- La fonction "ET"

Si vous avez utilisé un terme de recherche trop général, combinez ce terme avec d'autres termes en utilisant l'opérateur booléen ET, ce qui limitera l'angle de votre recherche et diminuera d'autant le nombre de réponses trouvées

Exemple : vous effectuez une recherche sur l'élevage bovin au Sénégal. Ce qui signifie que seuls les textes comprenant les trois descripteurs sont les documents pertinents, c'est à dire qu'il vous faut obtenir :

ELEVAGE + BOVIN + SENEGAL

- La fonction "OU"

Pour élargir votre requête, combinez les termes de recherche en utilisant OU. Le système cherche alors simultanément et indépendamment vos termes de recherche.

Exemple : la requête Einstein OU Albert conduira à l'affichage des titres de notices contenant soit le terme "Einstein", soit le terme "Albert", soit les deux.


- La fonction "SAUF"

Pour restreindre l'angle d'une requête, vous pouvez aussi combiner les termes de recherche à l'aide du booléen SAUF, qui permet d'exclure un ou plusieurs termes de votre requête.


Exemple : la requête Einstein SAUF Albert conduira à l'affichage des titres de notices contenant le terme "Einstein" mais ne contenant jamais le terme "Albert".



Le thésaurus implique une mise à jour constante, une amélioration et une évolution. Sa mise à jour comporte plusieurs étapes :

-Eliminer les descripteurs peu ou pas utilisés

-Redéfinir en spécifiant les descripteurs souvent utilisés

-Vérifier les candidats descripteurs (importance, pertinence...)

-Introduire de nouveaux candidats descripteurs.

Liens

Quelques liens pour approfondir la réflexion sur les langages documentaires:





DokuPedia sémantique