Vous pouvez également utiliser le moteur ou l'améliorer
Les langages documentaires
Un article de DokuPedia.
L'objectif de tout documentaliste est de pouvoir répondre aux questions de ses utilisateurs. Il lui faut donc rechercher ces réponses dans les gisements d'information auxquels il peut accéder. Pour rechercher, il lui faut des outils et l'un d'entre eux est le langage documentaire. Celui-ci en effet, facilite cette recherche en faisant correspondre la question exprimée par l'utilisateur à travers son propre vocabulaire avec les informations figurant dans les documents (au sens large du terme) réalisés par des auteurs s'exprimant eux mêmes avec leurs propres mots.
Définition du langage documentaire
Une définition donnée par l'AFNOR(Association Française de Normalisation) précise : langage artificiel constitué de représentations de notions et de relations entre ces notions et destiné dans un système documentaire, à formaliser les données contenues dans les documents et dans les demandes des utilisateurs.
Rôle et fonctions du langage documentaire
Rôle
Le rôle du langage documentaire est donc de faire coïncider le langage naturel de l'usager avec le langage d'indexation du document. Les langages documentaires sont des outils qui servent de pont entre les utilisateurs et les informations contenues dans les textes qu'ils recherchent.
Fonctions
La fonction générale des langages documentaires est de faciliter le repérage des documents par sujets et d'aider à la recherche d'information. Les langages documentaires permettent de répondre aux ambiguités du langage naturel et d'éviter notamment les pièges du langage naturel : la synonymie, la polysémie. Les langages documentaires ont trois fonctions :
- normaliser la représentation des sujets des documents
- permettre à l'utilisateur de "naviguer" entre les sujets voisins
- présenter le contenu des documents sélectionnés pour faciliter le choix définitif
Typologies des langages
Les langages à structure hiérarchique
- Ils sont basés sur la règle logique qui va des concepts génériques aux concepts spécifiques, c'est à dire que l'on respecte une hiérarchie (d'où leur nom);
- Ils n'utilisent pas les mots du langage naturel mais un code basé sur les chiffres, les lettres et autres symboles grammaticaux.
Ce premier type de langage se subdivise en plusieurs catégories : les plans de classement, les classifications universelles et les classifications spécialisées.
Les grandes classifications encyclopédiques découlent d'un système décimal où la notion générale est représentée par un chiffre et les notions de plus en plus spécifiques par des chiffres dont le nombre s'accroît avec la spécificité :
notion générale : 1
notion plus spécifique : 11
notion encore plus spécifique : 111
Les langages à structure combinatoire
Ils sont basés sur l'utilisation des mots du langage naturel. Parmi ceux-ci se rangent les lexiques ou liste de mots-clés ou liste de mots vedettes et les thésaurus.
Les classifications à structure classificatoire ou hiérarchique universelles
La classification Dewey
Né en 1851,Melvil Dewey est à l'origine de la première revue professionnelle pour bibliothèques "Library Journal". Bibliothécaire dans un collège américain, sa classification décimale apparaît comme le premier véritable langage documentaire. En 1876 il publia, après plusieurs années d'expérimentation aux USA, la première édition (24p.) de sa classification décimale qui très vite se répandit aux USA et en Grande-Bretagne, ainsi que dans les pays du Commonwealth.
Dewey a réparti l'ensemble du savoir humain en 10 grandes classes, 100 divisions, 1000 sections et une multitude de sous-sections.
000 Généralités
100 Philosophie et psychologie
200 Religion
300 Sciences sociales
400 Langues
500 Sciences naturelles et mathématiques
600 Technologie
700 Arts
800 Littérature et techniques d'écriture
900 Géographie et histoire
L'arborescence du système Dewey
La classification Dewey expliquée par le CRDP Aquitaine
La Classification Décimale Universelle
La classification Dewey servit de base aux travaux de deux belges, Paul Otlet et Henri Lafontaine, qui dès 1885, entreprirent l'établissement d'un index général de classement couvrant l'ensemble des connaissances humaines. En 1905, après un accord avec Dewey, l'Institut International de Bibliographie (IIB), précédemment dénommé Office International de Bibliographie, publia la première édition internationale complète de la classification décimale universelle (CDU). Cette première édition comportait environ 33000 subdivisions et un index alphabétique de 38000 entrées. Au fil des années, les tables furent affinées et complétées. L'IIB fut transformé en 1931 en IID (Institut International de Documentation) et le siège de cette organisation fut transféré de Bruxelles (Belgique) à La Haye (Pays-Bas) qui, à l'heure actuelle, héberge toujours le centre national de la CDU. Mais depuis 1938, l'IID s'est transformé en Fédération Internationale de Documentation (FID). Cette fédération dirige toujours les travaux relatifs à la CDU.
Les principes
La CDU a été conçue comme un moyen d'indexer, de ranger et de retrouver les informations sur toute la production scientifique, littéraire, artistique, de tous les temps et de tous les pays.... Toutes les connaissances peuvent être liées les unes aux autres à l'aide de signes particuliers. Cette classification universelle va du général au spécifique, c'est à dire du général au particulier à l'aide de subdivisions décimales.
La structure
La CDU se compose de tables développées définissant la structure hiérarchique des notions les unes par rapport aux autres et d'un lexique alphabétique permettant de lire et de se servir de la classification. Toutes les connaissances ont été divisées en 10 grandes classes désignées par des fractions décimales.
0 Généralités : méthodologie, documentation, écriture, enregistrement, rassemblement et diffusion des informations.
1 Philosophie, métaphysique, logique, morale, psychologie
2 Religion, théologie
3 Sciences sociales, y compris la statistique, le droit, l'enseignement
4 Philologie, linguistique
5 Sciences mathématiques, physiques et naturelles
6 Sciences appliquées : médecine et technologie
7 Beaux-arts y compris l'architecture, la photographie, les divertissements et les sports
8 Littérature et Belles Lettres
9 Géographie, biographie, histoire
Exemple :
51 - Mathématiques
511 - Arithmétique
512 - Algèbre
512.1 - Formules algébriques, binômes
513 - Géométrie
La CDU expliquée par le CRDP Aquitaine
La classification de la Bibliothèque du Congrès aux Etats-Unis (Library of Congress)
C'est également en 1897, à la suite d'un déménagement, que cette classification a été élaborée. Faite uniquement pour les besoins spécifiques de cette bibliothèque, cette classification s'est vue adoptée en totalité ou en partie par un certain nombre de bibliothèques aux USA et à l'extérieur. Elle est alphanumérique et comporte 21 classes, elles-mêmes subdivisées en sous-classes allant du général au particulier. Cette bibliothèque étant actuellement accessible dans sa quasi intégralité sur internet, la connaissance de cette classification est une aide précieuse pour la consultation des catalogues de cette bibliothèque.
L'arborescence de la classification de la Bibliothèque du Congrès
La Classification de Bliss
Henry Bliss, bibliothécaire du collège de la cité de New-York, publia en 1935 un schéma suffisamment développé pour pouvoir être appliqué. Les tables complètes ont fini de paraître en 1953. L'ordre des sciences adopté par Bliss se présente sous la forme d'une classification tabulaire à deux dimensions. Il y a en tout 22 classes qui possèdent chacune des subdivisions. En tête de chacune des classes principales, Bliss donne, avant les tables de classification elles-mêmes, un tableau synoptique montrant les relations logiques et systématiques des sujets, la subordination et la coordination de ceux-ci. C'est également une classification alphanumérique.
La Classification de Colon
M. Ranganathan, professeur de mathématiques puis bibliothécaire à Madras et à Delhi (Inde) a publié sa classification en 1933. Celle-ci a fait l'objet de nombreuses rééditions successives. Cette classification vise également à l'universalité et est ce que que l'on pourrait nommer une classification "analytico-synthétique". En effet, avant de construire l'indice de classification, il faut décomposer le sujet en unités distinctes qui sont transcrites en symboles. Cette classification utilise les symboles traditionnels (lettres capitales, minuscules, chiffres, signes de ponctuation). C'est la méthode d'analyse qui en fait l'originalité. En effet, elle consiste à décomposer les sujets à l'aide de 5 concepts fondamentaux : PMEST : Personnalité - Matière - Energie - Espace - Temps
Ceci permet l'adjonction de facettes au sujet traité. Elle permet donc une approche par point de vue et ceci la différencie des classifications strictement hiérarchiques. Ces facettes sont une approche qui, aujourd'hui, reprend de l'importance car elles permettent d'exprimer l'aspect synthétique d'un sujet. Ainsi, la documentation pourra par exemple être abordée sous l'angle du métier (donc statut, ressources humaines, etc...), sous l'angle aménagement des lieux (local, équipement etc), sous l'angle procédés (reproduction, stockage, etc), sous l'angle outils (logiciels documentaires, langages documentaires, etc), sous l'angle traitement (analyse, indexation...).
La classification BBK (URSS)
Classification à point de vue marxiste-léniniste, elle a été élaborée en collaboration, par les grandes bibliothèques d'URSS à partir de la CDU, jugée peu satisfaisante. Elle comporte des tables normalisées qui offrent la possibilité d'exprimer dans l'indice, les aspects les plus divers du contenu. Les qualités structurales de la CDU ont été retenues et la base de cette classification est un système décimal hiérarchique d'indices.
Les classifications à structure classificatoire ou hiérarchique spécialisées
Les classifications spécialisées
Contrairement aux précédentes, ces classifications présentent une grande diversité à la fois sur le fond et sur la structure car elles ont été élaborées pour répondre à des besoins très spécifiques.
Quelques classifications spécialisées
- Pour les sciences agricoles
On peut citer le système de classification des sciences agricoles élaboré par S. Von Frauendorfer et inspiré de la CDU ainsi que la classification des sciences du sol de Vickery pour son domaine particulier.
- Pour les sciences géologiques
On peut citer la classification du BRGM (Bureau de recherches géologiques et minières, France) à la notation alphanumérique.
- En énergie atomique
Il existe, notamment en France, la classification du CEA (Commisariat à l'Energie Atomique).
- Pour les normes
Les normes sont toujours présentées grâce à une classification qui leur est propre : la classification internationale des normes ou ICS. C'est une classification hiérarchique alphanumérique à 3 niveaux. Bien d'autres systèmes ont été élaborés de par le monde. Nous n'en avons cité que quelques uns.
Les langages à structure combinatoire
Les lexiques
Les lexiques utilisent les mots du langage naturel
Ce sont des listes de mots généralement présentées en ordre alphabétique formant un vocabulaire plus ou moins fermé et plus ou moins structuré. Ce vocabulaire tente d'éliminer les risques majeurs du langage naturel, à savoir la synonymie et la polysémie, en définissant un vocabulaire contrôlé. Ce sont des listes de mots-clés ou des vedettes matières. Ce type de langage est surtout utilisé dans les centres de documentation car il est mieux adapté à la grande spécificité de l'information traitée dans les centres, à l'automatisation, et sa mise à jour est plus facile.
L'indexation à l'aide des lexiques
Elle comporte 3 étapes :
- l'identification des concepts qui dépend du texte analysé
- leur sélection dépend des besoins des utilisateurs et de l'outil d'indexation
- la traduction des concepts retenus en langage documentaire
Avec une classification, l'indice qui sert à indexer le document ne représente pas tous les concepts. Tous les concepts contenant un document ne sont pas représentés car l'obligation d'indexation est plutôt restreinte à un domaine.
Or l'usage d'un lexique permet de tenir compte de tous les concepts développés dans l'unité d'un document car la possibilité d'utilisation de termes est plus riche.
Le catalogue de vedettes matières ou listes d'autorités est développé pour servir d'outil d'indexation.
Ces listes comportent des vedettes (termes génériques), des sous vedettes (termes spécifiques) et des renvois d'orientation tel que "voir" ou "voir aussi".
Chaque vedette est indépendante des autres mais elles peuvent se combiner. Elles s'utilisent de la même manière qu'un lexique.
Un lexique peut être :
- très simplifié : simple liste alphabétique
- plus organisé : certains mots-clés comportent des renvois qui permettent d'éliminer les synonymies ou sont un rappel de notions proches.
Exemple : Drogue Voir aussi Toxicomanie
- élaboré : c'est le cas des listes d'autorités de vedettes, et notamment de vedettes-matières qu'utilisent les bibliothèques.
On y trouvera en effet, outre les renvois cités ci-dessus, des "facettes".
Exemple : Faim voir aussi Carence alimentaire et Famine
Faim, géographie
Faim, lutte
ou bien des vedettes spécifiques
Exemple : Fibre
Fibre artificielle
Fibre de verre
Fibre optique
Fibre textile voir aussi textile
Le Répertoire d'Autorité Matière Encyclopédique et Alphabétique Unifié RAMEAU est un répertoire terminologique conçu comme un outil d'aide à l'indexation matière, destiné à uniformiser l'accès par sujet aux documents des fonds de bibliothèques.
Sa gestion est assurée par le MESR et la BNF. C'est un répertoire constitué par le fichier d'autorité matière de la
base BN-OPALE(catalogue en ligne de la BNF pour les livres, périodiques et publications officielles entrées dans les collections depuis 1970).
Le Thésaurus
Historique
Le premier thésaurus à véritable vocation documentaire fut le thésaurus de l'ASTIA (Armed services Technical Information Agency), mis au point aux USA en 1966. En France, c'est également dans le domaine militaire, avec la structuration du CEDOCAR (Centre de Documentation de l'Armement) qu'apparaît le thésaurus.
Définition
"Thésaurus" vient du latin : recueil ou répertoire. Un thésaurus est un répertoire de mots qui ont entre eux des relations. Ce répertoire est appliqué à un domaine particulier des connaissances. Donc, contrairement aux classifications, il n'existe pas de thésaurus universel couvrant toutes les connaissances humaines.
Selon les termes de l'AFNOR, un thésaurus est un langage documentaire fondé sur une structuration hiérarchique d'un ou plusieurs domaines de connaissances et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels.
Caractéristiques
- Un thésaurus est basé sur les mots du langage naturel.
- Le vocabulaire d'un thésaurus n'est pas basé sur des unitermes mais comporte, au contraire, des groupes de mots que l'on considère dans leur ensemble et que l'on désigne sous le terme de descripteurs.
Exemple : Analyse des systèmes - discipline linguistique - langage de programmation - personnel national d'encadrement.
- Contrairement aux classifications, où un seul indice représente toute l'information contenue dans l'unité documentaire, l'indexation avec un thésaurus consiste à relever autant de descripteurs que nécessaire pour définir toute l'information de cette unité.
- C'est un langage contrôlé. Seuls les descripteurs du thésaurus peuvent être utilisés. Donc, pour chaque concept d'indexation relevé, il vous faudra vérifier dans le thésaurus le descripteur qu'il faudra employer pour représenter ce concept.
- C'est un langage structuré. Chacun des descripteurs figurant dans le thésaurus est relié à certains autres descripteurs par divers types de relations.
Structure
Il s'agit d'un outil de recherche, puisque la traduction des concepts en descripteurs intéresse les concepts du fonds documentaire et les questions des utilisateurs. Le thésaurus pourra avoir la forme :
- d'un langage pré-coordonné
Exemple : pour le terme "Elevage de bovins" on associe les deux notions d'élevage et de bovins avant l'indexation. Le descripteur du thésaurus sera "ELEVAGE DE BOVINS"
- d'un langage post-coordonné
C'est au moment de l'indexation, suivant le sens du texte analysé, que l'on coordonne les deux termes en les associant. On aura donc : BOVIN + ELEVAGE
Organisation
Le thésaurus comporte deux parties :
- une partie où les descripteurs sont présentés systématiquement par domaine de connaissance (ou champs ou facettes). Comme pour les classifications, les notions sont classées du générique au spécifique.
L'ensemble du domaine traité par le thésaurus est organisé en "champs" et "sous-champs" qui regroupent l'ensemble des descripteurs.
- une partie alphabétique qui peut être permutée. Les descripteurs y sont représentés par ordre alphabétique. Si le thésaurus est permuté, chacun des mots formant un descripteur trouve sa place au sein de cette liste alphabétique : on permute sur chaque mot constituant le descripteur.
Les relations entre descripteurs
Il existe plusieurs types de relations :
- Les relations hiérarchiques sont celles qui permettent de rapprocher un descripteur de sens plus générique (TG) à un descripteur de sens plus spécifique (TS). Dans chacun de ces niveaux, il peut y avoir plusieurs niveaux (TG1, TG2...).
Exemple 1 : le descripteur VIANDE se présentera de la façon suivante :
VIANDE
TG1 -Produit animal
TS1 -Viande de mouton
-Viande de bovin
-Viande de volaille
Exemple 2 : pour le descripteur MALADIE DE CARENCE, nous aurons :
TG1 -Trouble nutritionnel
TG2 -Trouble du métabolisme
TS1 -Carence en vitamines
TS1 -Carence minérale
TS1 -Carence protéique
TS2 -Carence en oligo-éléments
- Les relations associatives sont des relations de synonymie. Le langage du thésaurus est contrôlé pour éviter que des synonymes ne surchargent son vocabulaire. C'est ainsi que, ayant relevé plusieurs synonymes, on en choisit un que l'on introduit comme descripteur dans le thésaurus, et l'on interdit l'usage des autres termes. Pour ce faire, on utilise :
E pour les termes interdits et EP pour les termes autorisés.
Exemple :
Voiture - Automobile
Automobile EP Voiture
Voiture E Automobile
Il arrive souvent qu'un terme fasse penser à un second terme qui lui est associé par le sens mais pas par la hiérarchie. Ces relations s'expriment sous la forme :
TA (terme associé) ou VA (voir aussi).
Exemple : en reprenant notre descripteur MALADIE DE CARENCE nous aurons :
TG1 Trouble nutritionnel
TG2 Trouble du métabolisme
TS1 Carence en vitamines
TS1 Carence minérale
TS2 Carence en oligo-élément
TS1 Carence protéique
VA Malnutrition - Oligo-élément
En conclusion, un descripteur peut-être défini par les différentes relations suivantes :
X descripteur
EP Synonymes interdits
TG1, 2... Termes génériques
TS1, 2 ... Termes spécifiques
TA Termes associés
En ce qui concerne la polysémie, le thésaurus ajoute un "NA : note d'application" qui permet de définir le sens
Ex : PECHE (fruit) ou PECHE (poisson)
Règles d'écriture
Par mesure de facilité et de normalisation, la plupart des thésaurus en langue française ont adopté quelques règles générales d'écriture :
- utilisation des termes au singulier sauf lorsque le terme n'existe qu'au pluriel
Exemple : beaux-arts
- des contraintes matérielles ont conduit à des abréviations de termes
Exemple : international peut devenir INTERNAT. ou Université se transforme en UNIV.
Les différents types de thésaurus
Différents facteurs vont intervenir sur le type des thésaurus :
1) le domaine d'application
Ce domaine peut être un champ de connaissance très spécifique : la médecine vétérinaire ou l'économie par exemple. En fonction de ce domaine, le thésaurus sera plus ou moins spécifique et l'on parlera de macro-thésaurus ou de micro-thésaurus
2) son aire d'extension
Dans le cadre des échanges internationaux entre systèmes documentaires ayant les mêmes domaines d'intérêt ou lorsque le système documentaire recouvre plusieurs langues, ces systèmes ont élaboré des thésaurus multilingues.
Les différentes formes de thésaurus
- Les thésaurus à organisation hiérarchique linéaire
C'est la forme la plus classique : la partie sémantique présente les champs et sous-champs suivant la présentation du sommaire, et au sein de chaque champ, la liste des descripteurs qu'ils contiennent.
- Les thésaurus à représentation graphique
- la partie alphabétique reste identique. Cette liste comporte à la fois :
les descripteurs avec leur champ d'appartenance
les non-descripteurs qui renvoient aux descripteurs les représentant.
-c'est dans la partie hiérarchique du thésaurus qu'intervient la représentation graphique. Cette représentation peut être :
sous forme d'arbre
sous forme tabulaire
sous forme de schémas fléchés
Elaboration d'un thésaurus
Pour élaborer un thésaurus, deux processus s'appliquent :
- La méthode analytique
Au fur et à mesure que les documents sont traités, on note les termes d'indexation et leur fréquence d'utilisation. On procède de même lorsqu'il s'agit d'un fonds déjà existant et pour lequel on veut passer d'un langage antérieur à un thésaurus.
- La méthode synthétique
On cherche tous les termes concernant le domaine à l'étude dans des index, des fichiers, dictionnaires, encyclopédies. On peut donc facilement, champ par champ, créer les relations sémantiques entre les mots.
Comment utiliser le thésaurus ?
L'utilisation s'applique aux textes analysés et aux questions posées.
- Pour indexer les textes, il existe plusieurs cas de figure :
a) le système documentaire pratique le résumé, et c'est au sein de ce résumé que l'on va introduire les descripteurs.
b) le système documentaire a prévu des champs spécifiques pour l'indexation. Celle-ci pourra alors être pratiquée à plusieurs niveaux :
- le niveau générique qui permettra de classer la notice dans un domaine : ceci peut-être utile pour son édition dans un bulletin bibliographique, par exemple.
- le niveau spécifique qui est destiné réellement à la recherche, notamment dans les fichiers inversés, des banques de données.
- Pour indexer les questions, et pour obtenir des réponses pertinentes lors d'une recherche, il va falloir établir l'équation de recherche. Elle s'écrit comme une formule mathématique avec des signes tels que les parenthèses, les (+) et les (-), les fonctions "ET", "OU", "SAUF" appelées opérateurs booléens.
- La fonction "ET"
Si vous avez utilisé un terme de recherche trop général, combinez ce terme avec d'autres termes en utilisant l'opérateur booléen ET, ce qui limitera l'angle de votre recherche et diminuera d'autant le nombre de réponses trouvées
Exemple : vous effectuez une recherche sur l'élevage bovin au Sénégal. Ce qui signifie que seuls les textes comprenant les trois descripteurs sont les documents pertinents, c'est à dire qu'il vous faut obtenir :
ELEVAGE + BOVIN + SENEGAL
- La fonction "OU"
Pour élargir votre requête, combinez les termes de recherche en utilisant OU. Le système cherche alors simultanément et indépendamment vos termes de recherche.
Exemple : la requête Einstein OU Albert conduira à l'affichage des titres de notices contenant soit le terme "Einstein", soit le terme "Albert", soit les deux.
- La fonction "SAUF"
Pour restreindre l'angle d'une requête, vous pouvez aussi combiner les termes de recherche à l'aide du booléen SAUF, qui permet d'exclure un ou plusieurs termes de votre requête.
Exemple : la requête Einstein SAUF Albert conduira à l'affichage des titres de notices contenant le terme "Einstein" mais ne contenant jamais le terme "Albert".
Le thésaurus implique une mise à jour constante, une amélioration et une évolution. Sa mise à jour comporte plusieurs étapes :
-Eliminer les descripteurs peu ou pas utilisés
-Redéfinir en spécifiant les descripteurs souvent utilisés
-Vérifier les candidats descripteurs (importance, pertinence...)
-Introduire de nouveaux candidats descripteurs.
Liens
Quelques liens pour approfondir la réflexion sur les langages documentaires:

