Bienvenue sur DokuPedia, wiki universitaire consacré à la documentation. Vous êtes invités a créer un compte et à contribuer, en ajoutant un nouvel article ou en modifiant celui-ci.
Vous pouvez également utiliser le moteur ou l'améliorer
Google Custom Search

Informatique décisionnelle

Un article de DokuPedia.

Classification du sujet : L'informatique décisionnelle
Classification Dewey
  • 006 : Méthodes informatiques spéciales
  • 658.15 : Prise de décision. Analyse des systèmes. Recherche opérationnelle.
Langage RAMEAU
  • Systèmes d'aide à la décision
  • Systèmes experts (informatique)


Avant l'ère du numérique, les décisions d'affaire étaient adoptées en grande majorité sur le fondement de l'intuition du corps exécutif. Puis, les organisations ont commencé à automatiser le processus de collecte de données. Les informations se sont alors accumulées et les systèmes d'informations sont nés.
Le système d'information est un ensemble de composants automatiques de traitement de données. Chacun de ces composants est affecté à une activité opérationnelle spécifique et peut ainsi fournir des informations de contrôle détaillées sur l'activité à laquelle il est lié. Cependant, l'organisation de ces données était délicate en raison d'un manque d'infrastructure de stockage et d'incompatibilité entre les différents systèmes rendant ces données brutes non-exploitables à des fins d'analyse et d'anticipation. C'est dans ce contexte, au milieu des années 80, qu'apparaît l'ébauche d'un autre système d'information spécialement dédié à l'aide à la décision : l'informatique décisionnelle, en anglais Business Intelligence ou encore Decision Support System.


Avant d'aller plus loin, nous devons préciser que la Business Intelligence n'est pas synonyme d'Intelligence économique (IE). En effet, le concept d'intelligence économique couvre l'ensemble, plus large, des activités de collecte d'informations sur l'environnement économique (marché, concurrence, technologie, politique, société, écologie, etc).
L'informatique décisionnelle s'insère dans l'architecture plus large du système d'information. Elle désigne l'ensemble des méthodes et outils permettant à une entreprise de mettre en place son projet décisionnel. Ces outils informatiques collectent, modélisent et restituent les données de sources internes ou externes afin de permettre, aux responsables, l'obtention d'indicateurs pertinents. Ils peuvent ainsi mesurer la performance de l'entreprise et prendre la meilleure décision dans une situation précise.
Par exemple, les outils du décisionnel peuvent produire des rapports qui « répondent » à des question comme : « Que se passe t-il en ce moment ? », « Pourquoi cela s'est-il passé de cette façon ? » et même « Que va-t-il se passer » ou « Que devrait-il se passer ? ». Tout cela dans des domaines aussi divers que le contrôle de gestion, la gestion de ressources humaines, l'élaboration de plans de production, etc.


Sommaire



L'architecture générale du système informatique décisionnel

On peut classer les outils de la plate-forme d'informatique décisionnelle en 4 classes, suivant l'activité que chacun d'entre eux permet de réaliser dans l'informatique décisionnelle :

  • La collecte des données au moyen des outils d'ETL,
  • Le stockage des données dans l'entrepôt de données : le Datawarehouse,
  • Les analyses multidimensionnelles avec les outils OLAP,
  • Les explorations de données avec le Datamining,
  • La présentation des résultats.


Avant d'entrer plus en détails dans l'architecture du système informatique décisionnel (et pour aider à la compréhension), en voici un schéma :


L'architecture du système informatique décisionnel
L'architecture du système informatique décisionnel


La collecte des données (ou le datapumping) et les outils d'ETL

La majorité des systèmes d'information des entreprises produisent et utilisent des données de nature hétérogène, tant sur le plan technique que sémantique, car elles proviennent de multiples sources. Ces sources de données vont être :

  • internes :
    • le système d'information interne de l'entreprise : compte-rendu d'opérations, d'évènements, d'inventaires etc.
  • externes :
    • les données venant des partenaires (fournisseurs, clients, etc.)
    • les informations issues de la presse, d'Internet, d'organisations institutionnelles : rapports, bases de données, compte-rendus, articles, statistiques, etc...

Ainsi, avant de pouvoir être stockées, les données devront être collectées, triées, éventuellement reformulées, puis chargées dans un entrepôt de données. Ce sont les outils d'ETL ou Extract Transform and Load qui permettent d'automatiser ces opérations en faisant appel à des traitements de type batch[1].

Cependant, la mise en place d'un système d'alimentation fiable d'un entrepôt de données reste complexe et délicate à mettre en œuvre au sein d'une entreprise. La collecte des données brutes dans leur environnement d'origine implique des activités sophistiquées de filtrage : une information non fiable ou une donnée contradictoire sont plus préjudiciable qu'une absence d'information. La mise en place d'un tel système est également très coûteux et représente un très gros investissement financier.

Le stockage des données et le datawarehouse

Le point fort de l'informatique décisionnelle réside dans la manipulation et l'extraction d'informations pertinentes à partir d'un volume de données considérable. Pour cela, il était nécessaire de mettre en place des moyens capables de stocker, de traiter des gros volumes de données et facilitant l’accès aux données globales de l’entreprise.
Comme on l'a vu précédemment, les bases de données de production ne sont pas exploitables pour une application décisionnelle. Pour avoir une vue synthétique de chaque service, de chaque métier ou bien une vue d'ensemble de l'entreprise, on doit unifier les différents gisements de données dans une base de données spécialisée : l'entrepôt de données ou le datawarehouse (ou encore le datamart).

Le datawarehouse et le datamart

L'objectif du datawarehouse est d'offrir une vision transversale de l'organisation en rassemblant toutes les données de l'entreprise et les données de l'extérieur. Les informations y sont assemblées par thèmes. En revanche, le datamart est, en quelque sorte, un sous ensemble du datawarehouse, et les données qu'il contient concerne un métier ou un sujet spécifique de l'entreprise (finance, achat, marketing, etc.). Le datamart est d'ailleurs très souvent alimenté par le datawarehouse (plutôt que directement par les outils d'ETL).

Caractéristiques des données dans le datawarehouse

Les données seront :

  • orientées métiers ou sujets,
  • présentées selon différents axes d'analyse (dimensions),
  • non volatiles : c'est-à-dire stables et non modifiables (lecture seule),
  • datées : avec une conservation de l'historique afin de permettre les études comparatives,
  • conservées, de préférence, sous leur forme élémentaire. Cela offre une plus grande profondeur dans les analyses et un niveau de détail plus élevé, ainsi que la possibilité de poser de nouveaux axes d'étude. Cependant, cela engendre une volumétrie importante,
  • ou conservées, à défaut, sous forme « agrégée »[2]. Les analyses offrent alors moins de précisions. Le volume est moindre : l'accès et les analyses sont plus rapide. En contrepartie, les axes d'analyse ne peuvent généralement pas être modifiés. Par exemple, si les résultats ont été agrégés par semaine ou par mois, il sera difficile de revenir à des résultats agrégés par jour.

Le référentiel de métadonnées

La cohérence logique du système informatique décisionnel (et d'ailleurs de tout autre système d'information) ne peut être garantie que si l'on s'appuie sur un dictionnaire unique d'informations correctement définies qui sait gérer l'ensemble des fonctions du datawarehouse. C'est le rôle dévolu au référentiel de métadonnées situé au niveau du datawarehouse. II va détailler l'ensemble des règles, définitions, transformations et processus associés à une donnée. Ces règles vont concerner le filtrage, la transformation et la description des données, la gestion des flux, les règles de contrôle, de confidentialité, etc.

Ces règles permettent aussi de passer d'un niveau à l'autre lors de l'exploitation des données du datawarehouse. Le référentiel a donc pour but de décrire toutes les informations nécessaires à la gestion et à l'administration du datawarehouse. Il s'agit de données dont les applications de l'ensemble du système décisionnel ont besoin pour fonctionner : les « données de référence » ou les métadonnées.

Les analyses multidimensionnelles et les outils OLAP

L'informatique décisionnelle a pour objet de mesurer un certain nombre d'indicateurs restitués selon les axes d'analyse appelées également les dimensions. Or c'est en aval du datawarehouse que se place tout ces outils de restitution et d'analyse des données fournissant une base technique pour les calculs et les analyses nécessaires, par exemple, pour les applications de l'intelligence économique.
En effet, le datawarehouse (ou le datamart) peuvent permettre des analyses très approfondies des activités de l'entreprise via les outils OLAP.
OLAP signifie On Line Analytical Processus et décrit un ensemble de technologies connues pour l'accès et l'analyse des données stockées dans les bases de données (relationnelles ou multidimensionnelles).
Ces technologies OLAP permettent un accès de manière interactive à une information présentée sous divers angles selon les besoins spécifiques des décideurs, selon les critères qu'ils définissent afin de simuler des situations. Pour offrir une interaction globale, ces outils préagrègent et précalculent les informations à tous les croisements de la structure multidimensionnelle. Cela produit une masse considérable de données qui s'accroît de manière exponentielle avec le nombre d'usagers impliqués, car les points de vue sur les informations sont multipliés.
Les utilisateurs peuvent créer des représentations multidimensionnelles. OLAP devient synonyme de vues multidimensionnelles. Bref, ces outils donnent la possibilité de réaliser des analyses multidimensionnelles sur des bases de données volumineuses.

En effet, les décideurs veulent analyser les données mises à leur disposition et visualiser les informations par rapport à différents axes d’étude.
Par exemple, une manufacture produisant des confiseries peut vouloir mesurer 2 indicateurs : son chiffre d'affaire et son nombre de ventes. Elle voudra le faire selon deux axes d'analyse :

  • 1er axe : le temps : par trimestre, par mois et par jour.
  • 2ème axe : les produits : par familles et par produits.

On obtiendra un tableau à deux entrées, avec en ligne les produits et en colonne le temps. Le croisement des ligne et colonnes, indiquera le chiffre d'affaire et le nombre de ventes.

Maintenant, cette même organisation souhaite ajouter un troisième axe d'analyse : un axe géographique (ventes par ville, par magasin). En ajoutant un axe d'analyse, on ajoute une dimension ; on passe d'un tableau « classique » à un tableau à 3 dimensions, c'est-à-dire un cube.
Avec les outils OLAP il est possible d'avoir de nombreux axes d'analyse, de nombreuses dimensions : on parle d'ailleurs d'hypercube (il s'agirait, si l'on veut, de tableaux à n dimensions). Les outils OLAP permettent de modéliser ces cubes (ou hypercubes).

La navigation dans un hypercube OLAP

Il est possible de naviguer dans les différentes dimensions de l'hypercube :

  • le drill down ou « forage avant » : faculté de « zoomer » sur un axe (une dimension). On peut, par exemple, scinder l'année en semestres, voire en mois pour obtenir une vue plus affinée.
  • le drill up ou « forage arrière » : c'est le traitement inverse qui donne la possibilité d'« agréger » les éléments de l'une des dimensions. On peut, par exemple, réunir les mois en semestres.
  • le slice and dice « couper en lamelles puis en dés » : il s'agit d'une action délicate qui a pour effet un changement des axes d'analyse. On peut vouloir substituer une vue par mois/semestres à un nouvel examen par fournisseurs et partenaires.
  • le drill through : si on ne possède que des données agrégées, cette manipulation permet l'accès aux formes élémentaires des informations (détails). On peut ainsi obtenir le détail concernant chaque jour de chaque mois par rapport à chaque fournisseur.

Voici un exemple de requête qu'il est possible de traiter grâce aux outils OLAP : « Quel est le nombre de boites d'oursons en guimauve ainsi que le chiffre de tablettes de chocolat noir de marque M vendues par le supermarché X à l'endroit Y en janvier 2007 et comparer ces résultats avec le même mois de l'année 2004 et 2006 ».

Les explorations de données avec le Datamining

Les outils de Datamining, littéralement « forage de données » permettent de mettre en évidence des correspondances implicites dans un volume important de données du système d'information afin de dégager des tendances, des informations, des liens occultés ou peu visibles dans la masse de données.
L'origine du nom « datamining » découle de l'analogie effectuée entre la recherche d'informations de valeur dans une masse de données volumineuse et la recherche de minerai dans une mine. Ainsi, les utilisateurs peuvent extraire de la connaissance de leurs données grâce à des mécanismes d’induction[3].
Le datamining s'appuie sur des techniques d' intelligence artificielle et, consiste en un ensemble de techniques et d'outils souvent fondés sur des algorithmes complexes de réseaux neuronaux ou génétiques.
Les outils de datamining sont très souvent associés avec un datawarehouse (ou un datamart) en tant qu'outils d'analyse des activités de l'entreprise. Néanmoins, beaucoup de techniques de datamining sont possibles sans un datawarehouse, mais il faudra des opérations complémentaires d'extraction, de transformation, d'importation et d'analyse des données.
Donc, le datamining a pour objet, de produire des informations riches à partir des données de l’organisation et, de dégager des modèles implicites dans les données afin, par exemple, d'analyser le comportement de consommateurs, prédire ou encore détecter des fraudes.

La diffusion et la présentation des résultats

Les outils de restitution, de présentation des résultats constituent la partie la plus visible de l'architecture du système d'information décisionnel. De telle sorte qu'ils peuvent être utilisés par des personnes qui ne connaissent pas nécessairement l'informatique décisionnelle.
Ces outils définissent les prérequis de mise à disposition de l'information : contrôle d'accès, prise en charge des requêtes, personnalisation, ergonomie, vitesse de restitution, visualisation des résultats, etc. En effet, la diffusion met les données à la disposition des usagers, selon des profils propres à chacun ou au métier de chacun, car pouvoir accéder au datawarehouse ne correspondra sûrement pas aux besoins d'un décideur. Un entrepôt de données contient des milliers de variables, tandis que le paramétrage de diffusion permettra de mettre en valeur quelques dizaines d'indicateurs au maximum. Souvent, un contexte de diffusion est multidimensionnel, et donc modélisable sous la forme d'un hypercube; il peut alors être mis à disposition à l'aide d'un outil d'analyse multidimensionnelle OLAP.
Concrètement, ces outils peuvent couvrir aussi bien la production de rapports prédéfinis, de tableurs, statistiques, diagrammes et tableaux de bords grâce à des progiciels, des outils de type EIS Executive Information System que la mise à disposition d'outils OLAP, ou d'outils de modélisation prédictive à base de techniques statistiques et d'intelligence artificielle comme le datamining.
Les outils de diffusion et de présentation des résultats peuvent aussi s'appuyer directement sur les datamarts, des bases de données thématiques dérivées du datawarehouse mais plus simples d'utilisation pour l'usager.

Très souvent, toutes les parties de l’alimentation et celles de la restitution des données sont gérées par une équipe informatique, spécialisée en gestion de base de données et en décisionnel, interne ou externe à l’entreprise.


Conclusion

Les applications décisionnelles permettent donc d'extraire une connaissance partielle des activités de l'entreprise selon les critères, les axes qui intéressent le décideur à un moment donné.
Il n’existe actuellement aucun logiciel permettant d’explorer efficacement une somme de dossiers composés de documents électroniques aussi divers que : sites web, communautés Web 2.0, forums, mails, images, schémas, tableurs, présentation Powerpoint, etc., afin d’en extraire un minerai précieux : l'information utile à la décision.
L'informatique décisionnelle n'est donc pas au bout de son évolution.



Références

  1. En informatique, le batch processing signifie le traitement par lots. Il s'agit d'un enchaînement automatique de commandes sans intervention d'un opérateur. Le déclenchement de ces traitements peut ainsi être automatisé.
  2. L'agrégation, en informatique, permet de définir une entité comme étant un assemblage de plusieurs sous-entités. Ici, les données agrégées constituent déjà un résultat d’analyse et une synthèse d'information.
  3. En logique, type de raisonnement consistant à procéder par inférence probable ; c'est-à-dire, à déduire des lois par généralisation des observations. On part de données particulières comme des faits ou des énoncés, pour arriver, par une suite d'opérations cognitives, à des propositions plus générales de cas particuliers comme la loi qui les régit.Par exemple, on part de l'expérience pour arriver à la théorie.


Bibliographie

  • J.-M. Franco, Le Data Warehouse, le Data mining, Paris, Eyrolles, 1997.
  • J. H. Gourné, Le projet décisionnel : enjeux, modèles et architectures du Data Warehouse, Paris, Eyrolles, 1998.
  • P. Muckenhirn, Le système d'information décisionnel, construction et exploitation, Paris, Lavoisier, 2003.
  • V. Sandoval, L'informatique décisionnelle, Paris, Hermes, 1997.
  • E. Thomsen, OLAP solutions, New-York, J. Wiley, 2002.
DokuPedia sémantique