Le Master Data Management

1)   Introduction

La gestion de la multitude de données différentes existant dans une entreprise est coûteuse et complexe. La gestion des référentiels métiers (master data management en anglais, MDM) a pour but de référencer, contrôler, synchroniser toutes les données à travers l'entreprise (par exemple les données clients et produits), de façon à ce qu’elles soient précises, conformes, exploitables par les systèmes et leurs utilisateurs. Le master data management est un ensemble de disciplines, technologies et solutions utilisées pour assurer l'exactitude, la cohérence et l'unicité des données au sein de l'entreprise.

2)   Pourquoi le MDM ?

Les conséquences de la faible qualité des données sont nombreuses et coûtent souvent cher aux entreprises. Les conséquences s’avèrent parfois fatales aux organisations dont les données sont de mauvaise qualité :

  • Insatisfaction des clients : les clients victimes de données incorrectes pardonnent difficilement.

  • Non-conformité des chiffres publiés : des erreurs dans les données comptables entraînent généralement de lourdes sanctions (amendes et peines). Et ce, même si cette situation ne résulte pas d’une manipulation volontaire.

  • Dévalorisation de l’image de l’entreprise : en conséquence du point précédent, des erreurs portant sur des données diffusées à l’extérieur de l’entreprise détériorent rapidement l’image de celle-ci, et handicapent son expansion commerciale. De plus, l’impact boursier des sociétés cotées est immédiat, entraînant la chute rapide du cours de l’action.

  • Perturbation du fonctionnement opérationnel : les données incorrectes au sein de l’entreprise ralentissent le fonctionnement opérationnel, et rendent les décisions difficiles ou incertaines. Cela génère aussi du stress et de la démotivation chez les collaborateurs. De plus, le surcroît de travail engendré par des erreurs de données n’est jamais le bienvenu. Enfin, la perte de confiance dans les informations manipulées n’est propice ni à l’initiative, ni à un climat sain.

  • Erreurs de stratégie : définir une stratégie nécessite plus de temps si les informations utilisées sont de mauvaise qualité ou tout simplement erronées.

  • Augmentation des coûts : les impacts énoncés précédemment engendrent évidemment des surcoûts. Les situations variant d’une entreprise à une autre, il est très difficile d’estimer le coût de la non-qualité. Certains experts estiment cependant que ce coût caché peut représenter plus de 10 % du chiffre d’affaires, ce qui ampute de façon conséquente la rentabilité.

La gestion de l’information est un facteur clef de la compétitivité de l’entreprise. Une information cohérente, intègre, fiable, accessible et sécurisée permet entre autres :

  • L’augmentation du time to market
    Mise sur le marché de nouvelles offres ;
    Rapidité de décision grâce à une information et des supports d’analyse fiables ;
    Suivi client efficace et réponse client rapide.

  • La réduction du risque d’erreur
    Contrôle et qualité de l’information (data management) ;
    Unicité et fiabilité de l’information (master data) ;
    Automatisation de process manuels et administratifs ;
    Sécurité de la base de données (accès réservé à certaines informations, prévenir des modifications non autorisées).

  • La réduction des coûts
    Rationalisation vis-à-vis des fournisseurs d’information externes ;
    Automatisation de process manuels et administratifs ;
    Rationalisation de systèmes d’information multiples et complexes.

Typiquement, les besoins conduisant à l’implémentation d’un outil de Master Data Management sont les suivants :

  • Différencier les informations stratégiques et les informations métier, et avoir une vision globale de ces informations stratégiques ;

  • Fiabiliser l’information ;

  • Bien diffuser l’information (quelle information ? A qui ? Quand ? Où ?) ;

  • Continuité historique de l’information (source unique de référence, unicité d’identifiant pour l’ensemble de l’entreprise, traçabilité tant réglementaire que pour des besoins de reporting).

3)   Définitions, approches et concepts

Plateforme MDM d'Exalead
Exemple de plateforme MDM - Source : Site de l'éditeur Exalead

La gouvernance des données est un cadre de contrôle qualité visant à évaluer, à gérer, à exploiter, à optimiser, à contrôler, à entretenir et à protéger les données des entreprises. De nombreux facteurs poussent actuellement la gouvernance des données en tête des préoccupations des décideurs. Il est généralement admis que les sociétés disposant d’un plan efficace dans ce domaine sont capables de produire durablement des données plus précises, complètes et cohérentes sur leurs activités dans l’ensemble de leurs services.

La consolidation de données consiste à rassembler plusieurs données semblables afin d’obtenir un rapport structuré, plus facile à consulter que l’information brute présente sur le serveur, mais avec le moins de perte d’information possible.

Le nettoyage des données permet de vérifier et de corriger les données tout en assurant la standardisation des formats des bases de données des entreprises. Les procédés de nettoyage de données permettent d’optimiser la qualité de l’ensemble des données des entreprises.

Avant d’utiliser une information et de peut-être prendre une décision, il est important de se poser au préalable quelques questions : quelle est cette information ? D’où provient-elle (base de données, table) ? Comment est-elle calculée ? Quand et comment est-elle rafraîchie ? Quelles sont les précautions d’usages ?

Toutes les informations sur la donnée susceptibles de répondre à cette liste de questions sont enregistrées au sein d’un référentiel. On les appelle les métadonnées, c'est-à-dire les données sur les données. Les métadonnées sont actuellement un des points les plus importants de la gestion des systèmes d’information. Une gestion centralisée des métadonnées permettrait de suivre en termes de qualité la donnée à toutes les étapes de sa vie : stockage, extraction, traitement et présentation.

Une donnée de référence, ou « master data » est une information de base, unique, fondamentale pour l'activité de l'entreprise, et partagée dans différents services. Par exemple, le nom d'un client, le code d'un produit, la référence d'un fournisseur, un numéro de compte… sont des données exploitées, souvent dans des formats différents, par le service des ventes, le suivi de production, la direction comptable, le contrôle de gestion… La donnée de référence, qui est une donnée métier, doit en effet être identifiable et reconnue comme telle partout dans l'entreprise, quel que soit le service qui en est responsable, quel que soit le système d’information, le serveur ou le logiciel qui l'héberge, la traite ou l'enregistre, ou quelle que soit la division ou la filiale de l'entreprise qui la produit.

Exemple de données de référence
Source : Un blog sur la Business Intelligence

D’après l’évolution de la demande au niveau des données : l’entreprise s’est d’abord focalisée sur le stockage des données (avec les systèmes de gestion de bases de données) puis sur la compréhension des données (avec les outils décisionnels dits de BI), et enfin, sur la fiabilité du contenu (avec les outils de MDM).

Evolution de la demande au niveau des données
Source : Centre d’eXpertise des Progiciels & des systèmes d’information

Si la notion de référentiel de données n’est pas nouvelle, le concept-même de MDM est apparu en 2003 et prend vraiment son essor actuellement. Historiquement, celui-ci s’est développé sous deux angles :

  • La gestion des catalogues produits (Product Information Management) notamment dans les domaines de la grande distribution (retail) et du manufacturing,

  • L’intégration des données clients (Customer Data Integration) particulièrement pour l’administration de grosses bases de données transactionnelles (gestion des doublons, vérification et homogénéisation des adresses, etc…).

Depuis, ce concept s’est généralisé à d’autres problématiques et concerne la gestion des tiers et des personnes, des produits et des offres, de l’organisation et des structures, des nomenclatures et des codifications, de la configuration et des paramètres.

Les approches sont connues et pratiquées dans l’Enterprise Application Integration (EAI) depuis vingt ans. La terminologie anglophone propre au MDM est issue du travail de David Loshin.

  • Approche dite « Identity Hub »
    Dans cette approche, toutes les données-maître sont gérées dans un registre unique. Ce sont les composants de ce registre (le « Hub ») qui transforment la donnée. Enfin, les applications clientes interrogent le registre. Cette approche a un inconvénient : les systèmes opérationnels ne sont pas prévenus des changements dans le registre.

  • Approche dite « Proactive Harmonization »
    Un seul changement par rapport à l’approche précédente : les systèmes opérationnels sont prévenus des changements. Cette approche et la précédente ont encore un point faible : chaque système opérationnel reste indépendant et les systèmes ne seront pas au même niveau d’intégration.

  • Approche dite « Integrated Hub »
    C’est la « cousine » de l’approche « Integrated ETL » des systèmes d’Intelligence d’affaires développée au début des années 90. Chaque système opérationnel est intégré dans un « MDM Hub » : en clair, ce Hub se substitue à des composants fournisseurs des applications.

Généralement, au sein de l’entreprise, le consensus porte sur la deuxième approche. La première est trop faible : elle oblige les systèmes opérationnels à détecter les changements dans le registre de données-maître. Et la troisième a un coût plus élevé. Dans la vraie vie, plusieurs approches sont utilisées au sein d’une même compagnie. Exemple : un « Integrated Hub » (très réactif) pour les données-maître critiques (client & produit, par exemple) et une « Proactive Harmonization » pour les données-maître restantes.

4)   Normes et standards

Le Common Warehouse Metamodel ou CWM est un modèle normalisé proposé par l’OMG qui décrit un langage d'échange de métadonnées à travers un entrepôt de données, un système décisionnel, un système d'ingénierie des connaissances (gestion des connaissances), ou des technologies de portail. Il est fondé sur UML et XML. Les principaux éditeurs de business intelligence soutiennent ce modèle.

Le Meta-Object Facility ou MOF est un standard de l'OMG s'intéressant à la représentation des métamodèles et leur manipulation.

L’Open Information Model ou OIM était un standard soutenu par Microsoft mais qui a baissé les bras et décidé de contribuer au modèle commun, le CWM.

5)   Le marché du MDM

Depuis quelques années, les acteurs de la business intelligence investissent fortement sur ce secteur en pleine consolidation. Le MDM semble faire le « buzz » actuellement et de plus en plus d'entreprises s'y intéressent. Le marché est actuellement alimenté par les fournisseurs de solutions (éditeurs le plus souvent) plus que par les entreprises qui ont besoin de solutions adaptées (case studies). Les fournisseurs se positionnent ainsi en marchand de rêves pour des entreprises qui se retrouvent en position d'enfants dans un magasin de jouets.

Voici une carte intéressante qui retrace les liens et les différents rapprochements entre les acteurs du secteur.

Carte des solutions MDM
Source : Un bloggeur spécialisé dans la BI et la gestion des données
Position des acteurs
Source : August 2008 “The Forrester Wave™: Customer Hubs, Q3 2008”

Il est flagrant que ces acquisitions successives ont fortement impacté des géants comme SAP ou ORACLE, clairement en perte de vitesse et sans réelle stratégie à ce jour.

Les bénéficiaires de ce chamboulement sont les clients et les utilisateurs qui profitent pleinement de l'émulsion du marché pour voir les solutions gagner en maturité.

6)   Les acteurs

Le tableau suivant présente une liste d’éditeurs de MDM et quelques informations sur leur solution. Les acteurs sont classés de la manière suivante :

  • Leader
  • Visionnaire
  • Pure player
  • Spécialistes BI / Enterprise Information Management
  • Leader middleware
  • Perturbateur

Il s'agit d'un classement utilisé par le Gartner dans son étude intitulée "Magic Quadrant for Master Data Management of Customer Data" (2009)

Editeur Solution ou éditeur MDM / DQM racheté Informations
IBM InfoSphere MDM Server
WebSphere
Initiate Master Data Service
Initiate Systems (2010)
Lombardi (2009)
Ascential (2005)
DWL (2005)
Trigo (2004)
IBM est l’un des leaders du marché. Il se fait une part belle dans le secteur de la santé puisqu’une quarantaine de services informatiques de santé dans le monde utilisent les solutions d'Initiate Systems. Il existe différentes offres en fonction des données : Websphere Customer Center (gestion données client) et Websphere Product Center (gestion des données produit).
Oracle Oracle Master Data Management Suite Mural
Silver Creek (2009)
Sun Micro (2009)
Hyperion (2007)
Siebel UCM (2005)
Oracle Master Data Management Suite Mural est une solution Open Source.
Talend n'est pas le premier à s'être essayé sur les pentes du MDM Open Source, Sun avait le premier lancé un outil très complet et une communauté de développement Mural pour ce type d'offre.
SAP NetWeaver MDM
IQ8 Integration Studio
Business Objects et FirstLogic (2007)
A2I (2004)
L'Allemand est l'un des pionniers du Master Data Management. L'éditeur a modifié en 2006 les bases technologiques de son MDM en s'appuyant sur la solution de l'éditeur A2i.
Teradata MDM Studio
MDM Server
Le MDM de Teradata est basé sur le code source de la solution MDM de l’éditeur i2 (partenariat).
Tibco Collaborative Information Manager
Netrics (2010)
Velosel (2005)
TIBCO CIM intègre l'intelligence artificielle de Netrics. Le moteur de Netrics fournit un couplage des données temps réel.
Riversand MDM Center Riversand permet aux entreprises de regrouper, gérer et diffuser l'information produit à jour à partir d'un référentiel central.
D&B Purisma Data Hub Delivers Purisma est placé parmi les visionnaires selon l’étude du Gartner "Magic Quadrant for Master Data Management of Customer Data" de 2009. Cette offre est par contre quasiment absente du marché français.
Informatica PowerCenter
Siperian (2010)
Agent Logic (2009)
AddressDoctor (2009)
Identity Systems (2008)
Similarity Systems (2006)
PowerCenter est une solution complète de BI.
Après avoir réalisé quelques acquisitions dans le domaine de la qualité de données, Informatica a déboursé 130 millions de dollars pour mettre la main sur Siperian, l’un des leaders du MDM. La qualité des données est en quelque sorte un préambule à la mise en place d’une approche MDM.
SAS DataFlux qMDM
DataFlux
SAS lance sa plateforme MDM composée d'un nouveau triptyque : MDM, ETL et DATA QUALITY. Cette nouvelle plateforme baptisée DataFlux Data Management Platform vise à consolider et fiabiliser les données de l'entreprise afin d'en tirer le meilleur parti en les transformant en capital stratégique.
Microsoft SQL Server 2008
Bulldog
Zoomix (2008)
Stratature (2007)
SQL Server 2008 est une solution complète de BI.
SQL Server 2008 R2 propose désormais une fonctionnalité de Master Data Management (MDM) se nommant Master Data Services (Bulldog). Bulldog regroupe les processus et standards Microsoft appliqués au code de Stratature.
QAD Perfect Product Suite
FullTilt (2008)
MDM orienté produit e-commerce intégré à une solution PIM (Product Information Management).
Smartco Smart Financial DataHub Pure player français positionné sur le marché du MDM à destination des institutions financières. Outil de gestion de la qualité évolué. Limité en volumétrie traité. Principale référence du marché français.
Talend Talend MDM
Xtentis MDM
Amalto (2009)
Talend MDM est une solution Open Source.
Elle est bâtie autour du noyau de la solution Amalto Xtensis.
VisionWare MultiVue Identification Server Visionware continue d'affronter la concurrence dans le segment de marché Microsoft .NET, et a réussi à se développer en Amérique du Nord dans le secteur public et dans la santé en développant une offre moins chère que ses concurrents.
Kalido Kalido MDM Kalido MDM est une application logicielle permettant d'harmoniser, stocker et gérer les données de référence au cours du temps.
Orchestra Networks EBX.Platform Pure player français positionné sur le marché du MDM. Parmi les nouveautés de la version 4.7RC de EBX.Platform, l'arrivée officielle de la gestion des workflows.
Data Foundations OneData OneData utilise un navigateur pour la gestion des données qui permet de consolider, de nettoyer, de créer, de gérer et de normaliser toutes les données partageables, y compris les données de base, les données de référence et les métadonnées.
Health Market Science CompleteView Health Market Science propose l’une des offres MDM les plus complètes sur le marché de la santé aux Etats Unis.
Amdocs Enterprise Customer Hub Spécialiste des industries de télécommunication. Enterprise Customer Hub est basé sur une version OEM de IBM InfoSphere MDM Server.
Information Builders iWay Software iWay MDC iWay Master Data Center (MDC), solution MDM de type CDI, spécialisée sur la gestion des données Clients. iWay MDC permet aux entreprises de consolider des millions d’enregistrements à partir d’un certain nombre de règles métier très faciles à définir.
GXS PMDM Product Information Manager Product Information Manager est une solution web qui permet de gérer et d’uniformiser les informations relatives au produit dans l'entreprise.
EnterWorks Enable MDM Enable MDM dispose d'une technologie de workflow qui permet de rationaliser les processus liés à un produit et de coordonner les personnes et les systèmes.
Stibo Systems STEP STEP est conçu pour fournir un ensemble d'outils et une interface utilisateur intuitive pour la gestion, la validation, la manipulation et l'accroissement des données.
Heiler Software Product Manager Product Manager est une plate-forme standard pour la gestion de l'information produit et de la communication produit dans le commerce et l'industrie.
Innovit iICE Express Edition (EE) iICE Express Edition est une solution MDM complète créée pour les petites et moyennes entreprises qui recherchent un système pour gérer leurs données de produit.
Liaison Technologies Liaison MDM Liaison est une plateforme MDM en mode SaaS.
Zycus Zynapse Automated Master Data
Management Solution Suite
Zynapse offre une solution basée sur l'intelligence artificielle entièrement automatisé pour nettoyer, enrichir et dé-dupliquer (éliminer les redondances) les données de référence.
Cegedim dendrite Nucleus360 as a service Le premier MDM spécifique aux sciences humaines et disponible en SaaS. Cegedim a pour client un grand groupe pharmaceutique.
Exalead CloudView CloudView peut permettre d’accélérer la phase de MDM ou venir remplacer complètement un MDM pour des petites organisations avec des sources et des volumes de données limitées.
Global Ids ID Integrator ID Integrator automatise l’intégration de données de référence dans l’entreprise.

On remarque ici que les leaders du marché sont les éditeurs qui ont investi très tôt dans le MDM. On peut prendre l’exemple d’IBM avec le rachat de Trigo Technologies dés 2004. Depuis le rachat de Sun par Oracle, l’idée d’un MDM Open Source basé sur le projet Mural s’est estompée. Talend MDM est donc la seule offre Open Source du marché. A la manière d’Informatica, l’acquisition d’éditeurs d’ILM (gestion du cycle de vie de l'information) ou de spécialistes de la qualité des données peut être un préambule à la mise en place d’une approche MDM.

7)   Le projet MDM

Les points qui vont être énoncés ci-dessous sont considérés comme primordiaux dans le succès d'un projet de MDM.

La gestion des données de référence repose sur plusieurs composantes :

  1. Une définition commune et unique de l’information de référence, partagée dans toute l’entreprise (entre les métiers, entre maîtrises d’ouvrage et maîtrises d’oeuvre…). Il s’avère souvent complexe de s’accorder sur une définition commune d’une même appellation.

  2. Des processus de mise à jour et de validation des données explicitement formalisés et répondant aux exigences de qualité de tous les acteurs de l’entreprise concernés.

  3. Des « réceptacles » robustes et pérennes pour les systèmes référentiels de l’entreprise.

  4. Des données de référence qui constituent le contenu ; un contenu qualifié par ses « métadonnées » permettant de l’utiliser au mieux : date de mise à jour, de péremption, auteur de la mise à jour...

  5. Des applications clientes à adapter pour se connecter au référentiel et utiliser absolument les Master Data.

  6. Une roadmap de mise en oeuvre du référentiel reste indispensable :
    • Quel est l’état des données existantes (audit des données) ?
    • Comment migrer ces données existantes ?
    • Comment faire évoluer les applications clientes existantes ?
    • Comment maîtriser la connexion au référentiel des nouvelles applications ?
    • Comment gérer le changement ?
    Autant de questions majeures pour la réussite du projet MDM.
  7. Une dimension clé : la mise en place d’une gouvernance des données de référence. À commencer par l’identification d’une « réelle » maîtrise d’ouvrage, responsable du référentiel et des politiques de gestion de son évolution.

D’après Pascal Anthoine, directeur conseil chez Micropole-Univers, « le budget des projets MDM n’est pas si dissuasif si on le compare aux gains aussi bien en termes de qualité de donnée que d’optimisation des processus. Avec le recul sur la vingtaine de projets MDM menés chez Micropole-Univers, le budget moyen tourne plus autour des 300 à 400 k€ que du million d’euros, comme ont pu l’annoncer certains acteurs… ».

Les projets de MDM ont des impacts majeurs en termes d’outils, d’application, d’organisation et de processus. Il s’agit donc de projet long terme dont les bénéfices, stratégiques pour l’entreprise, ne sont accessibles qu’après une longue traversée du désert.

8)   Perspectives et tendances

Nous entrons dans une nouvelle décennie et sept nouvelles tendances se dégagent autour du nouveau monde du MDM :

  1. Les clients ne veulent plus d’applications horizontales (progiciel conçu pour être utilisé par différents types d’organisation). Le MDM doit s’adapter aux exigences spécifiques des industries. Les résultats doivent être pertinents à la façon dont une industrie fonctionne.

  2. Les clients souhaitent avoir des outils pour lier des hiérarchies et des relations sur les données non structurées afin de connaître la valeur de l'information.

  3. L’utilisation des modèles Cloud Computing et SaaS vont imposer les approches hybrides. Les systèmes MDM doivent prendre en charge les modèles hybrides en temps réel. L'intégration des données doit être pilotée par les événements.

  4. La manière de manager les données de référence n’a pas d’importance, seuls les résultats comptent. Les utilisateurs de BI recherchent des résultats et des pistes de réflexion.

  5. La gouvernance et la gestion des données deviennent les points les plus importants du MDM.

  6. Il est nécessaire de créer une relation de confiance, de devenir un partenaire, un vrai, plutôt qu'un fournisseur froid et distant, si l'on souhaite justement gagner la fameuse confiance tant recherchée des consommateurs. Les organisations ont besoin de comprendre aussi bien leur défenseur que leur détracteur. Dans un monde social et interconnecté, il est nécessaire d’avoir un marketing, des ventes et un support plus ciblés. 7. Le MDM va devoir couvrir plus de types de données. De nouvelles formes de contenu entreront bientôt dans l'équation (images, vidéos, flux, tweet…).

IBM Research a annoncé en janvier 2008 le lancement du projet Semantic Master Data Management (SMDM) qui vise à utiliser les technologies Web sémantique pour outiller l'interrogation et l'analyse sémantique de données de référence. Cette technologie vise à terme à améliorer l'utilisation des données de référence en se greffant aux solutions MDM existantes.

Le projet SMDM a fait le choix de gérer des ontologies enrichies à partir du modèle de données logique d’une solution MDM. Pour mémoire, l’ontologie est un concept fondamental du Web sémantique, pouvant être définie comme la spécification explicite d’une conceptualisation partagée. Il s’agit donc d’une structure clé pour la représentation des connaissances. Les données maîtres sont représentées sous formes d’instances d’ontologies de la forme , similaires au langage naturel et aisément interprétables. Après la mise en place de l’entrepôt d’ontologies, celle des moteurs de recherche associés : le langage de requête SPARQL permet l’interrogation de ces données, les requêtes étant intuitivement construites sans qu’il ne soit nécessaire d’avoir connaissance du modèle de données sous-jacent. L’utilisation d’ontologies permet également la découverte d’informations implicites par le biais du raisonnement ontologique : découvertes de nouvelles relations, classification automatique, mise en relation automatique, catégorisation à la volée.

Les solutions MDM et de gestion de contenu actuelles maintiennent elles-mêmes leurs propres métadonnées, et de ce fait l’entreprise reste tributaire des choix (trop souvent propriétaires) effectués par chaque éditeur. Ces silos de métadonnées sont un obstacle pour l’entreprise à l'accès à une compréhension globale et transverse de ses données stratégiques, structurées ou non structurées.

Par la construction d’un socle sémantique utilisant les standards W3C au dessus de ses entrepôts de données, l’entreprise se dote des moyens lui offrant de nouveaux usages pour l’exploitation des contenus métiers, par la capacité à valoriser l’ensemble de ses données stratégiques en véritables informations. Alors que la sémantique permet la compréhension, la déduction automatique et l'interrogation intelligente des données, les standards sémantiques ajoutent l’interopérabilité inter-applicative : les outils d’analyse ont accès à toujours plus de contenu intelligible ; les règles métiers peuvent s’affiner et perfectionner la gouvernance des données, la déduction automatique permet la mise en relation de données toujours plus hétérogènes, et l’interrogation sur ces données devient plus pertinente, offrant ainsi une meilleure maîtrise des actifs informationnels de l’entreprise.