Maîtriser ses données : grand défi des prochaines années (Deuxième partie)
23/02/2021
Dans la première partie de ce billet, j’ai présenté les deux “visions” différentes qui sont nécessaires pour gérer efficacement des données numériques :
● Technique, avec la nécessité d’utiliser plusieurs solutions logicielles, toutes dans des clouds publics.
● Métiers, qui n’ont pas à savoir comment les différentes données dont ils ont besoin sont gérées par les équipes de la DSI.
La deuxième partie de ce billet présente les défis auxquels il faut répondre pour assurer une “transparence utilisateur” entre ces deux visions et les indépendances à créer entre infrastructures, données et usages.
Vision technique, vision métiers des données
Créer une transparence entre ces deux visions, c’est un défi majeur mais passionnant pour tous les professionnels de la gestion des données.
Je reviens sur l’exemple présenté dans la première partie de ce billet, celui du technicien qui assure la maintenance d’une installation industrielle.
Sur son smartphone, il a besoin, selon les étapes de son processus d’intervention, d’un plan, d’un document PDF, de photos, de données temporelles…
Ce n’est pas à lui de savoir dans quelle base de données les informations dont il a besoin sont stockées.
Les applications métiers, construites pour répondre, cas par cas, aux attentes spécifiques des collaborateurs doivent pouvoir “piocher” les données nécessaires dans les différents réservoirs disponibles.
Ce schéma peut faire peur à des dirigeants et des professionnels du numérique par son apparente complexité. Au contraire, les efforts initiaux qui sont nécessaires pour “architecturer” les données deviennent vite une arme redoutable pour les entreprises qui suivent ce chemin. Elles peuvent construire des applications adaptées aux attentes des métiers plus vite. Il devient aussi possible de changer certaines briques logicielles sans prendre le risque que tout l’édifice des données s’écroule.
Les trois indépendances
Ce nouveau schéma présente les composants du modèle B I S D d’une manière légèrement différente. Il permet de visualiser la nouvelle démarche d’indépendances que j’ai imaginée et qui aidera les entreprises à construire des solutions numériques innovantes, flexibles et évolutives.
Trois indépendances sont mises en évidence :
● Indépendance 1 : entre les infrastructures et les usages, qu’ils soient Support ou Métier.
● Indépendance 2 : entre les infrastructures et les données, dans leurs dimensions techniques.
● Indépendance 3 : entre les usages et les données, dans leurs dimensions d’usages.
Cette démarche d’architecte s’oppose frontalement à celle de ceux qui s’obstinent à croire aux vertus des solutions intégrées, que j’ai visualisées dans ce puzzle.
Quelques grands fournisseurs historiques s’accrochent encore à cette fiction des avantages des solutions intégrées. Elles ont, pour eux, l’intérêt majeur de garder leurs clients dans une prison dont il est très difficile de sortir. Il y a encore, hélas, de trop nombreux DSI et dirigeants qui se laissent bercer par le chant de ces sirènes.
Ces sirènes maléfiques informatiques sont bien connues ; j’en ai identifié les quatre espèces les plus dangereuses :
● Les éditeurs d’ERP intégrés.
● Les grands acteurs historiques des bases de données structurées.
● Les fournisseurs d’infrastructures propriétaires “on premise”.
● Les grandes ESN qui recommandent ces trois espèces de sirènes. Elles vont ensuite profiter, pendant des années, des budgets millionnaires des entreprises qui se sont laissées séduire par la mélodie insidieuse mais tentante de l’intégration.
Dirigeants et DSI, essayez de réduire au maximum les rencontres avec ces sirènes du malheur. Si, comme Ulysse, vous ne pouvez pas éviter de croiser leur chemin, attachez-vous à votre bureau, les mains liées derrière votre chaise, pour éviter de signer le moindre contrat !
Indépendance 1 : Usages - Infrastructures
Le principe est simple : les évolutions des infrastructures et des applications doivent être aussi indépendantes que possible.
C’est l’indépendance dont je parle depuis le plus longtemps, mais elle reste plus que jamais d’actualité.
J’ai publié un premier billet sur ce thème en… 2008, il y a plus de 12 ans. Ce principe est maintenant bien accepté par la majorité des entreprises raisonnables, et c’est une bonne nouvelle.
L’une des réponses les plus efficaces est aussi la plus simple : toute application nouvelle qui n’est pas accessible depuis un navigateur moderne est strictement interdite. En 2008, cette affirmation faisait débat. Aujourd’hui, elle est acceptée par tous les professionnels du numérique.
En 2015, les PWA, Progressive Web Apps ont fait leurs débuts. Les PWA sont des applications Web qui ’installent un lien sous la forme d'une icône sur les objets mobiles Android et iOS.
En pratique, cela signifie qu’une application développée en mode PWA peut être utilisée sur les trois grandes plateformes modernes :
● Navigateur
● Android
● iOS
Ceci évite aux entreprises d’écrire trois versions différentes de la même application !
PWA a un autre avantage, de plus en plus intéressant : une entreprise peut diffuser une application PWA pour Android et iOS sans passer sous les fourches caudines des places de marché de ces deux fournisseurs.
Garantir cette indépendance entre les applications et les infrastructures qui y accèdent est en 2021 possible avec les solutions navigateurs et PWA. Toute autre approche est suicidaire, car elle obère les capacités d’évolution d’un Système d’Information.
Le mot “obérer” s’impose ici : il signifie accabler de dettes, compromettre l’avenir.
Indépendance 2 : Données - Infrastructures
Cette indépendance entre les données et les infrastructures est une préoccupation plus récente, mais qui s'impose rapidement.
La gestion de cette indépendance incombe aux équipes de la DSI : elle n’intéresse pas directement les métiers, même s’ils en sont les grands bénéficiaires.
Les progrès réalisés dans ce domaine depuis les trois dernières années sont spectaculaires, et c’est une excellente nouvelle. L’émergence de trois grands leaders mondiaux dans les infrastructures Cloud a facilité cette amélioration. Les fournisseurs de solutions de gestion de données structurées sont les pionniers de cette indépendance. Quelques exemples :
● BigQuery Omni. BigQuery est l’entrepôt de données créé par Google pour son Cloud GCP. La nouvelle version, BigQuery Omni, annoncée en 2020, peut être utilisée sur AWS et Azure.
● Snowflake, solution d’entrepôts de données créée par des Français, est elle aussi disponible sur les trois clouds publics.
● Databricks a pour ambition de proposer une solution qui combine entrepôt de données, analyse des données et intelligence artificielle. Databricks est disponible sur...AWS, GCP et Azure.
● Cohesity est une solution de sauvegarde, elle aussi présente sur AWS, Azure et GCP.
J’entends souvent des DSI évoquer les risques de devenir “prisonniers” de leurs fournisseurs de Clouds Publics et faire la promotion des solutions multiclouds. Ce sont en priorité les DSI les plus réticents aux solutions Clouds publics qui cherchent des alibis, des excuses pour ne pas faire le saut !
Les solutions que je viens de présenter, et beaucoup d’autres réduisent à néant ces alibis.
Je souhaite abandonner AWS pour basculer sur Google Cloud ? Pas de problèmes, je peux porter mon environnement Snowflake ou Databricks de l’un vers l’autre.
Les DSI innovants, pragmatiques et tournés vers l’action l’ont bien compris ; la majorité d’entre eux ont fait le choix de deux de ces trois leaders et savent très bien qu’ils ne sont pas prisonniers de leurs choix.
Indépendance 3 : Usages - Données
Cette troisième indépendance entre les applications (Support et Business) et les données (D) est la plus complexe, mais probablement la plus essentielle à long terme.
Le principe est simple à énoncer : il faut sortir les données de leurs prisons applicatives, et les exporter dans les outils choisis par l’entreprise pour gérer de manière unifiée les six familles de données présentées dans la première partie de ce billet.
Une majorité des applications historiques des entreprises sont encore installées dans leurs centres de calculs privés. Les bases de données utilisées ont pour nom DB2, Oracle ou SQL Server. Les ERP les plus répandus restent SAP, Oracle (PeopleSoft…) ou Microsoft Dynamics.
Les données créées par ces applications sont prisonnières de leurs applications. Il est impossible d’y accéder directement.
La situation n’est pas plus simple avec les applications Support, utilisées en SaaS, Software as a Service. Quand une entreprise décide d’utiliser un logiciel SaaS tel que Salesforce, Workday ou Talentsoft, elle doit accepter les choix d’infrastructures IaaS et des bases de données utilisées faits par l’éditeur du logiciel SaaS.
Ce que souhaitent tous ces éditeurs de logiciels, traditionnels ou SaaS, c’est que l’entreprise paye autant de droits d’accès que le nombre de personnes qui vont accéder aux données qu’elles produisent, même si ce sont pour des usages très occasionnels et depuis d’autres applications.
Ouvrir les prisons dans lesquelles sont enfermées les données, c’est la nouvelle priorité des entreprises innovantes, et c’est tout sauf simple !
La démarche qui pourrait devenir la norme serait de… répliquer en temps réel toutes les données créées par ces applications pour les copier dans des espaces de stockage indépendants de ces applications. Ceci oblige l’entreprise à doubler sa capacité de stockage, en priorité pour les données structurées. Les capacités de stockage dans les clouds publics et leurs coûts très bas font que ce doublement des volumes n’est plus le problème principal.
Les difficultés viennent de la “mauvaise volonté” de nombreux éditeurs et du petit nombre de solutions logicielles performantes pour assurer ces transferts de données.
L’une des startups les plus prometteuses dans ces domaines était Attunity ; elle a été rachetée par Qlik et son nouveau nom est Qlik Replicate, nom en phase avec ses fonctionnalités.
Comme le montre ce tableau, Qlik Replicate donne accès à beaucoup de logiciels, historiques et SaaS. Les résultats peuvent être stockés, quelle surprise, dans les trois grands clouds publics.
Cette vidéo YouTube présente le mode de fonctionnement de Qlik Replicate.
Je pronostique et j’espère que l’offre de solutions permettant d’organiser ces réplications de données pour en retrouver la maîtrise va s'enrichir rapidement.
Parmi les nouveaux entrants sur ce marché de la réplication, la société Fivetran est devenue une licorne en 2020 après avoir levé 100 M$.
C’est justement parce que cette troisième indépendance entre les usages et les données est la plus difficile à mettre en œuvre qu’il faut s’attaquer immédiatement à ce grand défi.
Je suis effondré quand je constate qu’un nombre important de DSI et dirigeants prennent exactement… le chemin inverse !
Le plus spectaculaire contre-exemple de cette absence d’indépendance entre les usages et les données est un produit dont j’ai déjà dit beaucoup de “bien” : S/4HANA de SAP.
Cette solution est géniale pour... SAP ; elle leur assure des dizaines d’années d’entreprises enfermées dans un “Guantanamo Numérique”. Les ESN dont j’ai parlé au début de ce billet sont prêtes à jouer les rôles de gardiens des DSI emprisonnés.
Elle est catastrophique pour les entreprises qui sont obligées de choisir une base de données propriétaire SAP pour leurs données structurées. C’est d’autant plus inexcusable que c’est justement dans le domaine des solutions de gestions de données structurées que l’offre de solutions cloud est la plus abondante. Honte aux DSI et entreprises qui acceptent d'entrer dans cette prison numérique monstrueuse, la fleur au fusil, alors que rien ne les y oblige.
Qu’un éditeur de logiciel comme SAP soit capable d’imposer sa volonté à ce point là, que des entreprises parmi les plus grandes du monde n'aient pas le minimum de courage nécessaire pour dire “Nein!”, ce n’est vraiment pas glorieux pour la profession des DSI.
Vous voulez créer de la dette numérique pour des années ? S/4HANA est le moyen le plus efficace pour y arriver, et de très loin !
Indépendance Usages - Données : deux exemples
Pour illustrer et rendre plus concret cette indépendance entre les usages et les données, je vous propose deux exemples, un dans le domaine des données structurées et l’autre pour les contenus multimédia.
Données structurées
Les données structurées sont encore, et de très loin, les plus utilisées dans toutes les entreprises. Cet exemple est pertinent pour toutes les entreprises, quel que soit leur secteur d’activité.
Comme on l’a vu plus haut, les solutions pour gérer des données structurées sont légion ; j’ai choisi quelques noms dans le schéma ci-dessous, mais il peut s’appliquer à beaucoup d’autres produits.
En partant du bas du schéma, on trouve :
● Les applications qui sont les sources principales de contenus structurés. Ce sont aussi bien des applications anciennes telles que SAP ou PeopleSoft que des solutions SaaS comme Salesforce ou Workday.
● Les nouveaux logiciels “extracteurs” de données, Qlik Replicate ou Fivetran. Ils sont capables, si nécessaire, de faire ces extractions au fil de l’eau, en temps réel, pour garantir que les données extraites auront le même niveau de fraîcheur que dans les applications.
● La couche “D”, “Données indépendantes” Data Warehouse, Data Lake ou tout autre nom que l’on souhaite lui donner.
● Les applications d’usages spécifiques de l’entreprise, développées sur mesure ou disponibles en SaaS, qui accéderont aux données de la couche D. À ce niveau, on n’a plus à se préoccuper de savoir si la donnée vient de SAP ou de Workday ; on accède à des données structurées qui sont les mêmes pour tous les collaborateurs de l’entreprise.
Données multimédia
À l’inverse des données structurées, la gestion des données multimédia est encore balbutiante dans la majorité des entreprises.
Le schéma ci-dessous présente quelques cas d’usages possibles de la solution WizyVision, qui a été créée pour répondre à ce problème.
(Rappel : WizyVision est développé par Wizy.io, société dont je suis l’un des cofondateurs. Cette solution est née pour répondre aux besoins d’une entreprise industrielle qui ne trouvait pas de réponse satisfaisante sur le marché.)
Les trois composants de WizyVision sont :
● Digital Repository : base de données spécialisée dans les contenus multimédia (D du modèle B I S D).
● DAC = Digital Asset Center : outil universel (S du modèle B I S D) qui permet à tous les collaborateurs d’une entreprise d’accéder aux contenus du Digital Repository.
● ML Studio : outil “No Code” qui donne la possibilité aux collaborateurs des entreprises de construire eux-mêmes des modèles de ML, Machine Learning pour répondre à des besoins métiers spécifiques (B du modèle B I S D).
● Pour la dimension (I) du modèle B I S D, WizyVision est construit sur l’infrastructure GCP, Google Cloud Platform.
L’alimentation du Digital Repository peut se faire de plusieurs manières. Sur la partie basse de ce schéma, j’en ai représenté quatre, qui illustrent différents cas d’usages :
● Récupérer les données multimédia existantes dans un logiciel DAM traditionnel (Digital Asset Management) que les équipes des directions marketing ou communication souhaitent mettre à la disposition, contrôlée, de tous les collaborateurs de l’entreprise.
● Recevoir depuis un drone des photos ou des vidéos pour surveiller des installations industrielles ou des réseaux de distribution physiques tels que l'électricité, l'eau ou le gaz.
● Déployer en Edge Computing des outils spécialisés d’analyse d’images pour identifier par caméras vidéos des défauts sur une ligne de production.
● Permettre à des FLW, Front Line Workers, travailleurs en première ligne, d’enregistrer, directement depuis leur smartphone, des images pendant des opérations de maintenance.
Pour les usages, dans la partie haute du schéma, les collaborateurs peuvent accéder au Digital Repository :
● Depuis le DAC, Digital Asset Center, outil universel qui leur permet de retrouver tous les contenus multimédia dont ils pourraient avoir l’usage.
● Depuis une application métier spécialisée construite avec ML Studio, des FLW peuvent trouver tous les contenus multimédia dont ils ont besoin pour accélérer et améliorer leurs processus métiers.
Dans la logique de ce billet, le composant D, Digital Repository, est indépendant des deux autres, DAC et ML Studio. Il peut être utilisé seul, pour enregistrer tous les contenus multimédia d’une entreprise. Des API permettent d’y accéder avec toutes les applications existantes qui auraient besoin de ces contenus multimédia.
Je pronostique que ce sera le composant de WizyVision qui aura le plus de clients.
Synthèse
Ces deux longs billets ont mis en évidence les défis qui se posent aux entreprises qui souhaitent reprendre la maîtrise de leurs données, de toutes leurs données.
Il a surtout présenté des pistes innovantes, solides et pérennes pour y répondre ; elles s’appuient :
● Sur le modèle d’architecture B I S D.
● La double vision, technique et métiers, des données.
● Les trois indépendances qu’il faut créer pour reprendre la main sur ses données.
● Des offres de solutions de plus en performantes sur lesquelles on peut s’appuyer.
Le chemin pour y arriver est long, escarpé, plein d'embûches, oui, mais les bénéfices et les avantages concurrentiels que vont en retirer les entreprises ayant eu le courage d’entreprendre le voyage feront vite oublier les difficultés rencontrées en cours de route.