Le Big Data peut-il faire disparaitre le hasard ?
Imprimer
Affichages : 147310

Note utilisateur: 3 / 5

Etoiles activesEtoiles activesEtoiles activesEtoiles inactivesEtoiles inactives
 

Encore abstraites, les technologies du Big data et de l'intelligence artificielle pourraient-elles aboutir à la disparition du hasard au profit d'un monde où tout puisse être anticipé ? C'est l'interrogation de René Trégouët, dans cette nouvelle chronique.

Certaines ruptures technologiques sont particulièrement visibles et frappent les esprits : c’est par exemple le cas pour les tablettes numériques, les voitures électriques ou encore de l’éclairage par LED. Mais certaines révolutions techniques se déroulent sous nos yeux sans que nous en soyons vraiment conscients : tel est le cas des « Données massives » (Big Data). En seulement cinq ans, les données massives et leur traitement intelligent ont déjà profondément bouleversé l’ensemble des secteurs d’activité économique et scientifique… et ce n’est qu’un début !

Dans le domaine capital de la production d’énergie propre par exemple, nous allons être confrontés au cours du prochain quart de siècle à un redoutable défi mondial : assurer au moins la moitié de notre production totale d’énergie à partir de sources d’énergies renouvelables, principalement le vent, le soleil, et les énergies marines. Mais ces sources d’énergie, si elles présentent l’immense avantage d’être à la fois gratuites, inépuisable et très faiblement émettrices de gaz à effet de serre, présentent aussi le redoutable inconvénient d’être diffuses et intermittentes. Dès lors, pour que les réseaux de distribution -et notamment le réseau électrique- soient capables d’absorber une part de plus en plus importante d’énergie issue de ces sources renouvelables, il est absolument capital de pouvoir lisser et gérer les fluctuations considérables de production liées aux brusques changements météorologiques. Les outils de prévision de production d’énergie solaire ont d’ailleurs été désignés comme « technologie de rupture majeure » par le MIT en 2014.

La jeune société Reuniwatt, basée à la Réunion et fondée en 2010, a décidé de relever ce défi en combinant les technologies du Big Data, Intelligence Artificielle, météorologie, traitement d’images-satellites et d’images grand-angle du ciel. En quelques années seulement, Reuniwatt est devenue l’un des leaders mondiaux de la prévision d’énergie solaire grâce à son outil d’aide à la décision Soleka. Ile très ensoleillée, La Réunion souhaitait intégrer dans son mix énergétique une part majoritaire provenant des énergies renouvelables. Mais une telle montée en puissance des énergies propres, et notamment de l’énergie solaire, n’était envisageable qu’à la condition de pouvoir prévoir de manière particulièrement fiable l’évolution de la production d’électricité solaire en fonction des aléas de la météo.

Au terme de cinq années de recherche, Reuniwatt a réussi à mettre au point un remarquable logiciel prédictif, baptisé Soleka. Cet outil, reconnu au niveau mondial pour son excellence, fonctionne à trois horizons temporels (les prévisions allant de la minute à plusieurs jours à l’avance) et pour l’ensemble des acteurs de l’énergie, producteurs, distributeurs et consommateurs. En utilisant de manière intelligente et particulièrement ingénieuse des données massives, Soleka a donc réussi à faire sauter un obstacle très important vers la production prévisible à très grande échelle d’énergie solaire.

Autre domaine dans lequel les données massives sont en train de s’imposer : la biologie et la médecine. A l’institut Pasteur, le professeur Marco Vignuzzi et son équipe ont développé une méthode très innovante pour comprendre les mutations virales des ARN à partir de souches du Chikungunya ayant été isolées avant qu’elles ne mutent. Appliqué au virus du Chikungunya, de l’hépatite C ou de la grippe, cet outil permet de comprendre et de prévoir ce mécanisme de progression infectieuse. « Avant, on était obligé de séquencer un seul génome de virus à la fois ; mais à présent le séquençage à haut débit permet de couvrir la totalité d’une population virale qui existe au sein d’un même échantillon », souligne M. Vignuzzi.

Cette nouvelle approche prédictive devrait non seulement permettre de repérer en amont les mutations virales au potentiel épidémique important, mais devrait également déboucher sur la conception d’une nouvelle génération de vaccins plus efficaces, créés à partir des données observées et des schémas de mutations qui en découlent.

Une autre équipe américaine de l’Université d’Harvard, dirigée par le professeur Kou, a présenté il y a quelques semaines un modèle baptisé ARGO (AutoRegression with GOogle search data), capable de suivre en temps réel différentes épidémies de grippe. Ce modèle statistique de nouvelle génération, qui utilise notamment les données de Google, est présenté comme « flexible, robuste, auto-correctif et évolutif ». Bientôt disponible en « open source », ARGO va constituer un outil particulièrement précieux pour les pouvoirs publics et autorités de santé qui vont pouvoir planifier et gérer de manière beaucoup plus fiable les campagnes de vaccination contre la grippe. Il faut en effet rappeler que cette maladie, parfois présentée à tort comme bénigne, tue environ 500 000 personnes dans le monde chaque année. Il faut également rappeler qu’en France, plus de 18 000 personnes sont mortes de la grippe l’année dernière…

On peut aussi évoquer le lancement cet été par la fédération Unicancer d’un outil d’analyse sémantique appelé ConSoRe (Continum soins-recherche) qui va exploiter l’ensemble des données générées par les 18 centres de lutte contre le cancer (CLCC) afin notamment de simplifier la mise en place de programmes de recherche. Il permet d’effectuer des recherches en texte libre, « à la Google », ou multicritères. Le système fonctionne comme « une moulinette de traitement » qui effectue « une analyse sémantique des dossiers ». Son point fort est qu’il peut lancer des requêtes sur l’ensemble du corpus documentaire du patient. Concrètement, l’outil peut faire le lien entre un critère A présent dans un compte rendu et un critère B présent dans la base pharmaceutique, par exemple.

Cet outil permet de simplifier la mise en place de programmes de recherche par la constitution facilitée de cohortes de patients. Mais à terme, ConSoRe a des objectifs bien plus vastes et ambitieux et permettra, comme le fait déjà Watson, l’ordinateur intelligent d’IBM aux Etats-Unis, de proposer à chaque patient un traitement entièrement « sur mesure », conçu en fonction des spécificités biologiques et génétiques individuelles du malade.

Comme je vous l’ai déjà dit il y a quelques semaines, l’utilisation de ces données massives s’est également imposée dans le domaine de la sécurité et de la lutte contre le crime. L’année dernière par exemple, la ville de Santa Cruz, en Californie, a réussi à faire baisser de 27 % sa criminalité globale grâce à l’utilisation du nouveau logiciel PredPol. Cet outil de prévision criminelle est également utilisé depuis un an par la police du Kent, en Grande-Bretagne. Se présentant sous la forme d’une carte, actualisée en permanence, PredPol existe aussi en version « mobile », pour smartphone ou tablette, et permet aux policiers de mieux prévenir activement la criminalité en concentrant leurs actions sur les zones à risques.

PredPol est dérivé des programmes de prévention des séismes. Il analyse, grâce à des algorithmes spécifiques, une multitude d’informations contenues dans une gigantesque base de données qui recense toutes les infractions passées dans une aire précise (quartier, ville ou région). À présent, de nombreuses grandes villes américaines, comme New York ou Los Angeles, utilisent avec beaucoup de satisfaction PredPol.

En Europe, des chercheurs ont mis au point après cinq ans de travaux, dans le cadre d’un programme européen de recherche, l’outil Indect qui vise à mieux lutter contre les activités criminelles ou terroristes grâce à la détection automatique intelligente d’événements et de situations « à risque ». Ce système permet, notamment, d’effectuer, avec des taux de réussite pouvant dépasser les 90 %, le traçage et le suivi de personnes et d’objets, ainsi que leur identification. Couplé aux caméras de vidéosurveillance, Indect peut aussi repérer des comportements anormaux dans une foule, ce qui peut évidemment s’avérer extrêmement précieux dans le nouveau contexte actuel de lutte mondiale contre le terrorisme.

En France, la gendarmerie expérimente depuis quelques mois un nouveau logiciel prédictif pour anticiper les grandes tendances de la délinquance sur le territoire. L’idée est d’analyser certaines catégories de délits fréquents – les cambriolages, les vols, les trafics de stupéfiants ou encore les agressions sexuelles – s’étant produits au cours des cinq dernières années, pour en extraire les points de comparaison et les singularités et essayer de prévoir où et quand ces types de crimes et délits risquent de se reproduire dans un proche avenir.

Outre-Atlantique, la ville de New York utilise depuis juillet 2013 un nouvel outil logiciel destiné à mieux prévenir les 3 000 incendies majeurs qui se déclenchent chaque année dans cette mégapole. Cet outil prédictif explore et recoupe 60 critères, puis attribue une note de risque à chacun des 330 000 immeubles répertoriés dans sa base de données. Chaque semaine, ce logiciel peut ainsi fournir aux pompiers de la ville la liste des bâtiments à aller inspecter car pouvant être le foyer du prochain incendie (Voir The Wall Street Journal).

Les outils d’analyse prédictive ont également récemment fait leur apparition dans le secteur de l’industrie aéronautique. Depuis quelques mois, l’ensemble des 1,6 giga-octets de données provenant de 24 000 capteurs embarqués et correspondant à chaque vol d’un Airbus A380, sont récupérées par Wi-Fi puis transmises au centre d’ingénierie et de maintenance d’Air France KLM à Toulouse. Ces données sont alors comparées et recoupées, grâce à un moteur d’analyse prédictive, avec des données d’exploitation de toute la flotte des A380 pendant les deux dernières années. Ce nouvel outil a fait la preuve de son efficacité pour prévoir et détecter les pannes sur la pompe de circulation, le composant le plus fragile du circuit qui amène le carburant aux moteurs. A partir de janvier 2016, le système sera étendu à d’autres équipements fragiles des A380 puis à d’autres avions de la compagnie comme les Boeing 777.

Ce système est si fiable et si précis que les techniciens peuvent à présent intervenir rapidement et directement sur la pièce responsable de la panne, sans suivre le manuel technique de l’avion. Le temps d’identification et de localisation de l’origine de la panne passe ainsi de 6 heures à seulement 5 minutes, ce qui permet un gain de temps et d’argent très important pour la compagnie.

À Lyon, la start-up ForCity, fondée en janvier 2014, a développé une plate-forme du même nom qui permet de modéliser une ville miroir numérique. Cette ville miroir est ensuite rendue dynamique par des modèles mathématiques simulant l’évolution du territoire au cours du temps. Cet outil de simulation numérique permet alors aux collectivités et aux entreprises de simuler une multitude de scénarios correspondants à des évolutions de territoire, en faisant varier de nombreux paramètres  (population, transports, énergie, attractivité d’un quartier, etc). Parmi les clients de ForCity, on trouve par exemple Veolia Asia pour qui cette société a développé une maquette numérique de Hong Kong, afin d’étudier les interactions entre le territoire et les métiers de Veolia : valorisation des déchets, cycle de l’eau, distribution de froid dans les bâtiments.

La gestion et la comptabilité des entreprises n’échappent pas non plus à cette révolution des données massives : Cegedim SRH a ainsi développé une solution de pilotage pour gérer la masse salariale et formuler des hypothèses de manière prédictive. Cet outil est entièrement dédié au pilotage de la masse salariale. Il permet aux entreprises d’anticiper les départs à la retraite, d’évaluer les futurs besoins en compétences, ou encore de bâtir un plan prévisionnel de gestion des ressources humaines en tenant compte de l’évolution de la pyramide des âges dans l’entreprise…

Là encore, ce logiciel exploitant le Big Data a permis d’effectuer un saut décisif entre la simulation et la prédiction. Grâce à ce système, lorsqu’une entreprise octroie une augmentation ou une prime à ses collaborateurs, elle peut désormais avoir une vue d’ensemble, sur le long terme, des impacts que sa politique salariale  va avoir sur les charges sociales et patronales, sur les mutations, sur les processus de mobilité interne.

Mais cette analyse d’une masse gigantesque de données peut également permettre aux recruteurs publics ou privés de mieux cerner le profil et les aptitudes d’un candidat pour un poste donné. Il existe déjà des tests, comme le questionnaire de personnalité PAPI, qui consiste à vous faire répondre à une longue série de questions, qui croisées, créent une sorte d’organigramme reflétant votre comportement en entreprise. Mais en combinant les potentialités des données massives et de l’apprentissage automatique, on peut aller encore plus loin. Ainsi, le service Watson Developer Cloud BlueMix d’IBM permet d’analyser votre personnalité, et d’en dresser là aussi une carte.

En outre, les algorithmes peuvent même permettre de prédire le départ d’un salarié. Le Crédit Suisse utilise ainsi ses données pour évaluer les risques qu’un employé quitte l’entreprise, en fonction de ses performances, de son lieu de vie, de ses traits de personnalité, ou encore de ses interactions sociales. L’objectif est bien sûr de repérer les collaborateurs les plus précieux qui risquent de partir, afin de les garder au moyen de primes et d’augmentations de salaires… (Voir The Wall Street Journal).

Les outils prédictifs intelligents sont également en train de révolutionner le secteur de la vente et de l’immobilier. Aux États-Unis, Smartzip propose par exemple à un agent immobilier de scanner une zone, à partir du code postal, ce qui correspond aux Etats-Unis à un quartier. Ce logiciel permet d’analyser l’ensemble des données associées à toutes les adresses répertoriées et le professionnel peut ainsi savoir très rapidement si tel ou tel résident est propriétaire, depuis quand et quel est le montant et la durée de son crédit immobilier. Au final, cet outil permet d’identifier les biens immobiliers qui ont le plus de chances d’être vendus dans l’année qui suit. Signalons au passage qu’en France, l’utilisation de ce type d’outils prédictifs extrêmement puissants n’est pas encore possible car il se heurte à un cadre législatif et réglementaire européen et national plus strict qu’aux États-Unis et qui restreint de manière beaucoup plus drastique l’utilisation à des fins commerciales des données personnelles sans le consentement exprès des consommateurs…

Il faut encore évoquer l’outil prédictif très futuriste mis au point par une jeune chercheuse israélienne, Kira Radinsky, qui a été classée parmi les 35 jeunes les plus innovants au monde, par le magazine MIT Tech Review. L’algorithme imaginé par cette brillante scientifique repose sur un vaste ensemble de faits de toute nature (épidémies, guerres, catastrophes, crises économiques) qui se sont déroulés dans le passé. Selon Kira Radinsky, même si, chaque événement survient dans des circonstances particulières, il obéit tout de même à un modèle déjà observé dans le passé et qui obéit à certaines lois subtiles et utilisables. Ce logiciel de recoupement de données (Link Data), croise des milliards d’informations afin d’en extraire les corrélations et points communs. Il est alors possible, en recourant à des modèles mathématiques de prévisions, de calculer les probabilités d’occurrence de faits semblables. Cet outil serait capable, selon sa conceptrice, de prévoir 90 % des risques épidémiques, une performance hors d’atteinte pour le cerveau humain.

L’exploitation intelligente des données massives est donc devenue très rapidement l’un des nouveaux moteurs de mutation numérique en cours dans nos économies développées. Il suffit d’ailleurs pour s’en convaincre d’observer la progression de ce marché au niveau mondial. Selon une récente étude du cabinet IDC, celui-ci passera globalement de 3,2 milliards de dollars en 2010 à 48 milliards en 2019 ! On le voit, cette révolution des données massives n’en est encore qu’à ses prémices : selon une étude réalisée par Pure Storage, trois entreprises sur quatre déclarent collecter des informations qui ne sont pas exploitées, soit par manque de moyens humains et techniques soit par manque de temps.

Soulignons enfin que les enjeux liés à la généralisation de ces nouveaux outils de prédiction intelligente ne sont pas seulement scientifiques et économiques mais également sociaux et humains. Face à un chômage de masse persistant, l’utilisation intelligente des données massives pourrait en effet permettre une mise en relation beaucoup plus fluide et efficace de l’offre et de la demande de compétences sur le marché du travail. Il faut en effet savoir qu’en France, on estime (selon les données de Pôle Emploi et du Medef) à 570 000 par an le nombre de postes qui ne peuvent être pourvus qu’avec de grandes difficultés et à 400 000 chaque année celui des emplois qui ne trouvent pas preneurs, faute de candidats possédant les compétences requises…

L’utilisation généralisée de ces nouveaux outils extrêmement puissants dans les domaines du travail et de la formation professionnelle devrait donc permettre d’exploiter bien plus efficacement de vastes gisements d’emplois, aujourd’hui inaccessibles mais également d’adapter et d’anticiper de manière active l’évolution des filières de formation professionnelle, ce qui permettrait à chacun de trouver sa place dans notre société, et à notre Pays de tirer pleinement profit les mutations techno économiques en cours au lieu de les subir.

Reste que l’utilisation de plus en plus pertinente et pointue d’une quantité toujours plus grande de données concernant nos activités et nos vies soulèvent de réelles interrogations éthiques et politiques. Comment en effet s’assurer que l’utilisation à des fins scientifiques mais également commerciales, sociales ou politiques de toutes ces données, se fait bien avec le consentement « libre et éclairé », selon la formule juridique consacrée, de tous les acteurs ? Jusqu’où sommes-nous prêts à limiter la protection de nos données personnelles pour vivre dans une société plus efficace, plus performante et plus confortable ? Ces questions essentielles, qui ne peuvent avoir de réponses simples, seront, soyons-en assurés, au cœur du débat démocratique de ces prochaines années.
Initialement publié sur RTflash, cet article est reproduit sur Übergizmo France avec l’aimable autorisation de René TRÉGOUËT, Sénateur Honoraire et fondateur du Groupe de Prospective du Sénat de la République Française.

Source : RTflash