Billet invité.
Le data mining, l’exploration des données, n’a pas fini de nous éblouir avec l’annonce de ses merveilles. Predata, une start up américaine, retient depuis quelque temps l’attention des médias financiers en raison de ses capacités à prédire l’avenir, comme si elle était en passe de découvrir le Graal d’un monde financier ? En attendant, elle l’a identifié comme étant son principal marché.
Puisque l’on ne sait pas calculer le risque, comme certains financiers lucides le reconnaissent, prédisons-le ! C’est à quoi s’attèle Predata, rien de moins. Après avoir affiché de premiers résultats prometteurs d’un slogan-choc, la société s’est dotée d’un slogan qui ne l’est pas moins : « L’avenir peut vous surprendre, il ne devrait pas ! ». Bloomberg, jamais en retard d’une trouvaille marketing, a reçu le message et a donné accès à son service sur ses terminaux.
Il n’est pas indifférent de noter que cette jeune pousse, qui a déjà trois ans d’âge, a été créée par un ancien analyste de la CIA, John Sinn. Et l’on peut supposer qu’il y a mis à profit son savoir-faire. Les ingénieurs de Predata ont rangé dans un placard la recherche surannée par mots-clés pour développer un algorithme très performant. À sa base, ils ont développé une méthodologie sophistiquée d’analyse de masses de données en vue de prédire des évènements avec des pourcentages acceptables de réussite.
Avant même d’analyser les innombrables médias et services sociaux qu’ils sélectionnent pour analyser les 300 sujets différents suivis à la fois, l’algorithme de recherche de Predata utilise d’abord les métadonnées, qui sont libres d’accès et dont beaucoup d’enseignements peuvent être avantageusement tirés. Puis il passe au crible des milliers de compte Twitter et de services sociaux, de blogs, de journaux et magazines en ligne.
Les algos permettent d’en savoir plus sur nous que nous en savons nous-mêmes, constatent les développeurs de Predata, un tantinet provocateurs, apportant une contribution à la réflexion largement entamée sur la domination de l’homme par la machine !
Leur algorithme travaille en trois temps. Il recherche de nouvelles sources propices à la quantification du risque, les teste pour vérifier qu’elles sont de bons indicateurs, et programme des alertes. Andrew Cho, le chef du développement de Predata, explique que « il y a un certain nombre de caractéristiques très précises autour de certains événements donnés qu’on peut quantifier et mettre en équivalence avec des événements similaires qui se sont déjà produits ». C’est selon ce principe que l’algorithme repère des figures récurrentes.
Mais, afin d’obtenir des résultats avec une probabilité acceptable de réussite, il faut non seulement avoir choisi les meilleurs sources, après avoir identifié dans leur masse la petite minorité qui fait l’opinion, mais également prendre en compte que leur avis est susceptible de changer. C’est dire si l’algo ne chôme pas !
Dans la série des services prédictifs, qui ne cesse de grandir (*), les ambitions tous azimuts de Predata sont-elles réalistes ? Peut-on prédire l’avenir sans le modifier, rendant au final son exercice vain, à moins d’en garder le résultat pour d’heureux élus et de légitimer une sorte de délit d’initié ? L’accès aux marchés doit être le même pour tout le monde, au moins sur le papier !
–––
(*) On se rappelle la prédiction de la criminalité ou des risques sanitaires dans une zone géographique donnée.
(suite) (« À tout seigneur tout honneur ») PJ : « il n’est pas exclu du tout que je me retrouve dans la…