Torturer les données : Nicolas Cage et la natation
Que se passe-t-il lorsqu’on assemble des données au hasard a la recherche de corrélations douteuses ?
Que se passe-t-il lorsqu’on assemble des données au hasard a la recherche de corrélations douteuses ?
Vous voulez connaître les habitudes des usagers de téléphonie mobile ? Big Data. Vous voulez rejoindre une clientèle ciblée sur le Web? Big Data. Vous voulez décoder le secret des séries qui cartonnent sur Netflix ou savoir où réparer les nids de poule dans un quartier ? Big Data ! Suffit d’avoir le bon algorithme et une bonne quantité de données et les entreprises d’analyse en mégadonnées promettent de trouver toutes sortes de réponses à nos questions. Mais voilà : qui pose ces questions ? Et peut-on se fier à des algorithmes pour prendre des décisions?
2015 est l’année du Big Data. Le concept de mégadonnées existe depuis quarante ans déjà mais c’est cette année, nous dit Forbes, que les applications du Big Data font leur entrée dans le monde des affaires et de la gouvernance. Une foule d’entreprises se mettent au diapason et changent leur modèle d’affaire pour tirer profit d’une nouvelle richesse – nos données personnelles.
Des méga-croisements de données
Des analyses statistiques, il y en a toujours eu. En menant des sondages ou en calculant les cases cochées dans un formulaire de recensement, on estime avec plus ou moins d’exactitude les probabilités qu’un candidat soit élu, le nombre d’accidents automobiles annuel ou le type d’individu susceptible de rembourser un prêt. Bien sûr, on peut se tromper, mais les chiffres aident à déceler des tendances. Et c’est à partir de tendances qu’on espère prendre de bonnes décisions.
Aujourd’hui, on les produit par quintillions ces données. Ajoutez aux infos cumulées par des institutions ou des compagnies de crédit les historiques de navigation traqués par des cookies (épisode 02), les data de nos téléphones mobiles (épisode 04), 50 millions de photos, 40 millions de tweets et des milliards de documents échangés chaque jour, sans compter les données produites par des bracelets de sport, des gadgets et objets intelligents en tous genre, et vous comprendrez pourquoi « Big » est un bon qualificatif pour décrire l’étendue d’informations disponibles.
Pourtant, la véritable révolution du Big Data, ce n’est pas tant une question de grandeur que la manière dont on peut désormais croiser ces données. Au-delà des choses qu’elles disent sur nous (ou malgré nous), ce sont les corrélations et croisements faits entre une variété d’informations personnelles qui permettent de prédire des habitudes et des comportements chez les usagers. Savoir ce vous dites en ligne ? On s’en moque. Mais connaître les mots employés, avec qui vous les échangez, sur quel réseau et à quelle heure, ça c’est payant.
Catégoriser pour mieux régner
Pour y voir clair dans ce fouillis d’informations, les algorithmes identifient des répétitions ou des modèles dans de larges segments de la population. À partir d’un simple code postal, on arrive par exemple à prédire le revenu moyen d’un consommateur. Les agences Esri et Claritas disent même arriver déduire le niveau d’éducation, le style de vie, la composition familiale et les habitudes de consommation d’une personne avec cette seule information. L’entreprise Target a pour sa part fait les manchettes en 2012, quand elle a prédit la grossesse d’une adolescente, avant que ses parents ne soient au courant, à partir du type de lotions, de vitamines et la couleur des objets achetés.
Pour que les algorithmes fonctionnent adéquatement, il faut classer les individus dans des catégories toujours plus précises. Et c’est là où la discrimination guette. Parce qu’on n’entre pas toujours facilement dans une case…
Prédictions et discriminations
Comme le rappelle Kate Crawford, interviewée dans l’épisode 05, ce sont les minorités et les populations déjà discriminées qui sont les plus affectées par les erreurs de prédictions. Plus un individu correspond à la « norme » ou à une catégorie prédéterminée, mieux ses données sont prises en compte. Mais qu’arrive-t-il quand on se trouve dans la marge ? Qu’advient-il à ceux qui ne se comportent pas comme le prévoit Amazon, Google ou Facebook ?
Récemment, Facebook a soulevé l’ire de nombreux usagers quand elle a soudainement choisi d’appliquer à la lettre un de ses conditions d’utilisation, qui stipule qu’un usager doit utiliser sa véritable identité. L’objectif souhaité, dit l’entreprise, est de créer un environnement plus sûr qui limiterait de facto les publications haineuses. L’objectif atteint fut plutôt d’éliminer les comptes de transgenre, drag-queens, autochtones et survivants de violence conjugale, sous prétexte que leur compte n’affichaient pas un nom «réel ». Une atteinte non seulement aux droits individuels, mais aussi à la vie privée.
Et que dire des discriminations et préjugés que les algorithmes ne font que renforcer ? En 2014, la police de Chicago vient sonner à la porte du jeune Robert McDaniels, 22 ans. « On te surveille mon gars », lui annoncent les policiers, alors qu’un algorithme développé par l’Illinois Institute of Technology vient de le placer sur la liste des 400 personnes potentiellement criminelles, à partir de données compilées sur son quartier, les intersections où ont eu lieu des crimes passés et son degré de séparation avec des personnes impliquées dans un crime. On se croirait en pleine science-fiction… Et s’il y avait une erreur d’interprétation, comment rétablir les faits ?
Faites le test
On ne vous mentira pas : il est difficile, voir impossible de savoir comment on est catégorisé – et encore plus difficile d’y échapper. Tout dépend de l’entreprise, de l’algorithme et des informations recherchées. Mais certains outils peuvent tout de même donner un petit un aperçu de la manière dont le Web nous catégorise:
Sandra Rodriguez
Minority Report, de la fiction à la réalité ? Presque… Les « Experts », regroupés désormais à Pontoise (Val-d’Oise) ont mis au point un logiciel de prédiction afin d’anticiper les grandes tendances de la délinquance. « A la différence du film dans lequel les autorités ciblent les individus, nous nous attachons uniquement de façon massive aux faits et aux actes criminels », explique à 20 Minutes Patrick Perrot, le chef de la division analyse et investigation criminelle au service central du renseignement criminel (SCRC) de la gendarmerie nationale.
« Lorsque les algorithmes sont devenus capables de détecter des comportements d’achat en ligne, je n’ai rien dit car je n’achetais que très peu en ligne. Lorsqu’ils ont détecté des comportements terroristes, je n’ai rien dit car je n’étais pas terroriste. Lorsqu’ils ont détecté des comportements de joueurs compulsifs je n’ai rien dit car je n’étais pas un joueur compulsif. Lorsqu’ils ont détecté l’ensemble de mes comportements, il ne restait plus personne pour protester. » Voilà où nous en sommes aujourd’hui, c’est-à-dire en 2015. Quelques années après 1984 de Georges Orwell, alors qu’en 1983 naissait le réseau internet tel que nous le pratiquons aujourd’hui, c’est-à-dire une interconnexion de différents «sous-réseaux».
On connaissait les technophobes et les les néoluddites. On connaissait les nomophobes, phobie contemporaine capable de déclencher des crises d’angoisse à l’idée d’être séparé de son smartphone. On connaissait la « Fear Of Missing Out » (Fomo), qui n’est pas – encore – une phobie mais à tout le moins une crainte de passer à côté de quelque chose d’important, et l’on connaissait également les stratégies de remédiation mises en place par les acteurs technologiques « While You Were Away » (Wywa).
« Quelqu’un qui sait des choses sur nous a un certain degré de contrôle sur nous, et quelqu’un qui sait tout de nous a beaucoup de contrôle sur nous. La surveillance facilite le contrôle. »
Le concepteur de jeux Ian Bogost signe une nouvelle tribune, sur The Atlantic, qui mérite l’attention : « La cathédrale du calcul ».
Il y dénonce à nouveau la culture algorithmique, symbole que la science et la technologie sont devenues une nouvelle théologie. Cette culture algorithmique dont tout le monde parle est une dévotion, une supplication faite aux ordinateurs, un moyen de remplacer Dieu dans nos esprits alors même que nous prétendons simultanément que la science nous a rendu imperméables à la religion.
Et dans cette nouvelle théologie, l’ordinateur, le logiciel et les algorithmes tiennent une place particulière, explique-t-il : « La première erreur est de transformer les ordinateurs en dieux. La deuxième, de traiter leurs sorties comme les Ecritures. »
Twitter est bien déterminé à délaisser son affichage chronologique, au profit d’un algorithme sélectionnant les messages qui s’affichent et déterminant leur ordre.
Last Comments