Science sans conscience
Le big data est en phase expérimentale, c’est l’euphorie des premières découvertes. Mais qui s’occupe de poser les limites ? « Parce qu’il sera très difficile de faire marche arrière. » – Kate Crawford
Le big data est en phase expérimentale, c’est l’euphorie des premières découvertes. Mais qui s’occupe de poser les limites ? « Parce qu’il sera très difficile de faire marche arrière. » – Kate Crawford
Que se passe-t-il lorsqu’on assemble des données au hasard a la recherche de corrélations douteuses ?
Vous voulez connaître les habitudes des usagers de téléphonie mobile ? Big Data. Vous voulez rejoindre une clientèle ciblée sur le Web? Big Data. Vous voulez décoder le secret des séries qui cartonnent sur Netflix ou savoir où réparer les nids de poule dans un quartier ? Big Data ! Suffit d’avoir le bon algorithme et une bonne quantité de données et les entreprises d’analyse en mégadonnées promettent de trouver toutes sortes de réponses à nos questions. Mais voilà : qui pose ces questions ? Et peut-on se fier à des algorithmes pour prendre des décisions?
2015 est l’année du Big Data. Le concept de mégadonnées existe depuis quarante ans déjà mais c’est cette année, nous dit Forbes, que les applications du Big Data font leur entrée dans le monde des affaires et de la gouvernance. Une foule d’entreprises se mettent au diapason et changent leur modèle d’affaire pour tirer profit d’une nouvelle richesse – nos données personnelles.
Des méga-croisements de données
Des analyses statistiques, il y en a toujours eu. En menant des sondages ou en calculant les cases cochées dans un formulaire de recensement, on estime avec plus ou moins d’exactitude les probabilités qu’un candidat soit élu, le nombre d’accidents automobiles annuel ou le type d’individu susceptible de rembourser un prêt. Bien sûr, on peut se tromper, mais les chiffres aident à déceler des tendances. Et c’est à partir de tendances qu’on espère prendre de bonnes décisions.
Aujourd’hui, on les produit par quintillions ces données. Ajoutez aux infos cumulées par des institutions ou des compagnies de crédit les historiques de navigation traqués par des cookies (épisode 02), les data de nos téléphones mobiles (épisode 04), 50 millions de photos, 40 millions de tweets et des milliards de documents échangés chaque jour, sans compter les données produites par des bracelets de sport, des gadgets et objets intelligents en tous genre, et vous comprendrez pourquoi « Big » est un bon qualificatif pour décrire l’étendue d’informations disponibles.
Pourtant, la véritable révolution du Big Data, ce n’est pas tant une question de grandeur que la manière dont on peut désormais croiser ces données. Au-delà des choses qu’elles disent sur nous (ou malgré nous), ce sont les corrélations et croisements faits entre une variété d’informations personnelles qui permettent de prédire des habitudes et des comportements chez les usagers. Savoir ce vous dites en ligne ? On s’en moque. Mais connaître les mots employés, avec qui vous les échangez, sur quel réseau et à quelle heure, ça c’est payant.
Catégoriser pour mieux régner
Pour y voir clair dans ce fouillis d’informations, les algorithmes identifient des répétitions ou des modèles dans de larges segments de la population. À partir d’un simple code postal, on arrive par exemple à prédire le revenu moyen d’un consommateur. Les agences Esri et Claritas disent même arriver déduire le niveau d’éducation, le style de vie, la composition familiale et les habitudes de consommation d’une personne avec cette seule information. L’entreprise Target a pour sa part fait les manchettes en 2012, quand elle a prédit la grossesse d’une adolescente, avant que ses parents ne soient au courant, à partir du type de lotions, de vitamines et la couleur des objets achetés.
Pour que les algorithmes fonctionnent adéquatement, il faut classer les individus dans des catégories toujours plus précises. Et c’est là où la discrimination guette. Parce qu’on n’entre pas toujours facilement dans une case…
Prédictions et discriminations
Comme le rappelle Kate Crawford, interviewée dans l’épisode 05, ce sont les minorités et les populations déjà discriminées qui sont les plus affectées par les erreurs de prédictions. Plus un individu correspond à la « norme » ou à une catégorie prédéterminée, mieux ses données sont prises en compte. Mais qu’arrive-t-il quand on se trouve dans la marge ? Qu’advient-il à ceux qui ne se comportent pas comme le prévoit Amazon, Google ou Facebook ?
Récemment, Facebook a soulevé l’ire de nombreux usagers quand elle a soudainement choisi d’appliquer à la lettre un de ses conditions d’utilisation, qui stipule qu’un usager doit utiliser sa véritable identité. L’objectif souhaité, dit l’entreprise, est de créer un environnement plus sûr qui limiterait de facto les publications haineuses. L’objectif atteint fut plutôt d’éliminer les comptes de transgenre, drag-queens, autochtones et survivants de violence conjugale, sous prétexte que leur compte n’affichaient pas un nom «réel ». Une atteinte non seulement aux droits individuels, mais aussi à la vie privée.
Et que dire des discriminations et préjugés que les algorithmes ne font que renforcer ? En 2014, la police de Chicago vient sonner à la porte du jeune Robert McDaniels, 22 ans. « On te surveille mon gars », lui annoncent les policiers, alors qu’un algorithme développé par l’Illinois Institute of Technology vient de le placer sur la liste des 400 personnes potentiellement criminelles, à partir de données compilées sur son quartier, les intersections où ont eu lieu des crimes passés et son degré de séparation avec des personnes impliquées dans un crime. On se croirait en pleine science-fiction… Et s’il y avait une erreur d’interprétation, comment rétablir les faits ?
Faites le test
On ne vous mentira pas : il est difficile, voir impossible de savoir comment on est catégorisé – et encore plus difficile d’y échapper. Tout dépend de l’entreprise, de l’algorithme et des informations recherchées. Mais certains outils peuvent tout de même donner un petit un aperçu de la manière dont le Web nous catégorise:
Sandra Rodriguez
Minority Report, de la fiction à la réalité ? Presque… Les « Experts », regroupés désormais à Pontoise (Val-d’Oise) ont mis au point un logiciel de prédiction afin d’anticiper les grandes tendances de la délinquance. « A la différence du film dans lequel les autorités ciblent les individus, nous nous attachons uniquement de façon massive aux faits et aux actes criminels », explique à 20 Minutes Patrick Perrot, le chef de la division analyse et investigation criminelle au service central du renseignement criminel (SCRC) de la gendarmerie nationale.
« Lorsque les algorithmes sont devenus capables de détecter des comportements d’achat en ligne, je n’ai rien dit car je n’achetais que très peu en ligne. Lorsqu’ils ont détecté des comportements terroristes, je n’ai rien dit car je n’étais pas terroriste. Lorsqu’ils ont détecté des comportements de joueurs compulsifs je n’ai rien dit car je n’étais pas un joueur compulsif. Lorsqu’ils ont détecté l’ensemble de mes comportements, il ne restait plus personne pour protester. » Voilà où nous en sommes aujourd’hui, c’est-à-dire en 2015. Quelques années après 1984 de Georges Orwell, alors qu’en 1983 naissait le réseau internet tel que nous le pratiquons aujourd’hui, c’est-à-dire une interconnexion de différents «sous-réseaux».
Un expert du Big Data expose clairement pourquoi, selon lui, la « détection automatisée de comportements suspects » prévue par la Loi Renseignement est très dangereuse. En un mot, mettre les gens dans des cases au moyen d’un algorithme forcément imparfait, ce n’est pas grave s’il ne s’agit que d’envoyer de la publicité ciblée, mais ça l’est beaucoup plus s’il s’agit d’envoyer des policiers interpeller des gens chez eux à 6 heures du matin.
Échanger des données personnelles sur votre activité physique contre une réduction de votre prime d’assurance, c’est ce que s’apprête à proposer la compagnie John Hancock, située à Boston. Cette filiale du géant canadien Manulife Financial, s’inspirant d’une offre existante en Afrique du Sud, va fournir un bracelet connecté mesurant le nombre de pas de ses clients, le nombre de calories brûlées et la qualité de leur sommeil.
Nous sommes entrés dans « l’ère du Big Data ». Avec le développement d’internet et la multiplication des objets connectés d’une part ainsi que l’augmentation des capacités de stockage et de calcul d’autre part, des quantités astronomiques de données -on parle de zettaoctets – sont récoltées, croisées et analysées grâce à des algorithmes toujours plus complexes.
Photo © fotodo / Fotolia
Que peut-on comprendre et deviner sur vous à partir de vos navigations sur internet ? Deux experts de la vie privée en ligne – l’économiste Alessandro Acquisti et l’informaticienne Jennifer Golbeck – nous révèlent à quel point nous en savons peu sur la façon dont beaucoup d’autres savent. (article en anglais)
Last Comments