algorithme

Big Data : la machine à catégoriser

Vous voulez connaître les habitudes des usagers de téléphonie mobile ? Big Data. Vous voulez rejoindre une clientèle ciblée sur le Web? Big Data. Vous voulez décoder le secret des séries qui cartonnent sur Netflix ou savoir où réparer les nids de poule dans un quartier ? Big Data !

Suffit d’avoir le bon algorithme et une bonne quantité de données et les entreprises d’analyse en mégadonnées promettent de trouver toutes sortes de réponses à nos questions. Mais voilà : qui pose ces questions ? Et peut-on se fier à des algorithmes pour prendre des décisions? 2015 est l’année du Big Data. Le concept de mégadonnées existe depuis quarante ans déjà, mais c’est cette année, nous dit Forbes, que les applications du Big Data font leur entrée dans le monde des affaires et de la gouvernance. Une foule d’entreprises se mettent au diapason et changent leur modèle d’affaires pour tirer profit d’une nouvelle richesse – nos données personnelles.

Des mégacroisements de données

Des analyses statistiques, il y en a toujours eu. En menant des sondages ou en calculant les cases cochées dans un formulaire de recensement, on estime avec plus ou moins d’exactitude les probabilités qu’un candidat soit élu, le nombre d’accidents automobiles annuel ou le type d’individu susceptible de rembourser un prêt. Bien sûr, on peut se tromper, mais les chiffres aident à déceler des tendances. Et c’est à partir de tendances qu’on espère prendre de bonnes décisions.

Aujourd’hui, on les produit par quintillions ces données. Ajoutez aux infos cumulées par des institutions ou des compagnies de crédit les historiques de navigation traqués par des cookies (épisode 02), les data de nos téléphones mobiles (épisode 04), 50 millions de photos, 40 millions de tweets et des milliards de documents échangés chaque jour, sans compter les données produites par des bracelets de sport, des gadgets et objets intelligents en tout genre, et vous comprendrez pourquoi « Big » est un bon qualificatif pour décrire l’étendue d’informations disponibles.

Pourtant, la véritable révolution du Big Data, ce n’est pas tant une question de grandeur que la manière dont on peut désormais croiser ces données. Au-delà des choses qu’elles disent sur nous (ou malgré nous), ce sont les corrélations et croisements faits entre une variété d’informations personnelles qui permettent de prédire des habitudes et des comportements chez les usagers. Savoir ce vous dites en ligne ? On s’en moque. Mais connaître les mots employés, avec qui vous les échangez, sur quel réseau et à quelle heure, ça c’est payant.

Catégoriser pour mieux régner

Pour y voir clair dans ce fouillis d’informations, les algorithmes identifient des répétitions ou des modèles dans de larges segments de la population. À partir d’un simple code postal, on arrive par exemple à prédire le revenu moyen d’un consommateur. Les agences Esri et Claritas disent même arriver déduire le niveau d’éducation, le style de vie, la composition familiale et les habitudes de consommation d’une personne avec cette seule information.

L’entreprise Target a pour sa part fait les manchettes en 2012, quand elle a prédit la grossesse d’une adolescente, avant que ses parents ne soient au courant, à partir du type de lotions, de vitamines et la couleur des objets achetés. Pour que les algorithmes fonctionnent adéquatement, il faut classer les individus dans des catégories toujours plus précises. Et c’est là où la discrimination guette. Parce qu’on n’entre pas toujours facilement dans une case…

Prédictions et discriminations

Comme le rappelle Kate Crawford, interviewée dans l’épisode 05, ce sont les minorités et les populations déjà discriminées qui sont les plus affectées par les erreurs de prédictions. Plus un individu correspond à la « norme » ou à une catégorie prédéterminée, mieux ses données sont prises en compte. Mais qu’arrive-t-il quand on se trouve dans la marge ? Qu’advient-il à ceux qui ne se comportent pas comme le prévoit Amazon, Google ou Facebook ?

Récemment, Facebook a soulevé l’ire de nombreux usagers quand elle a soudainement choisi d’appliquer à la lettre une de ses conditions d’utilisation, qui stipule qu’un usager doit utiliser sa véritable identité. L’objectif souhaité, dit l’entreprise, est de créer un environnement plus sûr qui limiterait de facto les publications haineuses. L’objectif atteint fut plutôt d’éliminer les comptes de transgenre, drag-queens, autochtones et survivants de violence conjugale, sous prétexte que leurs comptes n’affichaient pas un nom «réel ». Une atteinte non seulement aux droits individuels, mais aussi à la vie privée.

Et que dire des discriminations et préjugés que les algorithmes ne font que renforcer ? En 2014, la police de Chicago vient sonner à la porte du jeune Robert McDaniels, 22 ans. « On te surveille mon gars », lui annoncent les policiers, alors qu’un algorithme développé par l’Illinois Institute of Technology vient de le placer sur la liste des 400 personnes potentiellement criminelles, à partir de données compilées sur son quartier, les intersections où ont eu lieu des crimes passés et son degré de séparation avec des personnes impliquées dans un crime. On se croirait en pleine science-fiction… Et s’il y avait une erreur d’interprétation, comment rétablir les faits ?

Faites le test

On ne vous mentira pas : il est difficile, voir impossible de savoir comment on est catégorisé – et encore plus difficile d’y échapper. Tout dépend de l’entreprise, de l’algorithme et des informations recherchées. Mais certains outils peuvent tout de même donner un petit un aperçu de la manière dont le Web nous catégorise:

L’extension Floodwatch permet de voir en un coup d’œil toutes les publicités qui nous ont ciblés personnellement sur une longue période de temps. Utile pour retracer nos pratiques de navigation et voir comment elles agissent sur notre catégorisation !
Plus simple encore? Connectez-vous à votre compte Google. Rendez-vous sur la page de Paramètre des annonces. Est-ce que ce profil pour ressemble ? À vous de choisir de le corriger, ou au contraire d’adopter cette nouvelle identité pour mieux vous camoufler…

Sandra Rodriguez

Traque Interdite

Une série documentaire personnalisée sur la vie privée et l'exploitation de nos données personnelles.

Voici notre blogue et notre collection de liens

Categories

Last Comments

Tordre les données : Nicolas Cage et la natation

Demain, comment savoir si on nous manipule ?

Big Data : la machine à catégoriser

Surveillance : pour une autre politique des algorithmes