{"id":10976,"date":"2015-05-25T10:10:40","date_gmt":"2015-05-25T10:10:40","guid":{"rendered":"https:\/\/blog.donottrack-doc.com\/?p=10976"},"modified":"2015-05-26T07:05:40","modified_gmt":"2015-05-26T07:05:40","slug":"big-data-la-machine-a-categoriser","status":"publish","type":"post","link":"https:\/\/blog.donottrack-doc.com\/fr\/big-data-la-machine-a-categoriser\/","title":{"rendered":"Big Data : la machine \u00e0 cat\u00e9goriser"},"content":{"rendered":"<p>Vous voulez conna\u00eetre les habitudes des usagers de t\u00e9l\u00e9phonie mobile\u00a0? Big Data. Vous voulez rejoindre une client\u00e8le cibl\u00e9e sur le Web? Big Data. Vous voulez d\u00e9coder le secret des s\u00e9ries qui cartonnent sur <a href=\"http:\/\/www.newyorker.com\/business\/currency\/hollywoods-big-data-big-deal\" target=\"_blank\">Netflix<\/a> ou savoir o\u00f9 r\u00e9parer les <a href=\"http:\/\/www.wsj.com\/articles\/SB10001424052702303444204577460552615646874\" target=\"_blank\">nids de poule<\/a> dans un quartier\u00a0? Big Data\u00a0! Suffit d\u2019avoir le bon algorithme et une bonne quantit\u00e9 de donn\u00e9es et les entreprises d\u2019analyse en m\u00e9gadonn\u00e9es promettent de trouver toutes sortes de r\u00e9ponses \u00e0 nos questions. Mais voil\u00e0\u00a0: qui pose ces questions\u00a0? Et peut-on se fier \u00e0 des algorithmes pour prendre des d\u00e9cisions?<\/p>\n<p>2015 est l\u2019ann\u00e9e du Big Data. Le concept de m\u00e9gadonn\u00e9es existe depuis quarante ans d\u00e9j\u00e0 mais c\u2019est cette ann\u00e9e, nous dit <a href=\"http:\/\/www.forbes.com\/sites\/teradata\/2015\/05\/05\/2015-the-year-big-data-becomes-agile\/\" target=\"_blank\">Forbes<\/a>, que les applications du Big Data font leur entr\u00e9e dans le monde des affaires et de la gouvernance. Une foule d\u2019entreprises se mettent au diapason\u00a0et changent leur mod\u00e8le d\u2019affaire pour tirer profit d\u2019une nouvelle richesse \u2013 nos donn\u00e9es personnelles.<\/p>\n<p><strong>Des m\u00e9ga-croisements de donn\u00e9es<\/strong><\/p>\n<p>Des analyses statistiques, il y en a toujours eu. En menant des sondages ou en calculant les cases coch\u00e9es dans un formulaire de recensement, on estime avec plus ou moins d\u2019exactitude les probabilit\u00e9s qu\u2019un candidat soit \u00e9lu, le nombre d\u2019accidents automobiles annuel ou le type d\u2019individu susceptible de rembourser un pr\u00eat. Bien s\u00fbr, on peut se tromper, mais les chiffres aident \u00e0 d\u00e9celer des tendances. Et c\u2019est \u00e0 partir de tendances qu\u2019on esp\u00e8re prendre de bonnes d\u00e9cisions.<\/p>\n<p>Aujourd\u2019hui, on les produit par quintillions ces donn\u00e9es. Ajoutez aux infos cumul\u00e9es par des institutions ou des compagnies de cr\u00e9dit les historiques de navigation traqu\u00e9s par des cookies (<a href=\"https:\/\/episode2.donottrack-doc.com\/\" target=\"_blank\">\u00e9pisode 02<\/a>), les data de nos t\u00e9l\u00e9phones mobiles (<a href=\"https:\/\/episode4.donottrack-doc.com\/\" target=\"_blank\">\u00e9pisode 04<\/a>),\u00a050 millions de photos, 40 millions de tweets et des milliards de documents \u00e9chang\u00e9s chaque jour, sans compter les donn\u00e9es produites par des bracelets de sport, des gadgets et objets intelligents en tous genre, et vous comprendrez pourquoi \u00ab\u00a0Big\u00a0\u00bb est un bon qualificatif pour d\u00e9crire\u00a0l\u2019\u00e9tendue d\u2019informations disponibles.<\/p>\n<p>Pourtant, la v\u00e9ritable r\u00e9volution du Big Data, ce n\u2019est pas tant une question de grandeur que la mani\u00e8re dont on peut d\u00e9sormais croiser ces donn\u00e9es. Au-del\u00e0 des choses qu\u2019elles disent sur nous (ou malgr\u00e9 nous), ce sont les corr\u00e9lations et croisements faits entre une vari\u00e9t\u00e9 d\u2019informations personnelles qui permettent de pr\u00e9dire des habitudes et des comportements chez les usagers. Savoir ce vous dites en ligne\u00a0? On s\u2019en moque. Mais conna\u00eetre les mots employ\u00e9s, avec qui vous les \u00e9changez, sur quel r\u00e9seau et \u00e0 quelle heure, \u00e7a c\u2019est payant.<\/p>\n<p><strong>Cat\u00e9goriser pour mieux r\u00e9gner<\/strong><\/p>\n<p>Pour y voir clair dans ce fouillis d\u2019informations, les algorithmes identifient des r\u00e9p\u00e9titions ou des\u00a0mod\u00e8les\u00a0dans de larges segments de la population. \u00c0 partir d\u2019un simple code postal, on arrive par exemple \u00e0 pr\u00e9dire le revenu moyen d\u2019un consommateur. Les agences <a href=\"http:\/\/www.esri.com\/data\/esri_data\/ziptapestry\" target=\"_blank\">Esri<\/a> et <a href=\"http:\/\/www.claritas.com\/MyBestSegments\/Default.jsp?ID=20\" target=\"_blank\">Claritas<\/a> disent m\u00eame arriver d\u00e9duire le niveau d\u2019\u00e9ducation, le style de vie, la composition familiale et les habitudes de consommation d\u2019une personne avec cette seule information. L\u2019entreprise <a href=\"http:\/\/www.forbes.com\/sites\/kashmirhill\/2012\/02\/16\/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did\/\" target=\"_blank\">Target<\/a> a pour sa part fait les manchettes en 2012, quand elle a pr\u00e9dit la grossesse d\u2019une adolescente, avant que ses parents ne soient au courant, \u00e0 partir du type de lotions, de vitamines et la couleur des objets achet\u00e9s.<\/p>\n<p>Pour que les algorithmes fonctionnent ad\u00e9quatement, il faut classer les individus dans des cat\u00e9gories toujours plus pr\u00e9cises. Et c\u2019est l\u00e0 o\u00f9 la discrimination guette. Parce qu\u2019on n\u2019entre pas toujours facilement dans une case&#8230;<\/p>\n<p><strong>Pr\u00e9dictions et discriminations<\/strong><\/p>\n<p>Comme le rappelle Kate Crawford, interview\u00e9e dans l\u2019<a href=\"https:\/\/episode5.donottrack-doc.com\/\" target=\"_blank\">\u00e9pisode 05<\/a>, ce sont les minorit\u00e9s et les populations d\u00e9j\u00e0 discrimin\u00e9es qui sont les plus affect\u00e9es par les erreurs de pr\u00e9dictions. Plus un individu correspond \u00e0 la \u00ab\u00a0norme\u00a0\u00bb ou \u00e0 une cat\u00e9gorie pr\u00e9d\u00e9termin\u00e9e, mieux ses donn\u00e9es sont prises en compte. Mais qu\u2019arrive-t-il quand on se trouve dans la marge\u00a0? Qu\u2019advient-il \u00e0 ceux qui ne se comportent pas comme le pr\u00e9voit Amazon, Google ou Facebook\u00a0?<\/p>\n<p>R\u00e9cemment, <a href=\"http:\/\/www.theguardian.com\/technology\/2015\/feb\/19\/native-american-activist-facebook-lawsuit-real-name\" target=\"_blank\">Facebook<\/a> a soulev\u00e9 l\u2019ire de nombreux usagers quand elle a soudainement choisi d&rsquo;appliquer \u00e0 la lettre un de ses conditions d&rsquo;utilisation, qui stipule qu&rsquo;un usager doit utiliser sa v\u00e9ritable identit\u00e9. L&rsquo;objectif souhait\u00e9, dit l&rsquo;entreprise, est de cr\u00e9er un environnement plus s\u00fbr qui limiterait de facto les publications haineuses. L&rsquo;objectif atteint fut plut\u00f4t d&rsquo;\u00e9liminer les comptes de transgenre, drag-queens, autochtones et survivants de violence conjugale, sous pr\u00e9texte\u00a0que leur compte n&rsquo;affichaient pas un nom \u00abr\u00e9el \u00bb. Une atteinte non seulement aux droits individuels, mais aussi \u00e0 la vie priv\u00e9e.<\/p>\n<p>Et que dire des discriminations et pr\u00e9jug\u00e9s que les algorithmes ne font que renforcer\u00a0? En 2014, la police de Chicago vient sonner \u00e0 la porte du jeune <a href=\"http:\/\/www.theverge.com\/2014\/2\/19\/5419854\/the-minority-report-this-computer-predicts-crime-but-is-it-racist\" target=\"_blank\">Robert McDaniels<\/a>, 22 ans. \u00ab\u00a0On te surveille mon gars\u00a0\u00bb, lui annoncent les policiers, alors qu\u2019un algorithme d\u00e9velopp\u00e9 par l\u2019Illinois Institute of Technology vient de le placer sur la liste des 400 personnes potentiellement criminelles, \u00e0 partir de donn\u00e9es compil\u00e9es sur son quartier, les intersections o\u00f9 ont eu lieu des crimes pass\u00e9s et son degr\u00e9 de s\u00e9paration avec des personnes impliqu\u00e9es dans un crime. On se croirait en pleine science-fiction&#8230; Et s\u2019il y avait une erreur d\u2019interpr\u00e9tation, comment r\u00e9tablir les faits\u00a0?<\/p>\n<p><strong>Faites le test<\/strong><\/p>\n<p>On ne vous mentira pas\u00a0: il est difficile, voir impossible de savoir comment on est cat\u00e9goris\u00e9 \u2013 et encore plus difficile d\u2019y \u00e9chapper. Tout d\u00e9pend de l\u2019entreprise, de l\u2019algorithme et des informations recherch\u00e9es. Mais certains outils peuvent tout de m\u00eame donner un petit un aper\u00e7u\u00a0de la mani\u00e8re dont le Web nous cat\u00e9gorise:<\/p>\n<ul>\n<li>L\u2019extension <a href=\"http:\/\/floodwatch.o-c-r.org\" target=\"_blank\">Floodwatch<\/a> permet de voir en un coup d\u2019\u0153il toutes les publicit\u00e9s qui nous ont cibl\u00e9 personnellement sur une longue p\u00e9riode de temps. Utile pour retracer nos pratiques de navigation et voir comment elles agissent sur notre cat\u00e9gorisation\u00a0!<\/li>\n<li>Plus simple encore? Connectez vous \u00e0 votre compte Google. \u00e0 Rendez-vous sur la page de <a href=\"https:\/\/www.google.com\/settings\/u\/0\/ads\" target=\"_blank\">Param\u00e8tre des annonces<\/a> \u00e0 Est-ce que ce profil pour ressemble\u00a0? \u00c0 vous de choisir de le corriger, ou au contraire d\u2019adopter cette nouvelle identit\u00e9 pour mieux vous camoufler&#8230;<\/li>\n<\/ul>\n<p><em><strong>Sandra Rodriguez<\/strong><\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vous voulez conna\u00eetre les habitudes des usagers de t\u00e9l\u00e9phonie mobile\u00a0? Big Data. Vous voulez rejoindre une client\u00e8le cibl\u00e9e sur le Web? Big Data. Vous voulez d\u00e9coder le secret des s\u00e9ries qui cartonnent sur Netflix ou savoir o\u00f9 r\u00e9parer les nids de poule dans un quartier\u00a0? Big Data\u00a0! Suffit d\u2019avoir le bon algorithme et une bonne <a class=\"more-link\" href=\"https:\/\/blog.donottrack-doc.com\/fr\/big-data-la-machine-a-categoriser\/\">Read more<\/a><\/p>\n","protected":false},"author":3,"featured_media":11100,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[141],"tags":[227,984],"acf":[],"_links":{"self":[{"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/posts\/10976"}],"collection":[{"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/comments?post=10976"}],"version-history":[{"count":5,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/posts\/10976\/revisions"}],"predecessor-version":[{"id":10993,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/posts\/10976\/revisions\/10993"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/media\/11100"}],"wp:attachment":[{"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/media?parent=10976"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/categories?post=10976"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.donottrack-doc.com\/fr\/wp-json\/wp\/v2\/tags?post=10976"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}