« L’algorithme de la CAF conduit à un surcontrôle des populations les plus précaires »
Fin novembre et début décembre, l’association La Quadrature du Net et le journal Le Monde ont chacun fait paraître une enquête sur l’utilisation du data mining (l’exploration de données) par les caisses d’allocations familiales (CAF), pour détecter les indus et les fraudes. Les deux enquêtes montrent que ce système, qui permet de scanner des milliers de données de 32 millions de personnes (les allocataires et leurs proches) et sur la base duquel sont déclenchés les contrôles, cible les plus pauvres, notamment les mères isolées.
L’algorithme utilisé attribue un score de risque aux allocataires allant de 0 à 1. Plus on est proche de 1, plus on est exposé à la probabilité d’un contrôle. Parmi les critères pénalisants, le fait d’avoir changé de loyer plus de quatre fois en un an et demi, d’avoir un enfant à charge de 19 ans ou plus, ou encore de déclarer chaque trimestre ses ressources pour percevoir l’allocation adulte handicapé (AAH).
Le sociologue Vincent Dubois travaille sur le contrôle des assistés. Il est l’auteur de Contrôler les assistés. Genèses et usages d’un mot d’ordre, Raisons d’agir, 2021, et le coauteur de Chômeurs, vos papiers !, Raisons d’agir, 2023. Il revient pour Alternatives Economiques sur le rôle des algorithmes dans le contrôle des allocataires des CAF.
Qu’est-ce que les enquêtes du Monde et de La Quadrature du Net sur l’utilisation du data mining par les caisses d’allocation familiale nous apprennent de nouveau, notamment par rapport au travail d’enquête sociologique que vous avez réalisé sur le contrôle des assistés ?
Ces enquêtes n’amènent pas de découverte majeure, mais elles confirment le caractère discriminant du data mining, qui conduit à un surcontrôle des populations les plus précaires, ce que j’avais moi-même montré.
La différence réside dans la méthode : là où j’avais pu établir statistiquement les caractéristiques des personnes les plus contrôlées à partir de leur désignation par le data mining, ces enquêtes ont permis d’avoir un accès au code source, dans une version certes tronquée et ancienne, mais qui confirment que les résultats sont bien imputables à la façon dont le modèle a été créé.
Peut-on dire que la CNAF (Caisse nationale des allocations familiales) cible les plus pauvres, en particulier celles et ceux qui traversent une période particulièrement difficile ?
Il est compliqué de le dire de façon aussi tranchée, car à proprement parler, le data mining ne cible personne ; il ne fait qu’identifier des facteurs de risque.
Il est centré sur la détection des indus, les sommes versées qui n’auraient pas dû l’être, que ces indus soient d’origine frauduleuse, soient le fait d’erreurs de bonne foi ou s’expliquent par des retards de traitement de l’information de la part des caisses. Mais sans que cela ne soit voulu par personne, les plus pauvres sont de fait les plus ciblés.
La précarité va de pair avec des situations instables, changeantes, et qui ne sont pas conformes aux catégories administratives
Ils sont très largement plus contrôlés que les autres, alors que d’un point de vue comportemental, rien n’atteste qu’ils commettent plus de fautes que les autres. Je m’explique. Le nombre d’erreurs relevées dans leurs dossiers est plus élevé que pour les populations mieux installées dans la vie. Mais c’est notamment parce que la précarité va de pair avec des situations instables, changeantes, et qui ne sont pas conformes aux catégories administratives.
Le dossier d’une personne qui change fréquemment de logement, de situation familiale ou professionnelle a plus de probabilité de comporter des erreurs que celui qu’une personne dans la stabilité.
Autre exemple : pour le revenu de solidarité active (RSA), les déclarations de ressources sont trimestrielles. Pour les allocations familiales, et jusqu’à récemment pour l’allocation logement, elles étaient annuelles. Les ressources d’un allocataire du RSA ont dès lors mécaniquement quatre fois plus de chances d’être enregistrées avec retard, ou avec des anomalies.
Il y a les erreurs induites par la complexité des situations, mais aussi par la complexité du système de prestations sociales, et les erreurs de l’administration. Les prestations à destination des plus pauvres sont à la fois les plus complexes à obtenir, et celles qui sont les plus inquisitoriales, avec des questions sur la situation scolaire des enfants, etc. Il y a donc davantage d’erreurs, mais cela n’équivaut en rien au fait que ces allocataires auraient plus que d’autres l’intention de frauder.
Le fond du problème réside ainsi dans un système de prestations sociales, qui génère plus de complexité, elle-même source d’erreurs, pour les plus pauvres. Cette complexité sert de justification technique au surcontrôle des précaires. Mais constater le fait qu’il y a plus d’erreurs chez les précaires ne doit pas conduire à faire l’économie de la cause de cette erreur, ni assimiler ces erreurs à des fausses déclarations intentionnelles, c’est-à-dire des fraudes.
Il n’y a donc pas derrière l’algorithme d’intention discriminatoire, mais de fait l’algorithme discrimine.
Oui, et c’est très pratique. Les dirigeants de la Cnaf peuvent dire « ce n’est pas nous, c’est la machine ». Techniquement, ce n’est pas faux, mais les coïncidences sont fortes. La technique permet de contrôler davantage les populations qui sont justement les plus stigmatisées dans un certain discours public et médiatique.
Les dirigeants de la Cnaf peuvent dire « ce n’est pas nous, c’est la machine »
Les deux coïncident, sans qu’il y ait de choix assumé comme tel. Auparavant, la Cnaf mettait en place des plans de contrôle avec des cibles posées a priori. Par exemple, telle année, les femmes seules au RMI, etc. Il fallait assumer ces choix. Désormais, il n’y a plus de choix à assumer, seulement le résultat de traitements statistiques.
Le problème tient-il aussi à ce que l’algorithme produit des scores de risque qui reposent sur les caractéristiques socio-économiques des personnes plutôt que sur des comportements ?
On ne peut pas complètement opposer comportements d’un côté et caractéristiques socio-économiques personnelles de l’autre. Avec cet algorithme, le nombre de connexions sur le site de la CAF, le changement d’adresses IP – qui sont des variables comportementales – tout autant que le niveau de revenus sont utilisés comme des variables prédictives d’une erreur potentielle.
Pourrait-on imaginer un algorithme vertueux ou est-ce le principe même qui pose problème ?
La première chose serait de faire en sorte que les modèles statistiques qui le constituent ne soient pas essentiellement, voire exclusivement, tournés vers la détection des indus, mais aussi vers les erreurs qui sont au détriment des allocataires (le sous-paiement ou la non-réception), c’est-à-dire des phénomènes de non-recours.
La fraude au RSA représente 0,3 % des cas, le non-recours à cette prestation est de 30 %
Il serait en théorie très facile de configurer l’algorithme pour en faire un outil de lutte contre le non-recours. Pour rappel, les chiffres sont sans commune mesure : la fraude au RSA représente 0,3 % des cas, le non-recours à cette prestation est de 30 %.
Cela dit, on ne peut pas demander à un système technique de corriger un système de calcul et de versement des prestations. La seule solution vertueuse serait de limiter la conditionnalité des aides. Il faudrait en réalité agir plus en amont pour mettre en place un système de prestations plus vertueux. La technique ne fait qu’enregistrer un état de fait.
En tant que citoyen, que peut-on faire face à cette machine technico-administrative ?
Les associations de défense des précaires et les groupes technocritiques, comme La Quadrature du Net, font un travail de veille extrêmement utile pour alerter les citoyens. Faire savoir est déjà une manière de pousser les institutions à être plus transparentes.
De ce point de vue là, la Cnaf a en partie joué le jeu. La Quadrature et Le Monde ont obtenu le code source. Il faut soutenir les initiatives qui permettent aux institutions d’être transparentes, qui réalisent une surveillance de la surveillance : la surveillance citoyenne de la surveillance administrative.