Exploitation de la structure des problèmes en optimisation et en apprentissage automatique respectueux de la vie privée

Mangold, Paul

Type de document :

Thèse

URL permanente :

http://hdl.handle.net/20.500.12210/106573

Titre :

Exploitation de la structure des problèmes en optimisation et en apprentissage automatique respectueux de la vie privée

Titre en anglais :

Exploiting problem structure in privacy-preserving optimization and machine learning

Auteur(s) :

Mangold, Paul [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Inria Lille - Nord Europe

Directeur(s) de thèse :

Marc Tommasi
Aurélien Bellet

Date de soutenance :

2023-10-11

Président du jury :

Jamal Atif [Président]
Katrina Ligett [Rapporteur]
Éric Moulines [Rapporteur]
Peter Richtárik
Catuscia Palamidessi
Cristóbal Guzmán

Membre(s) du jury :

Jamal Atif [Président]
Katrina Ligett [Rapporteur]
Éric Moulines [Rapporteur]
Peter Richtárik
Catuscia Palamidessi
Cristóbal Guzmán

Organisme de délivrance :

Université de Lille

École doctorale :

Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

NNT :

2023ULILB023

Mot(s)-clé(s) :

Optimisation
Confidentialité différentielle
Équité des prédictions
Apprentissage machine

Mot(s)-clé(s) en anglais :

Optimization
Differential privacy
Fairness
Machine learning

Discipline(s) HAL :

Informatique [cs]/Algorithme et structure de données [cs.DS]
Informatique [cs]/Apprentissage [cs.LG]

Résumé :

Au cours des dernières décennies, les préoccupations quant à l'impact sociétal de l'apprentissage automatique se sont multipliées. En effet, si l'apprentissage automatique a prouvé son utilité dans la science, dans la vie ...
Lire la suite >Au cours des dernières décennies, les préoccupations quant à l'impact sociétal de l'apprentissage automatique se sont multipliées. En effet, si l'apprentissage automatique a prouvé son utilité dans la science, dans la vie quotidienne, ainsi que dans de nombreux autres domaines, son succès est principalement dû à la disponibilité de grands ensembles de données. Cela soulève deux préoccupations : la première concerne la confidentialité des données d'entraînement et la seconde, la possibilité de discrimination dans les prédictions d'un modèle. Le domaine de l'apprentissage automatique fiable vise à apporter des réponses techniques à ces préoccupations.Malheureusement, garantir la confidentialité des données d'entraînement, ainsi que l'équité des prédictions, diminue souvent l'utilité du modèle appris. Ce problème a suscité un grand intérêt au cours des dernières années. Cependant, la plupart des méthodes existantes (généralement basées sur la descente de gradient stochastique) ont tendance à échouer dans des scénarios courants, tels que l'entraînement de modèles en grande dimension. Dans cette thèse, nous étudions comment les propriétés structurelles des problèmes d'apprentissage automatique peuvent être exploitées pour améliorer le compromis entre la confidentialité et l'utilité, et comment cela peut affecter l'équité des prédictions.Les deux premières contributions de cette thèse sont deux nouveaux algorithmes d'optimisation respectant la confidentialité différentielle, tous deux basés sur la descente par coordonnées, visant à exploiter les propriétés structurelles du problème. Le premier algorithme est basé sur la descente par coordonnées stochastique et est en mesure d'exploiter le déséquilibre dans l'échelle des coordonnées du gradient en utilisant des grands pas d'apprentissage. Cela lui permet de trouver des modèles pertinents dans des scénarios difficiles, où la descente de gradient stochastique échoue. Le deuxième algorithme est basé sur la descente par coordonnées gloutonne. Les mises à jour gloutonnes permettent de se concentrer sur les coordonnées les plus importantes du problème, ce qui peut parfois améliorer considérablement l'utilité (par exemple, lorsque la solution du problème est parcimonieuse).La troisième contribution de cette thèse étudie les interactions entre confidentialité différentielle et équité en apprentissage automatique. Ces deux notions ont rarement été étudiées simultanément, et il existe des inquiétudes croissantes selon lesquelles la confidentialité différentielle pourrait nuire à l'équité des prédictions. Nous montrons que quand les prédictions du modèle sont lipschitziennes (par rapport à ses paramètres), les mesures d'équité de groupe présentent des propriétés de régularité intéressantes, que nous caractérisons. Ce résultat permet d'obtenir une borne sur la différence de niveaux d'équité entre un modèle privé et le modèle non-privé correspondant.Lire moins >

Résumé en anglais : [en]

In the past decades, concerns about the societal impact of machine learning have been growing. Indeed, if machine learning has proven its usefulness in science, day-to-day applications, and many other domains, its success ...
Lire la suite >In the past decades, concerns about the societal impact of machine learning have been growing. Indeed, if machine learning has proven its usefulness in science, day-to-day applications, and many other domains, its success is principally due to the availability of large datasets. This raises two concerns, the first about the confidentiality of the training data, and the second, about possible discrimination in a model's predictions. Trustworthy machine learning aims at providing technical answers to these concerns.Unfortunately, guaranteeing the privacy of the training data and the fairness of the predictions often decreases the utility of the learned model. This problem has drawn significant interest in the past years, but most of existing methods (usually based on stochastic gradient descent) tend to fail in some common scenarios, like training of high-dimensional models. In this thesis, we study how structural properties of machine learning problems can be exploited to improve the trade-off between privacy and utility, and how this can impact the fairness of the predictions.The first two contributions of this thesis are two new differentially private optimization algorithms, that are both based on coordinate descent. They aim at exploiting different structural properties of the problem at hand. The first algorithm is based on stochastic coordinate descent, and can exploit imbalance in the scale of the gradient's coordinates by using large step sizes. This allows our algorithm to obtain useful models in difficult problems, where stochastic gradient descent quickly stalls. The second algorithm is based on greedycoordinate descent. Its greedy updates allow to focus on the most important coordinates of the problem, which can sometimes drastically improve utility (eg when the solution of the problem is sparse).The third contribution of this thesis studies the interplay of differential privacy and fairness in machine learning. These two notions have rarely been studied simultaneously, and there are growing concerns that differential privacy may exacerbate unfairness. We show that group fairness measures have interesting regularity properties, provided that the predictions of the model are Lipschitz-continuous in its parameters. This result allows to derive a bound on the difference in fairness levels between a private model and its non-private counterpart.Lire moins >

Langue :

Anglais

Collections :

Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189

Source :

Harvested from HAL

Date de dépôt :

2024-02-08T03:04:56Z

Fichiers

document
Accès libre
Accéder au document

These_MANGOLD_Paul.pdf
Accès libre
Accéder au document

Exploitation de la structure des problèmes ... BibTeX CSV Excel RIS

Fichiers

Exploitation de la structure des problèmes ...

BibTeX

CSV

Excel

RIS