Caractérisation des arêtes dans les graphes ...
Document type :
Thèse
Title :
Caractérisation des arêtes dans les graphes signés et attribués
English title :
Characterizing Edges in Signed and Vector-Valued Graphs
Author(s) :
Thesis director(s) :
Marc Tommasi
Defence date :
2018-04-16
Jury president :
Liva Ralaivola [Rapporteur]
Alessandro Provetti [Rapporteur]
Elisa Fromont [Examinateur]
Sophie Tison [Examinateur]
Claudio Gentile [Invité]
Fabio Vitale [Encadrant]
Alessandro Provetti [Rapporteur]
Elisa Fromont [Examinateur]
Sophie Tison [Examinateur]
Claudio Gentile [Invité]
Fabio Vitale [Encadrant]
Jury member(s) :
Liva Ralaivola [Rapporteur]
Alessandro Provetti [Rapporteur]
Elisa Fromont [Examinateur]
Sophie Tison [Examinateur]
Claudio Gentile [Invité]
Fabio Vitale [Encadrant]
Alessandro Provetti [Rapporteur]
Elisa Fromont [Examinateur]
Sophie Tison [Examinateur]
Claudio Gentile [Invité]
Fabio Vitale [Encadrant]
Accredited body :
Université de Lille
Keyword(s) :
Graphes signés
Apprentissage automatique
Apprentissage automatique
English keyword(s) :
Signed graphs
correlation clustering
Machine learning ML
correlation clustering
Machine learning ML
HAL domain(s) :
Informatique [cs]/Intelligence artificielle [cs.AI]
Informatique [cs]/Apprentissage [cs.LG]
Informatique [cs]/Apprentissage [cs.LG]
French abstract :
Dans cette thèse, nous proposons des méthodes pour caractériser efficacement et précisément les arêtes au sein de réseaux complexes. Dans les graphes simples, les nœuds sont liés au travers d’une sémantique unique. Par ...
Show more >Dans cette thèse, nous proposons des méthodes pour caractériser efficacement et précisément les arêtes au sein de réseaux complexes. Dans les graphes simples, les nœuds sont liés au travers d’une sémantique unique. Par exemple, deux utilisateurs sont amis dans un réseau social, ou une page web contient un lien hypertexte pointant vers un autre page. De plus, ces connexions sont généralement guidées par la similarité entre les nœuds, au travers d’un mécanisme appelé homophilie. Dans les exemples précédents, les utilisateurs deviennent amis à cause de caractéristiques communes, et les pages web sont reliées les unes aux autres sur la base de sujets communs. En revanche, les réseaux complexes sont des graphes où chaque connexion possède une sémantique parmi k possibles. Ces connexions sont en outre basées à la fois sur une homophilie et une hétérophilie partielle des nœuds à leurs extrémité. Cette information supplémentaire permet une analyse plus fine des graphes issus d’applications réelles. Cependant, elle peut être coûteuse à acquérir, ou n’est pas toujours disponible a priori. Nous abordons donc le problème d’inférer la sémantique des arêtes dans plusieurs contextes. Tout d’abord, nous considérons les graphes où les arêtes ont deux sémantiques opposées, et où nous observons l’étiquette de certaines arêtes. Ces « graphes signés » sont une façon élégante de représenter des interactions polarisées. Nous proposons deux biais d’apprentissage, adaptés respectivement aux graphes signés dirigés et non dirigés. Ceci nous amène à concevoir plusieurs algorithmes utilisant la topologie du graphe pour résoudre un problème de classification binaire que nous appelons Edge Sign Prediction. Deuxièmement, nous considérons les graphes avec k ≥ 2 sémantiques possibles pour les arêtes. Dans ce cas, nous ne recevons pas d’étiquette d’arêtes, mais plutôt un vecteur de caractéristiques pour chaque nœud. Face à ce problème non supervisé d’Edge Attributed Clustering, nous concevons un critère de qualité exprimant dans quelle mesure une k-partition des arêtes et k vecteurs sémantiques expliquent les connexions observées. Nous optimisons ce critère « qualité explicative » sous une forme vectorielle et matricielle et illustrons le comportement de ces deux méthodes sur des données synthétiques.Show less >
Show more >Dans cette thèse, nous proposons des méthodes pour caractériser efficacement et précisément les arêtes au sein de réseaux complexes. Dans les graphes simples, les nœuds sont liés au travers d’une sémantique unique. Par exemple, deux utilisateurs sont amis dans un réseau social, ou une page web contient un lien hypertexte pointant vers un autre page. De plus, ces connexions sont généralement guidées par la similarité entre les nœuds, au travers d’un mécanisme appelé homophilie. Dans les exemples précédents, les utilisateurs deviennent amis à cause de caractéristiques communes, et les pages web sont reliées les unes aux autres sur la base de sujets communs. En revanche, les réseaux complexes sont des graphes où chaque connexion possède une sémantique parmi k possibles. Ces connexions sont en outre basées à la fois sur une homophilie et une hétérophilie partielle des nœuds à leurs extrémité. Cette information supplémentaire permet une analyse plus fine des graphes issus d’applications réelles. Cependant, elle peut être coûteuse à acquérir, ou n’est pas toujours disponible a priori. Nous abordons donc le problème d’inférer la sémantique des arêtes dans plusieurs contextes. Tout d’abord, nous considérons les graphes où les arêtes ont deux sémantiques opposées, et où nous observons l’étiquette de certaines arêtes. Ces « graphes signés » sont une façon élégante de représenter des interactions polarisées. Nous proposons deux biais d’apprentissage, adaptés respectivement aux graphes signés dirigés et non dirigés. Ceci nous amène à concevoir plusieurs algorithmes utilisant la topologie du graphe pour résoudre un problème de classification binaire que nous appelons Edge Sign Prediction. Deuxièmement, nous considérons les graphes avec k ≥ 2 sémantiques possibles pour les arêtes. Dans ce cas, nous ne recevons pas d’étiquette d’arêtes, mais plutôt un vecteur de caractéristiques pour chaque nœud. Face à ce problème non supervisé d’Edge Attributed Clustering, nous concevons un critère de qualité exprimant dans quelle mesure une k-partition des arêtes et k vecteurs sémantiques expliquent les connexions observées. Nous optimisons ce critère « qualité explicative » sous une forme vectorielle et matricielle et illustrons le comportement de ces deux méthodes sur des données synthétiques.Show less >
English abstract : [en]
In this thesis, we develop methods to efficiently and accurately characterize edges in complex networks. In simple graphs, nodes are connected by a single semantic. For instance, two users are friends in a social networks, ...
Show more >In this thesis, we develop methods to efficiently and accurately characterize edges in complex networks. In simple graphs, nodes are connected by a single semantic. For instance, two users are friends in a social networks, or there is a hypertext link from one webpage to another. Furthermore, those connections are typically driven by node similarity, in what is known as the homophily mechanism. In the previous examples, users become friends because of common features, and webpages link to each other based on common topics. By contrast, complex networks are graphs where every connection has one semantic among k possible ones. Those connections are moreover based on both partial homophily and heterophily of their endpoints. This additional information enable finer analysis of real world graphs. However, it can be expensive to acquire, or is sometimes not known beforehand. We address the problems of inferring edge semantics in various settings. First, we consider graphs where edges have two opposite semantics, and where we observe the label of some edges. These so-called signed graphs are a convenient way to represent polarized interactions. We propose two learning biases suited for directed and undirected signed graphs respectively. This leads us to design several algorithms leveraging the graph topology to solve a binary classification problem that we call Edge Sign Prediction. Second, we consider graphs with k ≥ 2 available semantics for edge. In that case of multilayer graphs, we are not provided with any edge label, but instead are given one feature vector for each node. Faced with such an unsupervised Edge Attributed Clustering problem, we devise a quality criterion expressing how well an edge k-partition and k semantical vectors explains the observed connections. We optimize this goodness of explanation criterion in vectorial and matricial forms, and show how those two methods perform on synthetic data.Show less >
Show more >In this thesis, we develop methods to efficiently and accurately characterize edges in complex networks. In simple graphs, nodes are connected by a single semantic. For instance, two users are friends in a social networks, or there is a hypertext link from one webpage to another. Furthermore, those connections are typically driven by node similarity, in what is known as the homophily mechanism. In the previous examples, users become friends because of common features, and webpages link to each other based on common topics. By contrast, complex networks are graphs where every connection has one semantic among k possible ones. Those connections are moreover based on both partial homophily and heterophily of their endpoints. This additional information enable finer analysis of real world graphs. However, it can be expensive to acquire, or is sometimes not known beforehand. We address the problems of inferring edge semantics in various settings. First, we consider graphs where edges have two opposite semantics, and where we observe the label of some edges. These so-called signed graphs are a convenient way to represent polarized interactions. We propose two learning biases suited for directed and undirected signed graphs respectively. This leads us to design several algorithms leveraging the graph topology to solve a binary classification problem that we call Edge Sign Prediction. Second, we consider graphs with k ≥ 2 available semantics for edge. In that case of multilayer graphs, we are not provided with any edge label, but instead are given one feature vector for each node. Faced with such an unsupervised Edge Attributed Clustering problem, we devise a quality criterion expressing how well an edge k-partition and k semantical vectors explains the observed connections. We optimize this goodness of explanation criterion in vectorial and matricial forms, and show how those two methods perform on synthetic data.Show less >
Language :
Anglais
Collections :
Source :
Files
- https://hal.inria.fr/tel-01824215/document
- Open access
- Access the document
- https://hal.inria.fr/tel-01824215/document
- Open access
- Access the document
- https://hal.inria.fr/tel-01824215/document
- Open access
- Access the document
- document
- Open access
- Access the document
- Geraud.pdf
- Open access
- Access the document