Mohamed Morchid - Recherche

Thèmatiques de Recherche
Projets et Collaborations
Responsabilités Scientifiques et Diffusion
Comités de Programme et Comités Scientifiques
Encadrement
Campagnes d'evaluation

Maître de Conférences
Séjour de Recherche à Microsoft
Attaché Temporaire de Recherche
Doctorat en Informatique

Thèmatiques de Recherche

Intelligence Artificielle
Réseaux de Neurones
Traitement automatique du langage

Projets et Collaborations

Projets financés
Responsable de Projets financés
Participant au montage et à la réalisation de Projets ANR

Collaborations academiques

Collaborations industrielles

Responsabilités Scientifiques et Diffusion

Responsabilités scientifiques
Présentations et séminaires
Vulgarisation
Sociétés Savantes

Comités de Programme et Comités Scientifiques

Activités editoriales
Expert pour l'Arbitrage de Projets de Recherche
Comités de Programme (TPC/PC)
Relecteur (Reviewer) de Journaux Internationaux

Encadrement

Thèses soutenues
Thèses en cours
Encadrement de stagiaires

Campagnes d'evaluation

Les papiers sont disponibles ici

2016 : DSTC5'16 - Représentation des états de dialogue.
2014 : IWSLT'14 - Traduction automatique de textes de l'anglais vers le polonais et de l'anglais vers le slovène.
2013 : MediaEval'13 - Tâches de "Crowdsourcing", "MusiClef tracks" et "Spoken Web Search".
2013 : Deft'13 - Classification de recettes de cuisine selon le niveau de difficulté et le type de plat.
2013 : RepLabs'13 - Evaluation de l'impact d'un message court (tweet) (positif / négatif / neutre) sur la réputation d'une marque.
2012 : Inex'12 - Contextualisation d'un message court (tweet) pour améliorer sa conpréhension.
2011 : MediaEval'11 - Detection d'événements sociaux dans des données multimedia (tags associés à des images).

Maître de Conférences (2015-...)

Depuis septembre 2015, je suis Maître de Conférences au sein de l'Université d'Avignon (UAPV). Mes travaux de recherche ultérieurs s'intéressaient au traitement de documents parlés fortement bruités dans des espaces de faibles dimension. Mes objectifs scientifiques présents reflètent mon fort intérêt pour des champs de recherche plus vastes, dans l'optique d'étudier le rôle que joue le contenu ainsi que les caractéristiques de représentation du document dans différentes taches de Traitement Automatique du Langage. Ainsi, mes travaux de recherche actuels se concentrent sur de nouvelles problématiques de recherche liées à la représentation de mot dans des espaces communs issus des réseaux de neurones profonds (DNN) lors de tâches de classification de documents (thèse de K. Janod). Ainsi, mon spectre de recherche c'est élargi à des thématiques plus vastes regroupant les réseaux de neurones et leur application au traitement automatique du langage. Je participe également à la Structure Federative de Recherche (SFR) Agorantic ainsi qu'à divers projets de l'Agence Nationale de la Recherche (ANR) et campagnes d'évaluation.

Représentations robustes du contenu parlé dans des espaces cachés issus de réseaux de neurones (Travail réalisé en collaboration avec Killian Janod).

Les méthodes de compréhension de la parole visent à extraire des éléments représentatifs du contenu informatif depuis le signal de parole. On distingue principalement deux catégories dans la compréhension du signal de parole : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes, des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore liées à l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, je montre que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction[1]. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, je propose deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension[2]. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur[3]. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles. J'ai conduit en parallèle de ces travaux sur les autoencoders, un travail en collaboration avec l'entreprise EDD spécialisée en traitement de la parole située à Paris, autour de la thèse de Mohamed Bouaziz, d'autres travaux connexes car traitant des réseaux de neurones dans le contexte ici du traitement de flux parallèles.

Classification de séquences dans des flux parallèles à l'aide de réseaux de neurones récurrents (Travail réalisé en collaboration avec Mohamed Bouaziz).

Les flux de contenu audiovisuel peuvent être représentés sous forme de séquences d'événements (par exemple, des suites d'émissions, de scènes, etc.). Ces données séquentielles se caractérisent par des relations chronologiques pouvant exister entre des événements successifs. Dans le contexte d'une chaîne TV, la programmation des émissions suit une cohérence définie par cette même chaîne, mais peut également être influencée par les programmations des chaînes concurrentes. Dans de telles conditions, les séquences d'événement des flux parallèles pourraient ainsi fournir des connaissances supplémentaires sur les événements d'un flux considéré.
La modélisation de séquences est un sujet classique qui a été largement étudié, notamment dans le domaine de l'apprentissage automatique. Les réseaux de neurones récurrents de type Long Short-Term Memory (LSTM) ont notamment fait leur preuve dans de nombreuses applications incluant le traitement de ce type de données. Néanmoins, ces approches sont conçues pour traiter uniquement une seule séquence d'entrée à la fois. J'ai élaboré des approches capables d'intégrer conjointement des données séquentielles provenant de plusieurs flux parallèles. Le contexte applicatif de ce travail réalisé en collaboration avec l'entreprise EDD, consiste en une tâche de prédiction du genre d'une émission télévisée. Cette prédiction peut s'appuyer sur les historiques de genres des émissions précédentes de la même chaîne mais également sur les historiques appartenant à des chaînes parallèles. Nous proposons une taxonomie de genres adaptée à de tels traitements automatiques ainsi qu'un corpus de données contenant les historiques parallèles pour 4 chaînes françaises. J'ai proposé deux méthodes originales permettant d'intégrer les séquences des flux parallèles. La première, à savoir, l'architecture des LSTM parallèles (PLSTM)[4] consiste en une extension du modèle LSTM. Les PLSTM traitent simultanément chaque séquence dans une couche récurrente indépendante et combinent les sorties de chacune de ces couches pour produire la sortie finale. Pour ce qui est de la seconde proposition, dénommée MSE-SVM[5], elle permet de tirer profit des avantages des méthodes LSTM et SVM. D'abord, des vecteurs de caractéristiques latentes sont générés indépendamment, pour chaque flux en entrée, en prenant en sortie l'événement à prédire dans le flux principal. Ces nouvelles représentations sont ensuite fusionnées et données en entrée à un algorithme SVM. Les approches PLSTM et MSE-SVM ont prouvé leur efficacité dans l'intégration des séquences parallèles en surpassant respectivement les modèles LSTM et SVM prenant uniquement en compte les séquences du flux principal. Les deux approches proposées parviennent bien à tirer profit des informations contenues dans les longues séquences. En revanche, elles ont des difficultés à traiter des séquences courtes. Ces travaux entreprit sur les réseaux de neurones récurrent additionnés à mes précédent travaux sur les nombres hyper-complexes pour la compréhension de documents parlés[6], m'a naturellement conduit à me questionner sur l'apport de telles structures (Quaternions) pour la représentation de séquences multi-flux ou multidimensionnelles.

Réseaux de neurones fondés sur les Quaternions pour le traitement automatique du langage et pour la reconnaissance de forme (Travail réalisé en collaboration avec Titouan Parcollet).

Les représentations neuronales présentées précédemment (autoencoders, RNN, etc.) permettent de traiter des données provenant de plusieurs flux d'information souvent portées sur des mediums hétérogènes. Le travail accompli sur les réseaux de neurones de nombres hyper-complexes permet de faire l'interface entre les travaux entrepris pour la représentation robuste dans des encoder-decoders, le traitement de séquence multi-flux (RNN) dans des contextes applicatifs réels comme la compréhension de documents parlés, la reconnaissance automatique de la parole, ou le traitement de l'image.
Ainsi, les réseaux de neurones de nombre hyper-complexes permettent de véhiculer l'information générée sur différents flux ou temporalités inter-dépendantes mais disposant d'une information instantanée propre. Parmi les nombres hypercomplexes, les quaternions contiennent une partie réel ainsi qu'une partie imaginaire composée de trois éléments contrairement au nombre complexe ``traditionnels'' qui en contiennent que un seul élément imaginaire. Ces quaternions ont la propriété de pouvoir donc stocker quatre informations représentant une entité à des instants différents ou différentes vues d'un seul et même élément dans des espaces de représentation différents. Une particularité propre aux quaternions est également liée à l'aspect structurel de son algèbre lui conférant certaines propriétés permettant de visionner les operations les plus basiques comme la multiplication, à travers le spectre de déplacement ou mouvement géométriques. Ainsi, la multiplication entre deux quaternions représente un mouvement géodésique autour d'un vecteur porteur de cette transformation. Cette transformation est matérialisée dans l'espace euclidien par une multiplication propre à cet algèbre appelée ``multiplication d'Hamilton'', du nom du chercheur Anglais à l'origine de cet algèbre.
Ces dernières années, je me suis donc proposé d'étendre les travaux entamés durant ma thèse[6] sur les quaternions, au réseaux de neurones en collaboration avec Titouan Parcollet (Doctorant en CIFRE avec l'entreprise Orkis) et Georges Linarès (Directeur de thèse). Ces travaux ont dans un premier temps eu pour objectif d'évaluer le modèle existant de réseaux de neurones de quaternions par Arena en 1997 dans un contexte applicatif réel de compréhension de dialogues issus du corpus DECODA. Les résultats ont montré que des représentations thématiques des mots à des instants conversationnels différents dans le dialogue, doivent être considérées de manière jointe lors de la phase d'apprentissage, pour permettre une bonne classification des dialogues en fonction des thèmes abordés par l'utilisateur. Ces résultats ont été validés lors des différentes expérimentations[7] sur des topologies neuronales différentes.
Nous avons donc par la suite étendu ce travail à la compression de données bruités issues de ce même corpus de dialogues DECODA à laide d'encoder-decoder (réseaux de neurones ayant comme entrée et sortie le même vecteur de représentation). C'est encoder-decoder permettent de compresser l'information donnée en entrée dans un espace de plus faible dimension (encoder), puis de reconstituer le vecteur à partir de cette représentation réduite (decoder). J'ai proposé donc des autoencoder de quaternion permettant de représenter dans un espace de faible dimension, des données multidimensionnelles[8]. Néanmoins, les encoder-decoder ou autoencoder, ne sont pas ou très peu robuste aux variations de représentation. En effet, si un vecteur n'appartenant pas au corpus d'apprentissage est présenté en entrée, le système aura plus ou moins de mal à le reconstitué depuis sa représentation abstraite réduite. Ce phénomène de sur-apprentissage ou `` over-fitting'' est souvent rencontré, et les dispositifs permettant de pallier cette difficulté existent. Parmi celles-ci, l'introduction d'un bruit lors de la phase d'apprentissage sur les données d'entrée, contraint l'autoencoder à reconstituer le bon vecteur sachant qu'en entrée celui-ci fut altéré par une fonction de bruit. En effet, lors de l'apprentissage, l'erreur constatée est évaluée entre le vecteur en sortie bruité et le vecteur non bruité ou ``propre''. J'ai donc proposé dans un premier temps de transposer les bruits connus depuis l'espace des réels, vers celui des quaternions, puis d'adapter le bruit le plus couramment utilisé, le bruit Gaussien. Ce bruit est additif, dans le sens où l'on ajoute un élément aléatoire à la distribution observée pour altérer celle-ci. Pour ce faire, j'ai donc transformé ce bruit additif en un bruit adapté à l'algèbre fondé sur les rotations des quaternions, par une rotation du vecteur portant la transformation liée à un quaternion, selon un angle défini de manière Gaussienne[8]. Les résultats ont pu montré que ce bruit qui fait sens dans cette algèbre des quaternions permet d'obtenir de meilleurs résultats de reconstruction du vecteur d'entrée que le bruit additif.
L'avènement des réseaux de neurones dans diverses applications de traitement automatique du langage, entre autres, est essentiellement dû à leur fort potentiel d'abstraction issu de la ``profondeur'' du réseau. Cette profondeur permet d'empiler les couches cachées représentant chacune un niveau d'abstraction dont la granularité est plus ou moins fine selon le degré de profondeur. Ces réseaux profonds ou Deep Neural Networks (DNN) convergent difficilement vers une solution optimale s'ils ne sont pas correctement initialisés. Nous avons donc par la suite proposé des réseaux de neurones profonds de quaternions initialisés à l'aide des autoencoders de quaternions[9]. Les résultats ont confirmé l'apport des couches successives du réseaux ainsi que de l'initialisation à l'aide des autoencoders.
La majeur difficulté avec les données actuelles, est leur nature séquentielle et multidimensionnelle. Les réseaux convolutionnels permettent de traiter des données multidimentionnels comme les images ou toutes informations pouvant être portée sur des espaces à plusieurs dimensions. Nous avons alors ensuite proposé des réseaux de neurones de quaternions convolutionnels pour le traitement de l'image[10], la compréhension de la parole[11] et pour la reconnaissance de la parole[12][13]. Les expérimentations sur le corpus TIMIT ont montrées que les quaternions permettent une meilleure représentation des dépendances entre les différents instants du signal de parole lors de la production du phonème, qu'un vecteur de réels dans lequel toutes ces informations sont concaténées[12]. Ce travail a été réalisé en collaboration avec Yoshua Bengio et l'Institue MILA du Canada. Ce travail est la première pierre de l'édifice d'une collaboration pérenne. En effet, je poursuis ces travaux en étroite collaboration avec les chercheurs du MILA pour étendre ces travaux aux réseaux de neurones récurrents (RNN) de quaternion[14] et dans divers domaines applicatifs. Nous avons également étendu ce travail au LSTM bidirectionnelles pour le traitement de la parole[15].

Réseaux de neurones récurrents parcimonieux pour le traitement du langage.

Le problème majeur des réseaux de neurones récurrents (RNN) est la compréhension du mécanisme de mémoire et du comportement des cellules en charge de ''se rappeler'' ou d'''oublier'' l'information. De plus, les RNNs ne révèlent pas les dépendances à long-terme et de nouveaux RNN contenant des portes ont été proposés pour remédier à cet inconvénient, tel que les Long Short-Term Memory (LSTM). Ce modèle nécessite $4$ portes pour apprendre les dépendances à court et à long-terme pour une séquence donnée d'éléments de base, et requiert donc de plus, un plus long temps lié à la phase d'apprentissage. Récemment, une nouvelle famille de RNN appelée Gated Recurrent Unit (GRU a été introduite. Le GRU contient peu de portes (portes de réinitialisation et de mise à jour) mais est basée sur le regroupement de portes sans prendre en compte les relations latentes entre les dépendances à court et à long terme. La gestion des dépendances dans le GRU à travers des unités cachées est donc similaire pour tous les neurones issus de la couche cachée du RNN. De plus, l'apprentissage des RNN nécessite une grande quantité de données et, malgré l'avènement des cartes GPU qui permettent d'apprendre des modèles plus rapidement que avec les cartes CPU, le temps de traitement reste assez important. Mes travaux les plus actuels traitent de ces problématiques.
Pour surmonter ces problèmes, j'ai d'abord proposé un nouveau RNN qui tire parti des technologies LSTM, GRU (dépendances à court et à long terme) et de la Leaky Unit (LU) (apprentissage rapide) appelée Internal Memory Gate (IMG). L'efficacité et la robustesse de l'IMG-RNN proposé ont été illustrées lors de la tâche de classification du corpus de dialogues du projet DECODA, qui nous permet d'évaluer la capacité de chaque RNN à coder des dépendances à court terme[16]. Ces expérimentations ont montré que le IMG obtient des résultats équivalent, voire meilleurs que les réseaux RNN, LSTM, GRU et LU tout en nécessitant moins de temps lors de la phase d'apprentissage (sauf pour le LU évidement).
Ces expérimentations ont été conduits sur un corpus de petite taille (750 document pour l'apprentissage) et traite donc essentiellement les dépendances à court-termes. J'ai donc, ensuite, proposé de mieux comprendre comment les états cachés gèrent les dépendances à court ou long terme dans différents RNN. Durant cette étude, j'ai montré que les RNN classique ne traite pas convenablement les dépendances entre les éléments fortement éloignés dans un document et donc introduit un nouveau RNN appelé Parsimonious Memory Unit (PMU). Le PMU est basé sur l'hypothèse forte que les dépendances à court et à long terme sont liées et que le rôle de chacun des neurones cachés doit être différent pour mieux gérer ces dépendances. Les expériences menées à la fois sur un petit ensemble de données de dialogues parlés (à court terme) du projet DECODA, sur un corpus de documents textuels volumineux (à long terme) des 20-Newsgroups et sur une tâche de modélisation du langage, montrent que le PMU-RNN proposé obtient de meilleures performances (efficacité) avec un temps de traitement réduit (amélioration de la portabilité) avec un gain de 50\%. De plus, les expériences sur l'activité des portes montrent que le PMU proposé gère mieux les dépendances que le modèle GRU-RNN[17] avec un rôle différents pour chacun des neurones cachés.

En résumé, mes activités scientifiques comportent plusieurs axes de recherche principaux :

- Traitement Automatique du Langage (TAL)
- Intelligence Artificielle (IA)
- Réseaux de neurones récurrents (RNN)
- Représentations complexes dans les réseaux de neurones

Sejour de Recherche à Microsoft (2013-2014)

J'ai effectué un séjour de recherche au sein du laboratoire Microsoft Research (Cambridge, GB) sous la direction de Professeur Youssef Hamadi durant 3 mois (nov. 2013 - fév. 2014) sur le projet de l'Assistant PowerPoint. Ce projet a pour objectif de fourninr aux utilisateurs Microsoft du contenu pertinent. J'ai donc proposé des méthodes originales permettant à ces utilisateurs d'enrichir leurs présentations PowerPoint avec du contenu informatif extrait d'espace thématiques appris sur un corpus composé des présentations précédentes de ce même utilisateur. Ce projet a été sélectionné pour etre présenté lors de la rencontre annuelle TechFest'14 (40 projets soumis pour 22 selectionnés). Durant ce meeting, les scientifiques de Microsoft Research provenant du monde entier, discutent ensemble et présentent leurs derniers projets qui englobent un large spectre d'investigations sur l'objet scientifique de l'informatique. Vous trouverez une demonstration de l'Assistant PowerPoint dans la section Demo.

Attaché Temporaire de Recherche (2014-2015)

J'ai été Attaché Temporaire d'Enseignement et de Recherche au sein du laboratoire Inforatique d'Avignon (LIA) de l'Université d'Avignon et des Pays de Vaucluse (UAPV) durant la période allant de septembre 2014 à août 2015. Mes travaux de recherches portaient durant cette periode dans un premier temps à étendre le paradigme de compression et de fusion de l'information à des données textuelles (DECODA, Reuters) dans l'espace robuste de variabilité totale. Ces travaux ont été publiés dans le journal d'audience internationale IEEE/ACM Transactions on Audio, Speech, and Language Processing.
Toujours dans le contexte de dialogues bruités issus du corpus DECODA, j'ai ensuite proposé de comparer différentes méthodes de normalization et de débruitage de documents audios fortement bruités issus du projet DECODA (travaux publiés lors de la conférence d'audience internationale ISCA InterSpeech).
Les méthodes actuelles de traitement automatique du langage naturel qui soit écrit ou parlé, emploies des modèles statistiques performants issus de l'apprentissage automatique (Machine Learning). Ceci est particulièrement le cas des méthodes issues des réseaux de neurones profonds (DNN). J'ai donc eu le plaisir de collaborer avec l'équipe Language and Speech Technology (LST) de l'Université du Mans autour de Professeur Yannick Estève. Nous avons alors conjointement proposé d'étendre la représentation fondée sur les c-vecteurs, à des vecteurs sémantiques dans un réseau de neurones profond (DNN), lors de la recherche du thème majoritaire contenu dans un dialogue du corpus DECODA (travaux publiés lors dans le chapitre d'un livre Natural Language Dialog Systems and Intelligent Assistants).
J'ai finalement proposé d'étudier l'apport de différentes représentations thématiques (Latent Dircihlet Allocation (LDA), Supervised Latent Dircihlet Allocation (sLDA), ...) pour l'identification de thèmes dans des dialogues issus du corpus DECODA en collaboration avec Professeur Youssef Hamadi de Microsoft Research Cambridge (GB). Ces travaux ont été publiés lors de la conférence d'audience internationale CICLing.

L'apprentissage de tels modèles thématiques est souvent très couteux en termes de temps de calcul. J'ai donc, dans un second temps, comparé la qualité ainsi que le temps d'apprentissage de modèles thèmatiques LDA appris depuis le corpus de documents Wikipédia puis depuis ce même corpus de documents mais résumé. J'ai ainsi montré que ces derniers modèles sont, dans le cas le plus défavorable, de qualité équivalente mais toujours dans un temps proportionel au taux de compression (pourcentage de résumé) des documents composant le corpus d'apprentissage Wikipédia (travaux publiés lors de la conférence d'audience internationale CICLing).

Le laboratoire Informatique d'Avignon (LIA) participe activement à la Structure Federative de Recherche (SFR) Agorantic. J'ai eu le plaisir de collaborer avec des scientifiques de l'UMR ESAPCE autour de Didier Josselin de l'UAPV sur un même objet scientifique porté sur la localisation automatique de messages courts (tweets) concernant l'événement "JeSuisCharlie" survenu au début du mois de janvier 2015. Les travaux menés ont montré qu'une représentation dans un espace thématique multi-varié (Auhtor-Topic Model) permet d'associer le contenu du message (mots) et sa localisation (pays). Cette modélisation obtient une localisation éfficace du message court bruité (environ 95% de précision). Ces travaux ont été publiés lors des conférences d'audience internationale SPATIAL STATISTICS pour la partie informatique ainsi que ISPRS GW pour la partie géomatique.

Doctorat en Informatique (2011-2014)

Sujet : Représentations Robustes de Documents Bruités dans des Espaces Homogènes

Defendue le 25 Novembre 2014 à l'Université d'Avignon, France.

Composition du Jury :

Frédéric BéCHET (Professeur) Université d'Aix-Marseille, Marseille, France	President
Jérôme R. BELLEGARDA (Apple Distinguished Scientist) Apple Inc., Cupertino, USA	Rapporteur
Laurent BESACIER (Professeur) Université Joseph Fourier, Grenoble, France	Rapporteur
François YVON (Professeur) Université Paris-Sud, Paris, France	Rapporteur
Youssef HAMADI (Senior Scientist) Microsoft Research, Cambridge, UK	Examinateur
Benjamin PIWOWARSKI (Chargé de recherche - CNRS) LIP6, Paris, France	Examinateur
Georges LINARES (Professeur) Université d'Avignon, France	Directeur
Richard DUFOUR (Assistant Professor) Université d'Avignon, France	Co-Encadrant

Résumé :

En recherche d'information, les documents sont le plus souvent considérés comme des "sacs-de-mots". Ce modèle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altérer la forme lexicale. Ces bruits peuvent être produits par différentes sources : forme peu contrôlée des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilités lexicales et grammaticales dans les forums du Web\dots Le travail présenté dans cette thèse s'intéresse au problème de la représentation de documents issus de sources bruitées.

La thèse comporte trois parties dans lesquelles différentes représentations des contenus sont proposées. La première partie compare une représentation classique utilisant la fréquence des mots à une représentation de haut-niveau s'appuyant sur un espace de thèmes. Cette abstraction du contenu permet de limiter l'altération de la forme de surface du document bruité en le représentant par un ensemble de caractéristiques de haut-niveau. Nos expériences confirment que cette projection dans un espace de thèmes permet d'améliorer les résultats obtenus sur diverses tâches de recherche d'information en comparaison d'une représentation plus classique utilisant la fréquence des mots. Le problème majeur d'une telle représentation est qu'elle est fondée sur un espace de thèmes dont les paramètres sont choisis empiriquement.

La deuxième partie décrit une nouvelle représentation s'appuyant sur des espaces multiples et permettant de résoudre trois problèmes majeurs : la proximité des sujets traités dans le document, le choix difficile des paramètres du modèle de thèmes ainsi que la robustesse de la représentation. Partant de l'idée qu'une seule représentation des contenus ne peut pas capturer l'ensemble des informations utiles, nous proposons d'augmenter le nombre de vues sur un même document. Cette multiplication des vues permet de générer des observations "artificielles" qui contiennent des fragments de l'information utile. Une première expérience a validé cette approche multi-vues de la représentation de textes bruités. Elle a cependant l'inconvénient d'être très volumineuse, redondante, et de contenir une variabilité additionnelle liée à la diversité des vues.

Dans un deuxième temps, nous proposons une méthode s'appuyant sur l'analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle représentation robuste, de dimension réduite, ne contenant que la partie "utile" du document tout en réduisant les variabilités "parasites". Lors d'une tâche de catégorisation de conversations, ce processus de compression a confirmé qu'il permettait d'augmenter la robustesse de la représentation du document bruité.

Cependant, lors de l'élaboration des espaces de thèmes, le document reste considéré comme un "sac-de-mots" alors que plusieurs études montrent que la position d'un terme au sein du document est importante. Une représentation tenant compte de cette structure temporelle du document est proposée dans la troisième partie. Cette représentation s'appuie sur les nombres hyper-complexes de dimension 4 appelés quaternions. Nos expériences menées sur une tâche de catégorisation ont montré l'efficacité de cette méthode comparativement aux représentations classiques en "sacs-de-mots".

Mots clés : Représentation robuste, document bruité, allocation latente de Dirichlet, multi-vues, analyse factorielle, quaternion.

Projets financés

Responsable de Projets financés

Participant au montage et à la réalisation de Projets ANR

Collaborations academiques

Collaborations industrielles

Responsabilités scientifiques

Présentations et séminaires

Vulgarisation

Sociétés Savantes

Activités editoriales

Expert pour l'Arbitrage de Projets de Recherche

Comités de Programme (TPC/PC)

Relecteur (Reviewer) de Journaux Internationaux

Thèses soutenues

Thèses en cours

Encadrement de stagiaires