Thèmatiques de Recherche
Projets et Collaborations
Responsabilités Scientifiques et Diffusion
Comités de Programme et Comités Scientifiques
Encadrement
Campagnes d'evaluation

Maître de Conférences
Séjour de Recherche à Microsoft
Attaché Temporaire de Recherche
Doctorat en Informatique

Thèmatiques de Recherche

  • Intelligence Artificielle
  • Réseaux de Neurones
  • Traitement automatique du langage

Projets et Collaborations

Projets financés

Responsable de Projets financés
  • 2020-2023 : ANR - Appel à projets générique 2019 - Projet AISSPER - Rôle : Coordinateur. Objectifs : Intelligence artificielle pour la compréhension du langage parlé contrôlée sémantiquement. Partenaires : LIUM (Le Mans), Orkis (Aix-en-Provence).
  • 2017-2020 : ANRT - CIFRE - Société Orkis - Rôle : Porteur. Objectifs : Réseaux de neurones profonds fondés sur l’algèbre des complexes et hyper-complexes pour le traitement du langage. L’ambition de la thèse est de proposer et de révéler ces descripteurs de hauts-niveaux latents à l’aide de réseaux de neurones profonds de nombres complexes et hyper-complexes pour le traitement automatique et la compréhension de la parole (thèse de Titouan Parcollet). 12K€/an
  • 2016-2020 : GDR - MAGIS - (CNRS). Rôle : Résponsable pour le LIA, 20K€. Objectifs : Méthodes et Applications pour la Géomatique et l'Information Spatiale. Financement obtenu à l'aide des publications internationales communes issues de collaborations entre l'équipe CNRS ESPACE et le LIA. Partenaires : CNRS UMR ESPACE, ...

Participant au montage et à la réalisation de Projets ANR
  • 2014-2018 : Projet GaFes - Etude des usages via des données collectées sur Internet et ré-éditorialisation des contenus captés ou produits par les internautes. Partenaires : Centre Norbert Elias, Syllabs, GECE, EURECOM.
  • 2013-2015 : Projet ContNomina - Reconnaissance des noms propres et contextualisation des systèmes de reconnaissance de la parole. Partenaire : LORIA (Université de Lorraine).
  • 2012-2015 : Projet DECODA - DEpouillement automatique de COnversations provenant de centres D'Appels. Partenaire : LIF (Université d'Aix-Marseille), RATP (industrielle, Paris), SONEAR (industrielle, Avignon).
  • 2011-2014 : Projet SuMACC - Apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts. Partenaire : EURECOM (Université de Sophia Antipolis, Nice), WIKIO (industrielle, Paris), Syllabs (industrielle, Paris).
Collaborations academiques
Collaborations industrielles
  • 2015 : Microsoft Research, Cambridge (Grande-Bretagne)
  • Réalisation de l'Assitant PowerPoint et extention des méthodes proposées pour l'ensemble des logiciels de la Suite Office à parraître.

  • 2014 : Wikio eBuzzing, (France), Syllabs (France)
  • Article paru dans la conférence d'audience internationale ISCA TSD 2014
    Sumacc Project's Corpus: A Topic-based Query Extention Approach to Retrieve Multimedia Documents.

  • 2013 - ... : Orkis, (France)
  • Travaux sur la représentation de termes ou documents dans l'espace des words and sentences embeddings ainsi que l'application de la théorie des possibilités pour la réalisation de modèle de langage (Thèse de K. Janod soutenue en 2017).

    Travaux en cours permettant diverses tâches de traitement automatique du langage à l'aide de réseaux de neurones de quaternions (Thèse de T. Parcollet en cours).

  • 2013 : EDD, (France)
  • Travaux en cours sur la délinéarisation et la structuration de flux multimedia. (Thèse de M. Bouaziz soutenue en 2017).

Responsabilités Scientifiques et Diffusion

    Responsabilités scientifiques
    • Responsable d'un axe de recherche au sein de la SFR Agorantic de l'UAPV
    • Depuis mars 2017 : Responsable avec Professeur Graham Ranger de l'Axe 5 de la Structure Fédénative de Recherche (SFR) Agorantic de l'UAPV appelé "Structuration et Exploitation de Corpus (SEC)". La structuration de l’information contenue dans le document consiste à extraire un ensemble fini de descripteurs de plus ou moins haut niveau ou des représentations concises et caractéristiques de ce contenu. Cette structuration permet de traiter de grands ensemble de données souvent connues sous le nom de Big Data, depuis un ensemble réduit d’éléments caractéristiques des contenus. Cette tâche de structuration se situe en amont de processus de traitement de l’information de plus haut niveau tels que la catégorisation, l’extraction d’information ou l’indexation. Il est donc nécessaire de définir des procédures de traitement de l’information permettant d’homogénéiser la gestion (format des données, processus de sauvegarde et de diffusion, définition d’éléments caractéristiques, etc.) ainsi que la diffusion de bases de connaissances provenant de disciplines scientifiques hétérogènes.
      Implication : Animation de l'axe de recherche SEC; Organisation de séminaires et colloques autour de l'axe de recherche ainsi que, plus globalement, des événements liés à la SFR Agorantic (Symposium, séminaires transversaux, etc.); Examinateurs de projets et bourses soumis (projets Agorantic, bourses doctorales Agorantic et P. Bérgé, etc.)

    • Comités d'organisation
    • 2012 : EACL, European Chapter of the Association for Computational Linguistics.

    Présentations et séminaires
    • 2016 : Université d'Avignon et des Pays de Vaucluses (UAPV) (France)
    • Lors de la rencontre inter-disciplinaire organiser dans le cadre de la Structure Fédénative de Recherche (SFR) Agorantic de l'UAPV, j'ai dréssé un panorama de différentes méthodologies autour des réseaux de neurones.

    • 2015 : Laboratoire d’Informatique Fondamentale de Marseille (LIF) (France)
    • Séminaire présentant mes travaux de recherche réalisés lors de mon doctorat sur la représentation dans des espaces abstraits (thématiques) de documents bruités.

    • 2015 : Centre de recherche Inria Nancy - Grand Est (France)
    • Séminaire présentant mes travaux sur la représentation dans l'espace des i-vecteurs de documents bruités.

    • 2014 : Apple, Infinite Loop, Cupertino (Etats-Unis)
    • Présentation des travaux effectués sur la représentation robuste de documents fortement bruités issus de transcriptions automatiques de documents parlés. J'ai eu le plaisir de détailler une nouvelle modélisation de documents bruités dans un espace de dimension réduit, appelé espace de variabilité totale, dans le cas de dialogues parlés entre des utilisateurs et des agents de la RATP (projet DECODA).

    • 2013 : Microsoft Research, Cambridge (Grande-Bretagne)
    • J'ai présenté, lors de l'audition de sélection en vu de la recontre annuelle Microsoft TechFest 2014, les travaux effectués lors de mon séjour de recherche portant sur la modélisation des présentations PowerPoint, dans l'objectif de fournir du contenu informatif à l'utilisateur (résumé d'une entité, images, information numérique tel que le PIB d'un pays, validation de faits, ...). Ce travail a été réalisé dans le cadre du projet PowerPoint Assistant. À la suite de cette présentation, le projet a été sélectionné (22 sélectionnés sur 40) pour être présenté lors de la rencontre annuelle de Microsoft TechFest 2014.

    Vulgarisation
    Sociétés Savantes

Comités de Programme et Comités Scientifiques

Encadrement

    Thèses soutenues
    • Killian Janod (2013-2017).
      Titre : La représentation des documents par réseaux de neurones pour la compréhension de documents parlés.
      Thèse CIFRE avec l'entreprise Orkis. Actuellement travaillant au service R&D chez ISMART. 8 publications communes (2 revue internationale, 3 conférences internationales et 4 conférences nationales)
    • Mohamed Bouaziz (2013-2017).
      Titre : Réseaux de neurones récurrents pour la classification de séquences dans des flux audiovisuels parallèles.
      Thèse CIFRE avec l'entreprise EDD. Actuellement travaillant au service R&D chez Airbus Defence and Space. 6 publications communes (3 conférences internationales, 2 conférences nationales et 1 workshop)
    Thèses en cours
    • Titouan Parcollet (2017-...).
      Titre : Réseaux de neurones profonds fondés sur l’algèbre des complexes et hyper-complexes pour le traitement du langage.
      Thèse CIFRE avec l'entreprise Orkis débutée en mars 2017.
    Encadrement de stagiaires
    • Maxime Bisotto - Licence 3 (3 mois débuté en février 2019). Sujet Agorantic : Développer une plateforme web permettant aux chercheurs de l'université d'Avignon de partager leurs corpus (Ensemble de données de recherche, généralement sous forme textuelle) avec leurs collègues et leurs étudiants. Le stagiaire devra participer à la conception – architecture logicielle et modèle relationnelle de la base de données -, développer avec un outil de gestion des sources et procéder à des tests – unitaires et fonctionnels. Co-direction avec Graham Ranger et Emili Volpi (Agorantic).
    • Rida El Allami - Licence 3 (3 mois débuté en février 2019). Sujet Agorantic : Développer une plateforme web permettant aux chercheurs de l'université d'Avignon de partager leurs corpus (Ensemble de données de recherche, généralement sous forme textuelle) avec leurs collègues et leurs étudiants. Le stagiaire devra participer à la conception – architecture logicielle et modèle relationnelle de la base de données -, développer avec un outil de gestion des sources et procéder à des tests – unitaires et fonctionnels. Co-direction avec Graham Ranger et Emili Volpi (Agorantic).
    • Nour Elhouda Ayari - Ingénieur de Sup’com, Tunisie (6 mois débuté en février 2018). Titre : Prediction de la mobilité fondée sur l’intélligence artificielle. Co-direction avec Majed Haddad et Rachid Elazouzi.
    • Titouan Parcollet - Ingénieur d'etude (6 mois débuté en septembre 2016). Titre : Réseaux de neurones dans le corps des quaternions : application à la compréhension du lanage. Co-direction avec Georges Linarès.
    • Afef Arfoui - Ingénieur de INPT, Maroc (6 mois débuté en février 2018). Titre : Contrôle de l’évaluation de l’expérience utilisateur : mesures, métriques. Co-direction avec Majed Haddad et Rachid Elazouzi.
    • Titouan Parcollet - Master 2 (6 mois débuté en février 2016). Titre : Réseaux de neurones dans le corps des quaternions : application au désentrelacement des histoires dans une série TV. Co-direction avec Georges Linarès.
    • Amina Brahem - Ingénieur (6 mois débuté en mars 2014). Titre : Traitement des signaux electroencephalographiques par des méthodes issues du traitement de la parole. Co-encadrement avec Georges Linarès.
    • Etienne Papegnies - Master 1 (3 mois débuté en juin 2014). Titre : Traitement des signaux electroencephalographiques par des méthodes issues du traitement de la parole. Co-direction avec Georges Linarès.
    • Mathias Quillot - Licence 3 (2 mois débuté en juin 2014). Titre : Réalisation d'un démonstrateur pour le projet ANR ContNomina. Co-direction avec Richard Dufour et Georges Linarès.

Campagnes d'evaluation

Les papiers sont disponibles ici

  • 2016 : DSTC5'16 - Représentation des états de dialogue.
  • 2014 : IWSLT'14 - Traduction automatique de textes de l'anglais vers le polonais et de l'anglais vers le slovène.
  • 2013 : MediaEval'13 - Tâches de "Crowdsourcing", "MusiClef tracks" et "Spoken Web Search".
  • 2013 : Deft'13 - Classification de recettes de cuisine selon le niveau de difficulté et le type de plat.
  • 2013 : RepLabs'13 - Evaluation de l'impact d'un message court (tweet) (positif / négatif / neutre) sur la réputation d'une marque.
  • 2012 : Inex'12 - Contextualisation d'un message court (tweet) pour améliorer sa conpréhension.
  • 2011 : MediaEval'11 - Detection d'événements sociaux dans des données multimedia (tags associés à des images).


Maître de Conférences (2015-...)

Depuis septembre 2015, je suis Maître de Conférences au sein de l'Université d'Avignon (UAPV). Mes travaux de recherche ultérieurs s'intéressaient au traitement de documents parlés fortement bruités dans des espaces de faibles dimension. Mes objectifs scientifiques présents reflètent mon fort intérêt pour des champs de recherche plus vastes, dans l'optique d'étudier le rôle que joue le contenu ainsi que les caractéristiques de représentation du document dans différentes taches de Traitement Automatique du Langage. Ainsi, mes travaux de recherche actuels se concentrent sur de nouvelles problématiques de recherche liées à la représentation de mot dans des espaces communs issus des réseaux de neurones profonds (DNN) lors de tâches de classification de documents (thèse de K. Janod). Ainsi, mon spectre de recherche c'est élargi à des thématiques plus vastes regroupant les réseaux de neurones et leur application au traitement automatique du langage. Je participe également à la Structure Federative de Recherche (SFR) Agorantic ainsi qu'à divers projets de l'Agence Nationale de la Recherche (ANR) et campagnes d'évaluation.

Représentations robustes du contenu parlé dans des espaces cachés issus de réseaux de neurones (Travail réalisé en collaboration avec Killian Janod).

Les méthodes de compréhension de la parole visent à extraire des éléments représentatifs du contenu informatif depuis le signal de parole. On distingue principalement deux catégories dans la compréhension du signal de parole : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes, des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore liées à l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, je montre que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction[1]. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, je propose deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension[2]. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur[3]. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles. J'ai conduit en parallèle de ces travaux sur les autoencoders, un travail en collaboration avec l'entreprise EDD spécialisée en traitement de la parole située à Paris, autour de la thèse de Mohamed Bouaziz, d'autres travaux connexes car traitant des réseaux de neurones dans le contexte ici du traitement de flux parallèles.

Classification de séquences dans des flux parallèles à l'aide de réseaux de neurones récurrents (Travail réalisé en collaboration avec Mohamed Bouaziz).

Les flux de contenu audiovisuel peuvent être représentés sous forme de séquences d'événements (par exemple, des suites d'émissions, de scènes, etc.). Ces données séquentielles se caractérisent par des relations chronologiques pouvant exister entre des événements successifs. Dans le contexte d'une chaîne TV, la programmation des émissions suit une cohérence définie par cette même chaîne, mais peut également être influencée par les programmations des chaînes concurrentes. Dans de telles conditions, les séquences d'événement des flux parallèles pourraient ainsi fournir des connaissances supplémentaires sur les événements d'un flux considéré.
La modélisation de séquences est un sujet classique qui a été largement étudié, notamment dans le domaine de l'apprentissage automatique. Les réseaux de neurones récurrents de type Long Short-Term Memory (LSTM) ont notamment fait leur preuve dans de nombreuses applications incluant le traitement de ce type de données. Néanmoins, ces approches sont conçues pour traiter uniquement une seule séquence d'entrée à la fois. J'ai élaboré des approches capables d'intégrer conjointement des données séquentielles provenant de plusieurs flux parallèles. Le contexte applicatif de ce travail réalisé en collaboration avec l'entreprise EDD, consiste en une tâche de prédiction du genre d'une émission télévisée. Cette prédiction peut s'appuyer sur les historiques de genres des émissions précédentes de la même chaîne mais également sur les historiques appartenant à des chaînes parallèles. Nous proposons une taxonomie de genres adaptée à de tels traitements automatiques ainsi qu'un corpus de données contenant les historiques parallèles pour 4 chaînes françaises. J'ai proposé deux méthodes originales permettant d'intégrer les séquences des flux parallèles. La première, à savoir, l'architecture des LSTM parallèles (PLSTM)[4] consiste en une extension du modèle LSTM. Les PLSTM traitent simultanément chaque séquence dans une couche récurrente indépendante et combinent les sorties de chacune de ces couches pour produire la sortie finale. Pour ce qui est de la seconde proposition, dénommée MSE-SVM[5], elle permet de tirer profit des avantages des méthodes LSTM et SVM. D'abord, des vecteurs de caractéristiques latentes sont générés indépendamment, pour chaque flux en entrée, en prenant en sortie l'événement à prédire dans le flux principal. Ces nouvelles représentations sont ensuite fusionnées et données en entrée à un algorithme SVM. Les approches PLSTM et MSE-SVM ont prouvé leur efficacité dans l'intégration des séquences parallèles en surpassant respectivement les modèles LSTM et SVM prenant uniquement en compte les séquences du flux principal. Les deux approches proposées parviennent bien à tirer profit des informations contenues dans les longues séquences. En revanche, elles ont des difficultés à traiter des séquences courtes. Ces travaux entreprit sur les réseaux de neurones récurrent additionnés à mes précédent travaux sur les nombres hyper-complexes pour la compréhension de documents parlés[6], m'a naturellement conduit à me questionner sur l'apport de telles structures (Quaternions) pour la représentation de séquences multi-flux ou multidimensionnelles.

Réseaux de neurones fondés sur les Quaternions pour le traitement automatique du langage et pour la reconnaissance de forme (Travail réalisé en collaboration avec Titouan Parcollet).

Les représentations neuronales présentées précédemment (autoencoders, RNN, etc.) permettent de traiter des données provenant de plusieurs flux d'information souvent portées sur des mediums hétérogènes. Le travail accompli sur les réseaux de neurones de nombres hyper-complexes permet de faire l'interface entre les travaux entrepris pour la représentation robuste dans des encoder-decoders, le traitement de séquence multi-flux (RNN) dans des contextes applicatifs réels comme la compréhension de documents parlés, la reconnaissance automatique de la parole, ou le traitement de l'image.
Ainsi, les réseaux de neurones de nombre hyper-complexes permettent de véhiculer l'information générée sur différents flux ou temporalités inter-dépendantes mais disposant d'une information instantanée propre. Parmi les nombres hypercomplexes, les quaternions contiennent une partie réel ainsi qu'une partie imaginaire composée de trois éléments contrairement au nombre complexe ``traditionnels'' qui en contiennent que un seul élément imaginaire. Ces quaternions ont la propriété de pouvoir donc stocker quatre informations représentant une entité à des instants différents ou différentes vues d'un seul et même élément dans des espaces de représentation différents. Une particularité propre aux quaternions est également liée à l'aspect structurel de son algèbre lui conférant certaines propriétés permettant de visionner les operations les plus basiques comme la multiplication, à travers le spectre de déplacement ou mouvement géométriques. Ainsi, la multiplication entre deux quaternions représente un mouvement géodésique autour d'un vecteur porteur de cette transformation. Cette transformation est matérialisée dans l'espace euclidien par une multiplication propre à cet algèbre appelée ``multiplication d'Hamilton'', du nom du chercheur Anglais à l'origine de cet algèbre.
Ces dernières années, je me suis donc proposé d'étendre les travaux entamés durant ma thèse[6] sur les quaternions, au réseaux de neurones en collaboration avec Titouan Parcollet (Doctorant en CIFRE avec l'entreprise Orkis) et Georges Linarès (Directeur de thèse). Ces travaux ont dans un premier temps eu pour objectif d'évaluer le modèle existant de réseaux de neurones de quaternions par Arena en 1997 dans un contexte applicatif réel de compréhension de dialogues issus du corpus DECODA. Les résultats ont montré que des représentations thématiques des mots à des instants conversationnels différents dans le dialogue, doivent être considérées de manière jointe lors de la phase d'apprentissage, pour permettre une bonne classification des dialogues en fonction des thèmes abordés par l'utilisateur. Ces résultats ont été validés lors des différentes expérimentations[7] sur des topologies neuronales différentes.
Nous avons donc par la suite étendu ce travail à la compression de données bruités issues de ce même corpus de dialogues DECODA à laide d'encoder-decoder (réseaux de neurones ayant comme entrée et sortie le même vecteur de représentation). C'est encoder-decoder permettent de compresser l'information donnée en entrée dans un espace de plus faible dimension (encoder), puis de reconstituer le vecteur à partir de cette représentation réduite (decoder). J'ai proposé donc des autoencoder de quaternion permettant de représenter dans un espace de faible dimension, des données multidimensionnelles[8]. Néanmoins, les encoder-decoder ou autoencoder, ne sont pas ou très peu robuste aux variations de représentation. En effet, si un vecteur n'appartenant pas au corpus d'apprentissage est présenté en entrée, le système aura plus ou moins de mal à le reconstitué depuis sa représentation abstraite réduite. Ce phénomène de sur-apprentissage ou `` over-fitting'' est souvent rencontré, et les dispositifs permettant de pallier cette difficulté existent. Parmi celles-ci, l'introduction d'un bruit lors de la phase d'apprentissage sur les données d'entrée, contraint l'autoencoder à reconstituer le bon vecteur sachant qu'en entrée celui-ci fut altéré par une fonction de bruit. En effet, lors de l'apprentissage, l'erreur constatée est évaluée entre le vecteur en sortie bruité et le vecteur non bruité ou ``propre''. J'ai donc proposé dans un premier temps de transposer les bruits connus depuis l'espace des réels, vers celui des quaternions, puis d'adapter le bruit le plus couramment utilisé, le bruit Gaussien. Ce bruit est additif, dans le sens où l'on ajoute un élément aléatoire à la distribution observée pour altérer celle-ci. Pour ce faire, j'ai donc transformé ce bruit additif en un bruit adapté à l'algèbre fondé sur les rotations des quaternions, par une rotation du vecteur portant la transformation liée à un quaternion, selon un angle défini de manière Gaussienne[8]. Les résultats ont pu montré que ce bruit qui fait sens dans cette algèbre des quaternions permet d'obtenir de meilleurs résultats de reconstruction du vecteur d'entrée que le bruit additif.
L'avènement des réseaux de neurones dans diverses applications de traitement automatique du langage, entre autres, est essentiellement dû à leur fort potentiel d'abstraction issu de la ``profondeur'' du réseau. Cette profondeur permet d'empiler les couches cachées représentant chacune un niveau d'abstraction dont la granularité est plus ou moins fine selon le degré de profondeur. Ces réseaux profonds ou Deep Neural Networks (DNN) convergent difficilement vers une solution optimale s'ils ne sont pas correctement initialisés. Nous avons donc par la suite proposé des réseaux de neurones profonds de quaternions initialisés à l'aide des autoencoders de quaternions[9]. Les résultats ont confirmé l'apport des couches successives du réseaux ainsi que de l'initialisation à l'aide des autoencoders.
La majeur difficulté avec les données actuelles, est leur nature séquentielle et multidimensionnelle. Les réseaux convolutionnels permettent de traiter des données multidimentionnels comme les images ou toutes informations pouvant être portée sur des espaces à plusieurs dimensions. Nous avons alors ensuite proposé des réseaux de neurones de quaternions convolutionnels pour le traitement de l'image[10], la compréhension de la parole[11] et pour la reconnaissance de la parole[12][13]. Les expérimentations sur le corpus TIMIT ont montrées que les quaternions permettent une meilleure représentation des dépendances entre les différents instants du signal de parole lors de la production du phonème, qu'un vecteur de réels dans lequel toutes ces informations sont concaténées[12]. Ce travail a été réalisé en collaboration avec Yoshua Bengio et l'Institue MILA du Canada. Ce travail est la première pierre de l'édifice d'une collaboration pérenne. En effet, je poursuis ces travaux en étroite collaboration avec les chercheurs du MILA pour étendre ces travaux aux réseaux de neurones récurrents (RNN) de quaternion[14] et dans divers domaines applicatifs. Nous avons également étendu ce travail au LSTM bidirectionnelles pour le traitement de la parole[15].

Réseaux de neurones récurrents parcimonieux pour le traitement du langage.

Le problème majeur des réseaux de neurones récurrents (RNN) est la compréhension du mécanisme de mémoire et du comportement des cellules en charge de ''se rappeler'' ou d'''oublier'' l'information. De plus, les RNNs ne révèlent pas les dépendances à long-terme et de nouveaux RNN contenant des portes ont été proposés pour remédier à cet inconvénient, tel que les Long Short-Term Memory (LSTM). Ce modèle nécessite $4$ portes pour apprendre les dépendances à court et à long-terme pour une séquence donnée d'éléments de base, et requiert donc de plus, un plus long temps lié à la phase d'apprentissage. Récemment, une nouvelle famille de RNN appelée Gated Recurrent Unit (GRU a été introduite. Le GRU contient peu de portes (portes de réinitialisation et de mise à jour) mais est basée sur le regroupement de portes sans prendre en compte les relations latentes entre les dépendances à court et à long terme. La gestion des dépendances dans le GRU à travers des unités cachées est donc similaire pour tous les neurones issus de la couche cachée du RNN. De plus, l'apprentissage des RNN nécessite une grande quantité de données et, malgré l'avènement des cartes GPU qui permettent d'apprendre des modèles plus rapidement que avec les cartes CPU, le temps de traitement reste assez important. Mes travaux les plus actuels traitent de ces problématiques.
Pour surmonter ces problèmes, j'ai d'abord proposé un nouveau RNN qui tire parti des technologies LSTM, GRU (dépendances à court et à long terme) et de la Leaky Unit (LU) (apprentissage rapide) appelée Internal Memory Gate (IMG). L'efficacité et la robustesse de l'IMG-RNN proposé ont été illustrées lors de la tâche de classification du corpus de dialogues du projet DECODA, qui nous permet d'évaluer la capacité de chaque RNN à coder des dépendances à court terme[16]. Ces expérimentations ont montré que le IMG obtient des résultats équivalent, voire meilleurs que les réseaux RNN, LSTM, GRU et LU tout en nécessitant moins de temps lors de la phase d'apprentissage (sauf pour le LU évidement).
Ces expérimentations ont été conduits sur un corpus de petite taille (750 document pour l'apprentissage) et traite donc essentiellement les dépendances à court-termes. J'ai donc, ensuite, proposé de mieux comprendre comment les états cachés gèrent les dépendances à court ou long terme dans différents RNN. Durant cette étude, j'ai montré que les RNN classique ne traite pas convenablement les dépendances entre les éléments fortement éloignés dans un document et donc introduit un nouveau RNN appelé Parsimonious Memory Unit (PMU). Le PMU est basé sur l'hypothèse forte que les dépendances à court et à long terme sont liées et que le rôle de chacun des neurones cachés doit être différent pour mieux gérer ces dépendances. Les expériences menées à la fois sur un petit ensemble de données de dialogues parlés (à court terme) du projet DECODA, sur un corpus de documents textuels volumineux (à long terme) des 20-Newsgroups et sur une tâche de modélisation du langage, montrent que le PMU-RNN proposé obtient de meilleures performances (efficacité) avec un temps de traitement réduit (amélioration de la portabilité) avec un gain de 50\%. De plus, les expériences sur l'activité des portes montrent que le PMU proposé gère mieux les dépendances que le modèle GRU-RNN[17] avec un rôle différents pour chacun des neurones cachés.

En résumé, mes activités scientifiques comportent plusieurs axes de recherche principaux :

- Traitement Automatique du Langage (TAL)
- Intelligence Artificielle (IA)
- Réseaux de neurones récurrents (RNN)
- Représentations complexes dans les réseaux de neurones


Sejour de Recherche à Microsoft (2013-2014)

J'ai effectué un séjour de recherche au sein du laboratoire Microsoft Research (Cambridge, GB) sous la direction de Professeur Youssef Hamadi durant 3 mois (nov. 2013 - fév. 2014) sur le projet de l'Assistant PowerPoint. Ce projet a pour objectif de fourninr aux utilisateurs Microsoft du contenu pertinent. J'ai donc proposé des méthodes originales permettant à ces utilisateurs d'enrichir leurs présentations PowerPoint avec du contenu informatif extrait d'espace thématiques appris sur un corpus composé des présentations précédentes de ce même utilisateur. Ce projet a été sélectionné pour etre présenté lors de la rencontre annuelle TechFest'14 (40 projets soumis pour 22 selectionnés). Durant ce meeting, les scientifiques de Microsoft Research provenant du monde entier, discutent ensemble et présentent leurs derniers projets qui englobent un large spectre d'investigations sur l'objet scientifique de l'informatique. Vous trouverez une demonstration de l'Assistant PowerPoint dans la section Demo.


Attaché Temporaire de Recherche (2014-2015)

J'ai été Attaché Temporaire d'Enseignement et de Recherche au sein du laboratoire Inforatique d'Avignon (LIA) de l'Université d'Avignon et des Pays de Vaucluse (UAPV) durant la période allant de septembre 2014 à août 2015. Mes travaux de recherches portaient durant cette periode dans un premier temps à étendre le paradigme de compression et de fusion de l'information à des données textuelles (DECODA, Reuters) dans l'espace robuste de variabilité totale. Ces travaux ont été publiés dans le journal d'audience internationale IEEE/ACM Transactions on Audio, Speech, and Language Processing.
Toujours dans le contexte de dialogues bruités issus du corpus DECODA, j'ai ensuite proposé de comparer différentes méthodes de normalization et de débruitage de documents audios fortement bruités issus du projet DECODA (travaux publiés lors de la conférence d'audience internationale ISCA InterSpeech).
Les méthodes actuelles de traitement automatique du langage naturel qui soit écrit ou parlé, emploies des modèles statistiques performants issus de l'apprentissage automatique (Machine Learning). Ceci est particulièrement le cas des méthodes issues des réseaux de neurones profonds (DNN). J'ai donc eu le plaisir de collaborer avec l'équipe Language and Speech Technology (LST) de l'Université du Mans autour de Professeur Yannick Estève. Nous avons alors conjointement proposé d'étendre la représentation fondée sur les c-vecteurs, à des vecteurs sémantiques dans un réseau de neurones profond (DNN), lors de la recherche du thème majoritaire contenu dans un dialogue du corpus DECODA (travaux publiés lors dans le chapitre d'un livre Natural Language Dialog Systems and Intelligent Assistants).
J'ai finalement proposé d'étudier l'apport de différentes représentations thématiques (Latent Dircihlet Allocation (LDA), Supervised Latent Dircihlet Allocation (sLDA), ...) pour l'identification de thèmes dans des dialogues issus du corpus DECODA en collaboration avec Professeur Youssef Hamadi de Microsoft Research Cambridge (GB). Ces travaux ont été publiés lors de la conférence d'audience internationale CICLing.

L'apprentissage de tels modèles thématiques est souvent très couteux en termes de temps de calcul. J'ai donc, dans un second temps, comparé la qualité ainsi que le temps d'apprentissage de modèles thèmatiques LDA appris depuis le corpus de documents Wikipédia puis depuis ce même corpus de documents mais résumé. J'ai ainsi montré que ces derniers modèles sont, dans le cas le plus défavorable, de qualité équivalente mais toujours dans un temps proportionel au taux de compression (pourcentage de résumé) des documents composant le corpus d'apprentissage Wikipédia (travaux publiés lors de la conférence d'audience internationale CICLing).

Le laboratoire Informatique d'Avignon (LIA) participe activement à la Structure Federative de Recherche (SFR) Agorantic. J'ai eu le plaisir de collaborer avec des scientifiques de l'UMR ESAPCE autour de Didier Josselin de l'UAPV sur un même objet scientifique porté sur la localisation automatique de messages courts (tweets) concernant l'événement "JeSuisCharlie" survenu au début du mois de janvier 2015. Les travaux menés ont montré qu'une représentation dans un espace thématique multi-varié (Auhtor-Topic Model) permet d'associer le contenu du message (mots) et sa localisation (pays). Cette modélisation obtient une localisation éfficace du message court bruité (environ 95% de précision). Ces travaux ont été publiés lors des conférences d'audience internationale SPATIAL STATISTICS pour la partie informatique ainsi que ISPRS GW pour la partie géomatique.


Doctorat en Informatique (2011-2014)

Sujet : Représentations Robustes de Documents Bruités dans des Espaces Homogènes

Defendue le 25 Novembre 2014 à l'Université d'Avignon, France.

Composition du Jury :

Frédéric BéCHET (Professeur)
Université d'Aix-Marseille, Marseille, France
President
Jérôme R. BELLEGARDA (Apple Distinguished Scientist)
Apple Inc., Cupertino, USA
Rapporteur
Laurent BESACIER (Professeur)
Université Joseph Fourier, Grenoble, France
Rapporteur
François YVON (Professeur)
Université Paris-Sud, Paris, France
Rapporteur
Youssef HAMADI (Senior Scientist)
Microsoft Research, Cambridge, UK
Examinateur
Benjamin PIWOWARSKI (Chargé de recherche - CNRS)
LIP6, Paris, France
Examinateur
Georges LINARES (Professeur)
Université d'Avignon, France
Directeur
Richard DUFOUR (Assistant Professor)
Université d'Avignon, France
Co-Encadrant

Résumé :

En recherche d'information, les documents sont le plus souvent considérés comme des "sacs-de-mots". Ce modèle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altérer la forme lexicale. Ces bruits peuvent être produits par différentes sources : forme peu contrôlée des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilités lexicales et grammaticales dans les forums du Web\dots Le travail présenté dans cette thèse s'intéresse au problème de la représentation de documents issus de sources bruitées.

La thèse comporte trois parties dans lesquelles différentes représentations des contenus sont proposées. La première partie compare une représentation classique utilisant la fréquence des mots à une représentation de haut-niveau s'appuyant sur un espace de thèmes. Cette abstraction du contenu permet de limiter l'altération de la forme de surface du document bruité en le représentant par un ensemble de caractéristiques de haut-niveau. Nos expériences confirment que cette projection dans un espace de thèmes permet d'améliorer les résultats obtenus sur diverses tâches de recherche d'information en comparaison d'une représentation plus classique utilisant la fréquence des mots. Le problème majeur d'une telle représentation est qu'elle est fondée sur un espace de thèmes dont les paramètres sont choisis empiriquement.

La deuxième partie décrit une nouvelle représentation s'appuyant sur des espaces multiples et permettant de résoudre trois problèmes majeurs : la proximité des sujets traités dans le document, le choix difficile des paramètres du modèle de thèmes ainsi que la robustesse de la représentation. Partant de l'idée qu'une seule représentation des contenus ne peut pas capturer l'ensemble des informations utiles, nous proposons d'augmenter le nombre de vues sur un même document. Cette multiplication des vues permet de générer des observations "artificielles" qui contiennent des fragments de l'information utile. Une première expérience a validé cette approche multi-vues de la représentation de textes bruités. Elle a cependant l'inconvénient d'être très volumineuse, redondante, et de contenir une variabilité additionnelle liée à la diversité des vues.

Dans un deuxième temps, nous proposons une méthode s'appuyant sur l'analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle représentation robuste, de dimension réduite, ne contenant que la partie "utile" du document tout en réduisant les variabilités "parasites". Lors d'une tâche de catégorisation de conversations, ce processus de compression a confirmé qu'il permettait d'augmenter la robustesse de la représentation du document bruité.

Cependant, lors de l'élaboration des espaces de thèmes, le document reste considéré comme un "sac-de-mots" alors que plusieurs études montrent que la position d'un terme au sein du document est importante. Une représentation tenant compte de cette structure temporelle du document est proposée dans la troisième partie. Cette représentation s'appuie sur les nombres hyper-complexes de dimension 4 appelés quaternions. Nos expériences menées sur une tâche de catégorisation ont montré l'efficacité de cette méthode comparativement aux représentations classiques en "sacs-de-mots".

Mots clés : Représentation robuste, document bruité, allocation latente de Dirichlet, multi-vues, analyse factorielle, quaternion.

            firefox

Contact
©2015 LIA | Design by styleshout