Skip to Content

Equipe HUman Language TECHnology


 

Actualités de l'Equipe

 
  • Gaël Dias publie à IPM revue de rang A
  • Gaël Dias publie à ECML/PKDD conférence de rang A
  • Mohammed Hasanuzzman est invité à présenter ses recherches à l'Université du Massachusetts Medical School (USA)
  • La Tactinet se dévoile sur les réseaux sociaux dans le cadre de la fête de la science [lien]
  • Yann Mathet publie à Computational Linguistics revue de rang A*
  • Pierre-Yves Buard soutiendra sa thèse intitulée "Modélisation des sources anciennes et édition numérique", le 4 Mai
  • L'équipe HULTECH organise TALN-RECITAL 2015
  • Asif Ekbal de l'IIT-Patna (Inde) rejoint l'équipe pour une durée d'un mois dans le cadre de ses travaux en optimisation mutli-objectifs pour la recherche d'information
  • Mohammed Hasanuzzaman, Gaël Dias et Stéphane Ferrari publient à SIGIR conférence de rang A*
  • José Moreno et Gaël Dias publient à SIGIR conférence de rang A*
  • Asma Berrezoug de l'Université de Mostaganem (Algérie) rejoint l'équipe pour une durée de trois mois dans le cadre de ses recherches en Résumé Automatique
  • Lilia Bougchiche de l'Université de TiziOuzou (Algérie) rejoint l'équipe pour une durée de 18 mois dans le cadre de ses recherches en recherche d'information sociale
  • Marc Spaniol, Co-organisateur du Workshop TempWeb 2015
  • José Moreno publie à Pattern Recognition revue de rang A*
  • Marc Spaniol publie à WWW conférence de rang A*
  • Fabrice Maurel, Co-organisateur de l'Atelier ITI 2015
  • Guillaume Cleuziou et Gaël Dias participent à la compétition internationale SEMEVAL 2015 Task 17 (Taxonomy Extraction Evaluation)
  • Gaël Dias, Co-organisateur du Workshop TEMA 2015
 
 

Présentation de l'Equipe

 

Contexte

 
L’équipe HULTECH traite des problématiques liées aux Technologies du Langage Humain. Dans ce cadre, elle sa recherche autour des 5 axes suivants: Ingénierie des Documents, Ingénierie des Langues, Ingénierie des Connaissances Textuelles, Recherche d'Information et Communication Homme-Machine. Ainsi, l'équipe développe de nombreuses plateformes logicielles pour le traitement des données du Web et des archives patrimoniales, en portant un intérêt particulier aux plateformes nomades et à l'accessibilité des contenus.
 

Organisation Générale

 
Organisation Générale de l'Equipe HULTECH
 

Membres

 
Direction : Marc Spaniol
 

Commission d'Experts Internationaux

 
Eduard Hovy, Carnegie Mellon University (USA)
Ricardo Baeza-Yates, Yahoo! Research Labs (Espagne)
Djoerd Hiemstra, Université de Twente (Pays-Bas)
 

Thèmes de Recherche

 

Ingénierie des Documents

 
L'objet document numérique doit être considéré comme un objet sémiotique complexe en constante évolution, composé d'éléments multiples et multiformes. Dans ce cadre, l'équipe organise ses recherches autour de la conception de modèles pour la production, le stockage, l'accès et l'usage des documents numériques. Les plateformes SYDONIE (modélisation de collections de documents composites), GLOZZ (annotation et exploration de corpora) et CALICO (analyse de forums) sont trois réalisations phare de cet axe.
 

Ingénierie des Langues

 
L'équipe propose des modèles symboliques (monolingues) et statistiques (multilingues, multidomaines, multigenres) de compréhension du langage (traitement du langage naturel). Elle travaille aussi en collaboration avec des collègues de Sciences Sociales et Humaines pour tester/valider/améliorer des modèles linguistiques (linguistique computationnelle). L'équipe a de fortes compétences en analyses morphologique (extraction multilingue de mots composés), syntaxique (compression de phrases), sémantique (similarité textuelle), pragmatique (anaphores, temporalité) et discursive (extraction de paraphrases, segmentation thématique, analyse d'opinions). L'équipe développe également des modèles de segmentation et d’alignement pour la traduction automatique.
 

Ingénierie des Connaissances Textuelles

 
Dans le cadre de l'ingénierie des connaissances textuelles, l'équipe propose de nombreux modèles statistiques pour l'extraction de relations sémantiques, l'identification d'entités nommées et la construction d'ontologies. Dans ce cadre, le corpus est le support d'étude et les modèles sont multilingues, multidomaines et multigenres. En particulier, l'équipe propose une architecure basée sur le formalisme de la Prétopologie pour la construction d'ontologies terminologiques. L'équipe propose aussi des modèles symboliques multilingues fondés sur la rhétorique et la stylistique au niveau du texte et de la collection.
 

Recherche d'Information

 
Afin de mettre à profit l'ensemble des recherches en ingénierie des langues et des connaissances textuelles, l'équipe propose un certain nombre d'applications de la recherche d'information. En particulier, elle est spécialisée en clustering éphémère, recherche d'information temporelle, détection de nouveautés, recherche d'information personnalisée et surveillance épidémiologique. Les modèles proposés sont basés sur les données du Web et applicables dans des environnements multilingues, multidomaines, multigenres. La plateforme DANIEL est l'un des projets fédérateurs de cet axe.
 

Communication Homme-Machine

 
Dans le cadre de la communication Homme-Machine, le document interactif est approché par la mise en place de projets d’environnements numériques de travail énactif, l’élaboration de services multimodaux à partir de la notion d’interface plastique et l’étude de la transmodalisation et la multimodalisation de l’information. Ainsi, l'équipe développe de nombreux projets pour améliorer l'accessibilité aux documents numériques par les aveugles à partir de dispositifs nomades tactiles.  
 

Production Scientifique

 

Publications

 
 
 
 

Projets

 
  • ANR ART-ADN (Accès par Retour Tactilo-Oral aux Documents Numériques) - en cours
  • ANR NARECA (Agent Conversationnel Animé Narratif) - en cours
  • ANR DOCSCOPE (Analyse Automatisée pour la Fraude Documentaire) - Fin 2014
  • CPER/FEDER SEMCOMP (Analyse Spatio-Temporelle des Opinions sur le Territoire) - Fin 2014
  • CPER/FEDER SYDONIE (Système de Gestion de Documents pour l'Internet et l'Edition) - Fin 2014
  • GRR PSH (Personnes en Situation de Handicap) - Fin 2014
  • ANR PRODESCARTES (Edition en Ligne des Oeuvres et de la Correspondance de Descartes) - Fin 2013
  • ANR ONTOPITEX (Caractérisation d'Opinions et de Jugements d'Evaluation dans les Textes) - Fin 2013
  • ANR BINGO2 (Fouille de Textes Médicaux, Catégorisation, Détection de l’Argumentation) - Fin 2012
  • SAMAR (Station d'Analyse Multimédia en Langue Arabe) - Fini 2012
  • PICS MULTI-PULS (Veille Epidémiologique Multilingue Alimentant MedISys) - Fin 2011
 

Logiciels et Ressources

 
  • SYDONIE: Plateforme de gestion de documents pour l'internet et l'édition
  • GLOZZ: Plateforme d'annotation et d'exploration de corpora
  • CALICO: Plateforme d'analyse de forums
  • DANIEL: Plateforme de surveillance épidémiologique
  • THEMAMAP: Outil de cartographie thématique
  • SENTA: Logiciel pour l'extraction de mots composés (disponible sur demande)
  • HELAS: Logiciel pour l'extraction hybride de mots composés (disponible sur demande)
  • GREYCIR: Service Web pour clustering éphémère (disponible sur demande)
  • GTE: Ensemble de services Web pour la recherche d'information temporelle (disponible sur demande)
  • TACTINET: Plateforme pour l'accès tactile aux documents numériques
  • TEMPOWORDNET: WordNet Temporel 
 

Collaborations

 

Start-Ups Emanant de l'Equipe

 
 

Institutions Internationales

 
  • Université de Kyoto, Japon (Adam Jatowt)
  • Université de Waseda, Japon (Yves Lepage)
  • Yahoo!, USA (Zornitsa Kozareva)
  • Université de Porto, Portugal (Pavel Brazdil, Alípio Jorge)
  • Université Nouvelle de Lisbonne, Portugal (Gabriel Pereira Lopes)
  • Université de Beira Interior, Portugal (João Paulo Cordeiro)
  • Université de Helsinki, Finlande (Hannu Toivonen)
  • Université de Saint Jacques de Compostelle, Espagne (Pablo Gamallo)
  • Université de Vigo, Espagne (Manuel Vilares Ferro)
  • Microsoft Research Cambridge, Angleterre (Gabriella Kazai)
  • Université d'Innsbrück, Autriche (Günter Mühlberger)
 

Inter-Disciplinarité

 
  • CRISCO: Centre de Recherche Inter-langues sur la Signification en Contexte
  • PALM: Laboratoire Psychologie des Actions Langagières et Motrices
  • ERLIS: Equipe de Recherche sur les Littératures, les Imaginaires et les Sociétés
  • MRSH: Maison de la Recherche en Sciences Humaines
  • MODESCO: Modélisation en Sciences Cognitives
  

Infrastructures

 
  • Serveur de stockage pour les masses de données patrimoniales
 

Formations

 

Les membres de l'équipe interviennent dans les filières de l'UFR de Sciences, l'UFR de Langues Vivantes Etrangères, l'UFR des Sciences de l'Homme, l'IUT et le CEMU de l'Université de Caen Normandie ainsi qu'à l'ENSICAEN. Les enseignements fondamentaux de l'équipe appartiennent au Master Recherche en Informatique spécialité Traitement Automatique de l'Image et de la Langue (IMALANG) et le Master Professionnel Document spécialité Document Numérique en Réseau - Ingénierie de l'Internet (DNR-2I). La liste des enseignements les plus représentatifs sont les suivants:

 
  • Introduction au Traitement Automatique des Langues (L2),
  • Technologies Internet (L3),
  • Ingénierie des Langues (M1 IMALANG),
  • Ingénierie des Textes (M1 IMALANG),
  • Moteurs de Recherche (M1 IMALANG),
  • Interface Homme-Machine (M1 IMALANG),
  • Ingénierie des Documents Composites (M2 IMALANG),
  • Ingénierie des Connaissances Textuelles (M2 IMALANG),
  • Recherche d'Information Multimédia (M2 IMALANG).