Campagne d'évaluation "par défi" des systèmes de compréhension de la parole
Remarque — Ce compte-rendu est avant tout un relevé d'observations et de conclusions prises au cours de la journée d'étude de debriefing réalisée à Toulouse et ne saurait tenir lieu de compte-rendu exhaustif des échanges réalisés au cours de cette journée.
Résultat de la campagne d'évaluation par défi
Chaque participant a disposé d'environ une demi-heure, questions comprises, pour présenter rapidement son système, puis une synthèse (dans un esprit de diagnostic) des résultats obtenus par le système au cours de cette campagne d'évaluation. Les questions ont surtout permis aux participants d'échanger leur expérience sur certaines phénomènes et cas d'erreurs relevés.
- Intervention de Caroline Bousquet (IRIT)
Système — Système probabiliste basé sur l'identification de segments conceptuels. Analyse en deux étapes :
1) Décodage probabiliste des segments conduisant à aux N-best décompositions en segments conceptuels, puis un module de décision choisi la meilleure décomposition.
2) Interprétation de la meilleure décomposition en segments conceptuels afin de fournir la représentation du sens de l'énoncé donné en entrée.
Domaine d'application : horaires de trains (ARISE)
Évaluation — Principaux types d'erreurs recensés :Synthèse et poursuite des activités du groupe- dislocations et autres modification de l'ordre des mots (et donc des segments conceptuels) : 15 % des erreurs constatées
- incises (même limitées) au sein d'un segment (aucun problème si l'incise est entre segments) : 6 % des erreurs
- gestion des requêtes complexes (requêtes doubles par exemple).
- problème d'identification de certains GP introduits par la préposition "à" (exemple : "c'est à Lyon le départ") illustrant
la dépendance du système à certains mots-clés.... et 72% des erreurs dues à un manque de couverture dû au fait que le corpus d'apprentissage utilisé pour Arise ne couvrait pas la structure de certains énoncés dérivés. Erreur car hors du propos du cahier des charges du système.
Au total, environ 18% des 1200 énoncés à analyser ne sont pas correctement interprétés (en général, seul une petite partie de l'énoncé est mal compris).
- Intervention de Sophie Rosset (LIMSI)
Système — Système Système à base de règles reposant sur une architecture un peu particulière au sens où l'étape de compréhension n'est pas contextuelle : l'interprétation contextuelle est mise en oeuvre dans le dialogueur même. On a deux étapes qui ont été évaluées séparément :
- Interprétation littérale : analyse incomplète partielle (réécriture sous forme de concepts sémantiques + étiquetage).
- Interprétation contextuelle, faisant intervenir (en second !) la syntaxe + gestion des anaphoresDomaine d'application : réservation ferroviaire (ARISE)
Évaluation — Principaux types d'erreurs recensés :
- incises : problème si incise d'éléments hors-domaine et non le contraire. Ceci étant du à une stratégie de maximisation de la longueur des segments conceptuels
- dislocations : jamais traitées en interprétation contextuelle, parfois en interprétation littérale.Autres cas rencontrés :
- cas d'incomplétude ("à 10 15" pour "à 10h15")
- cas d'insuffisance de couverture lexicale (ex "le 12 03" pour "12 mars").
- portée des négationsAnalyse quantitative par jeux de tests dérivés (voir transparents de présentation). On remarque un meilleur taux d'erreur en interprétation contextuelle. Cela montre que l'étape contextuelle est à même de récupérer certaines erreurs de l'interprétation littérale. D'une manière générale, l'interprétation contextuelle fournit des taux d'erreur compris entre 2 et 8,9 % suivant les jeux de tests (contre une erreur comprise entre 6,3% et 18% pour l'interprétation littérale).
- Intervention de Zakaria Kurdi (CLIPS-IMAG et U. Odense)
Système — Système travaillant sur la meilleure hypothèse de reconnaissance et non sur un N-best ou un treillis de mots. Prétraitement de normalisation par détection de patterns de répétitions ou autres (M1 E M1 par exemple). Puis interprétation proprement dite à l'aide d'un formalisme d'arbre semantico-pragmatique (STAG, non lexicalisé) réalisant en une étape des rattachement locaux (chunks ou segments conceptuels) puis de mise en relation de ces segments locaux pour obtenir une structure d'énoncé. Système appliqué au problème de la traduction automatique en contexte finalisé (réservation hôtelière).
Évaluation — Évaluation réalisée sur uniquement 1/3 des jeux de tests le jour de la présentation.
Pas de présentation d'une réelle analyse de diagnostic par phénomène. La plupart des erreurs sont présentés comme étant dus à une sous-génération (pb de couverture lexicale ou syntaxique) du système.
Analyse quantitative : 68 % des mots utilisés dans les représentations finales. 97,6 % de ces mots correctement utilisés dans la structure sémantique finale.
- Intervention de Jérôme Goulian (VALORIA)
Système — Système à base de règles (implémentation sous forme de cascades d'automates) procédant à une interprétation (non contextuelle ou presque pour l'instant) en trois étapes :
1) segmentation : caractérisation de segments minimaux de type chunk par une connaissance majoritaire ment syntaxique (donc générique).
2) Étiquetage sémantico-pragmatique des segments obtenus.
3) Linkage : mise en relation de ces segments par une grammaire de dépendance (grammaire de liens plus précisément) essentiellement sémantico-pragmatique.Domaine d'application : renseignement touristique en général
Évaluation — Principaux types d'erreurs recensés :
- erreurs de la reconnaissance entraînant une perte de la préposition ou tout autre élément syntaxique central de l'énoncé
- incise ou répétition à l'intérieur d'un segment prépositionnel sans répétition de la préposition (plausibilité discutable de ce cas de figure)
- pb de rattachements (exemple : "des chambres avec douche doubles") dus à une stratégie favorisant les chunks les plus longs
- mauvais étiquetage de certains pronoms relatifs
- difficultés dans la gestion de la portée de certaines négationsD'une manière générale, les erreurs constatées témoignent de faiblesses dues au fait que l'étape de segmentation fait des choix trop risqués (contraintes qui pourraient être relâchées par le système).
Le système présentait également certains problèmes de couverture qui ont depuis été corrigés.
- Intervention de Jeanne Villaneau (VALORIA)
Système — Système symbolique reposant sur l'utilisation du lambda calcul pour la construction d'une structure sémantique à base de composition de termes. D'une manière grossière, l'analyse peut-être découpée en
deux étapes principales :1) segmentation : caractérisation de segments minimaux par détection d'association locales entre mots. Cette étape est équivalent à une analyse par une grammaire catégorielle de type AB.
2) dépendances : mise en relation de ces segments par composition de lamba-termes. Cette étape permet l'analyse d'objets ou requêtes complexes grâce à une représentation appelée "chaînes d'objets".L'analyse est contextuelle même si elle se limite à des stratégies simples de résolution des anaphores etc...
Domaine d'application : renseignement touristique en général
Évaluation — Principaux types d'erreurs recensés :
- faux départs : problème de l'identification du prédicat principal lorsque qu'il est répété ou corrigé.
- problème de gestion des énoncés complexes de type assertion+question (exemple : "je vais à Toulouse la semaine prochaine est-ce qu'il y a un T.G.V. le lundi ?").
Un premier bilan est tout d'abord fait sur cette première campagne d'évaluation, et plus précisément la méthodologie par défi suivie. Les participants sont unanimes à reconnaître l'intérêt d'une telle évaluation. Parmi les points positifs de cette méthodologie :
- Synthèse sur la méthodologie d'évaluation par défi
- elle permet une évaluation prédictive de type diagnostic, plus intéressante en terme de conduite de recherches futures qu'une évaluation globale de type DARPA-ATIS (sans nier l'intérêt de cette dernière).
- elle permet de juger le comportement du système aux limites, c'est à dire sur des cas non prévus initialement. Ces situations peuvent d'ailleurs sortir du "cahier des charges" de la tâche visée, sans que cela nuise à l'intérêt de l'évaluation. Cela permet en effet, en terme de généricité, d'esquisser le comportement du système évalué sur des tâches autres.
- enfin, outre sa relative légèreté, ce type d'évaluation objective mais portant sur des jeux de test différents (donc pas de compétition entre les participants) crée un climat propice à l'échange et donc à la capitalisation des expériences.La méthodologie demande cependant à être robustifiée. En particulier, ont été proposées (et acceptées de tous) les améliorations suivantes :
- étendre l'évaluation à l'interprétation contextuelle, et d'une manière générale (interprétation contextuelle ou littérale) prendre en compte le contexte (au niveau de la question posée par le système) pour créer les énoncés dérivés afin que ces énoncés soit plausibles par rapport à l'application et par rapport aux types de questions posés par le système.
- être plus systématique dans la production des tests — se focaliser sur des phénomènes bien précis (cf infra)
- la question reste ouverte sur la pertinence de tests simulant ex-nihilo des erreurs de reconnaissance.Les participants sont donc partant pour une nouvelle campagne d'évaluation, dont les objectifs devront être mieux précisés, tout en conservant le principe d'une méthodologie d'évaluation par défi (cf infra).
- Synthèse des résultats de la campagne d'évaluation par défi
Cette recherche de synthèse n'a pas porté, comme il était initialement prévu, sur l'analyse comparative des comportements des systèmes testés sur des phénomènes précis. Il est en effet apparu que cette campagne ayant été totalement ouverte, les participants n'ont pas toujours été sensibles aux même phénomènes. D'où ce désir de mettre au point à l'avenir une campagne d'évaluation mieux ciblée.
Cependant, les discussions ont permis de faire émerger un ensemble de phénomènes qui ont constitué des pierres d'achoppement centrales pour les systèmes, et qui constituent de l'avis de tous ces problèmes centraux pour les recherches à venir en CAP. Ce sont en particulier :
1) l'analyse des structures ou objets complexes — : on peut citer comme exemples l'analyse des coordinations, des négations à portée complexe ou encore des requêtes multiples,
2) le traitement robuste des incises, problème auquel on peut éventuellement rattacher celui des inattendus structurels de l'oral (hésitations...) au sein d'un segment conceptuel.
3) le traitement des altérations de l'ordre des mots dans la phrase (dislocations et autres phénomènes analogues).
4) la gestion robuste du problème de la couverture lexicale et sémantique. Par couverture lexicale, on entend les problèmes posés au système par les mots dits hors vocabulaire. Tandis que le problème de la couverture sémantique doit plutôt être analysé en terme de la gestion de l'ambiguïté sémantique.
Ce sont ces problèmes qui devraient être étudiés plus précisément par les participants dans les campagnes d'évaluation à venir. On peut cependant déjà classer les systèmes testés en fonction des
difficultés qu'ils rencontrent sur ces situations :1) structures complexes — pb pour J. Goulian, J. Villaneau (requêtes assertion + question), S. Rosset et Z. Kurdi (si plusieurs "niveaux" structurels mis en jeu), C. Bousquet (requêtes multiples).
2) incises — : pb pour S. Rosset (si incise hors domaine) et J. Villaneau pour les incises. Pb pour J. Goulian et C.
Bousquet pour les inattendus dans un segment.3) dislocations — : pb pour C. Bousquet et S. Rosset.
4) couverture lexicale et sémantique — : phénomène non étudié assez précisément pour conclure.
- Poursuite des activités du groupe
- La méthodologie a été présentée dans le cadre d'un article à LREC'2002
- Poursuite de l'activité du groupe dans le cadre d'une campagne d'évaluation rééllement comparative : projet TECHNOLANGUE EVALDA-MEDIA
Auteur de la page : Jean-Yves.Antoine