5 questions à Volker Steinbiss, chef du projet Corpus

Dr Volker Steinbiss, chercheur à l’Université technique d’Aix-la-Chapelle (RWTH Aachen) est en charge du projet Corpus au sein de Quaero, un des piliers stratégiques du programme. Corpus constitue, avec le Pôle de Technologies, le socle commun de recherche et d’innovation amont et apporte la matière première à Quaero : les données réelles d’utilisation qu’il faut collecter et annoter.

1/ Pourquoi avoir choisi de rejoindre Quaero dès son lancement ? Quelles attentes en aviez-vous ?

Juste après la naissance du concept Quaero, le LIMSI-CNRS a approché le RWTH. Nous nous connaissions déjà au sein de la communauté scientifique où, croyez-le ou non, nous étions en forte concurrence : chacun essayait de supplanter l’autre pour développer les meilleurs systèmes de reconnaissance de la parole et de traduction automatique. Au RWTH, nous attentions avant tout une collaboration avec des équipes de recherche d’envergure internationale. Nous avons également été séduits par le rôle central joué par l’évaluation objective : en 2008, ce concept important n’était pas soutenu autant qu’il l’est aujourd’hui, à l’approche de la fin de Quaero.

2/ Pouvez-vous décrire le projet Corpus au sein de Quaero?

Au sein de Quaero, le projet recueille des corpus – collections de données – pour le Pôle de Technologies (CTC). Ces corpus remplissent trois fonctions importantes : d’abord, ils sont utilisés pour l’évaluation comparative des technologies développées dans le CTC, un des piliers de l’approche stratégique de Quaero. Deuxièmement, les corpus constituent la base des systèmes développés dans le CTC, non seulement pour l’évaluation mais aussi pour la phase d’apprentissage des nombreux systèmes qui utilisent des méthodes statistiques. Enfin, les corpus définissent implicitement l’agenda scientifique et technique. Ils permettent ainsi de porter l’attention et  le développement sur des problèmes scientifiques et techniques particuliers. C’est une des raisons pour lesquelles nous utilisons des données réelles d’utilisation : elles soulèvent des défis réels et sont pertinentes pour des applications commerciales. Les corpus couvrent de larges domaines thématiques et sont de nature diverse. 

3/ Quelles sont les réalisations du projet Corpus ?

J’ai toujours considéré Corpus comme un projet au service du CTC, un prérequis au travail des chercheurs : fournir la matière brute dont ils ont besoin pour construire d’excellents systèmes. Et c’est ce qu’a fait Corpus. Au-delà de cette réalisation générale, il en existe d’autres plus spécifiques. J’en mentionnerai une :  les trois équipes de recherche de l’IRCAM, Télécom ParisTech et l’INRA/Metiss sont devenus des leaders au niveau international durant le programme Quaero, grâce à leurs travaux de recherche communs, basés sur les grands corpus fournis par le projet Corpus.

4/ Considérez-vous Corpus comme une “Success Story”?

La collecte systématique de corpus a posé les jalons d’avancées technologiques remarquables. Les corpus continueront d’être utilisés par les partenaires. Certains constituent des atouts majeurs  et resteront à usage interne aux partenaires de Quaero pour les aider à conserver un avantage compétitif. D’autres ont été mis à la disposition de la communauté scientifique.

5/ Plus largement, quel bilan tirez-vous de Quaero, à quelques mois de la fin du programme?

Quaero a fait avancer significativement l’état de l’art des technologies clé et a donné lieu à un transfert technologique remarquable vers les partenaires industriels. Nous avons été bien meilleurs à atteindre des résultats qu’à les communiquer aux médias, notre point faible. En tant que membre du projet, j’ai été impressionné par la fertilisation croisée qui s’est effectivement  produite entre les différentes disciplines. Elle est le bénéfice direct du large effort concerté réalisé grâce à une structure de gestion plutôt légère au vu de la taille du projet.