La matière première de Quaero : Corpus
Corpus est un projet horizontal du programme Quaero, et qui constitue, avec le CTC, le socle commun de recherche et d’innovation en amont. Corpus apporte la matière première à Quaero : la collecte et l’annotation de données constituent de grands corpus indispensables au traitement automatique de contenus.
Sous la direction de l’Université Technique d’Aix-la-Chapelle (RWTH), le projet Corpus vise à :
- collecter les données des projets applicatifs, soit une « vérité de terrain » provenant des conditions réelles d’utilisation
- développer de grands corpus de données multimédias et multilingues (traitement, annotation, validation)
- alimenter le CTC de données réelles permettant le développement des technologies clés dans les différents domaines (audio, traduction, images, texte, etc.)
- fournir des données de test pour les campagnes d’expérimentation propres à Quaero