Axe 1 : Industries de la culture et arts / thème 2 : Industries de la langue

Coordonnateur : Salah Mejri, UP 13.

Présentation | Actualités | Projets en cours | Chercheurs


Projets validés pour l'année 2006-2007

Dictionnaires electroniques multilingues coordonnés en sciences de la sante
Du corpus à la bibliothèque numérique

Dictionnaires electroniques multilingues coordonnés en sciences de la sante
Le présent projet a comme objectif stratégique de développer des outils sous forme de dictionnaires électroniques multilingues coordonnés. Ces outils seront à la base d'applications permettant au public non spécialiste, confronté à des besoins d'information en matière de santé, un accès rapide à une information pertinente, fiable, compréhensible et complète sur le(s) sujet(s) de leur intérêt. Afin d'atteindre cet objectif, certaines difficultés en matière de récupération de l'information, évaluation de l'information et gestion du plurilinguisme sont à gérer. Elles doivent être résolues d'une part sur le plan technique et d'autre part, il est nécessaire que les conditions de résolution de ces difficultés soient les plus favorables possibles, aussi bien en termes de temps que de coût, pour l'utilisateur final.
Un tel objectif stratégique se décline selon les objectifs scientifico-techniques suivants :
- mise en place de grandes bases de données lexicales et phraséologiques plurilingues permettant une maintenance simple et des modalités d'utilisation multiples (objectif de création de ressources).
- identification, structuration et gestion des flux d'information textuelle à l'aide de ressources linguistiques sous forme de grammaires électroniques (objectif de capitalisation et gestion de la connaissance).
- gestion du plurilinguisme moyennant la traduction automatique appliquée aux requêtes (en amont) et aux données textuelles répondant aux requêtes (en aval) (objectif de problem solving ).
Les produits exploitables dérivés seront de quatre ordres : lexicographiques (dictionnaires et grammaires électroniques), textuels (banque des données), procédurels (composante logicielle) et théoriques (production scientifique).

Responsables du projet :
Salah Mejri - Laboratoire de linguistique informatique, université Paris
Xavier Blanco-Escoda - Université autonome de Barcelone, Laboratoire de Phonétique, Lexicologie et Sémantique (fLexSem)

Autres membres impliqués dans le projet :
- Sandrine Fuentes, Laboratoire de Phonétique, Lexicologie et Sémantique (fLexSem) université Autonome de Barcelone
- Judith Sastre, Laboratoire de Phonétique, Lexicologie et Sémantique (fLexSem) université Autonome de Barcelone
- Lorraine Baqué Millet, Laboratoire de Phonétique, Lexicologie et Sémantique (fLexSem) université Autonome de Barcelone
- Pedro Mogorron, département de Traduction (Université d'Alicante)
- Pierre-André Buvet, Laboratoire de Linguistique Informatique, université Paris 13
- Adrian Toma, Laboratoire de Linguistique Informatique, université Paris 13
- Ines Sfar, unité de recherche "Traitement informatique du lexique" (faculté des lettres de la Manouba - université Tunis I)
- Saïd Mosbah, unité de recherche "Traitement informatique du lexique" (faculté des lettres de la Manouba - université Tunis I)
- Bechir Ouerhani, unité de recherche "Traitement informatique du lexique" (faculté des lettres de la Manouba - université Tunis I)
- Thouraya Ben Amor, unité de recherche "Traitement informatique du lexique" (faculté des lettres de la Manouba - université Tunis I)
- Jean Pruvost, directeur de Metadif - université de Cergy-Pontoise

Du corpus à la bibliothèque numérique
Du programme Colisciences à la Bibliothèque numérique « Claude Bernard »
Objectifs généraux
· Réaliser sur Internet et en accès libre un site exceptionnel rassemblant toute l' oe uvre imprimée de Claude Bernard.
· Pour ce faire :
- mettre en ligne tous ces textes en contrôlant leur forme éditoriale,
- construire un appareil critique sur ces textes et y adjoignant les paratextes (biographie, bibliographie, étude des notions du corpus, commentaires historiques, glossaire des termes scientifiques et techniques, dictionnaire des savants cités, liste des oe uvres citées) nécessaires à des exploitations multiples de la part de lectorats divers (chercheurs, étudiants, érudits, curieux, etc.),
- architecturer ce site sous forme hypertextuelle (travail sur les couches et les liens inspiré de l'hypertexte CoLiSciences) pour offrir aux utilisateurs la possibilité de construire et gérer leurs propres collectes et développements.
Motivation : Pourquoi Claude Bernard ? En France, six figures « emblématiques » s'imposent au cours de ce 19e siècle, durant lequel la biologie moderne prend son essor : Jean-Baptiste Lamarck, Georges Cuvier, Étienne Geoffroy Saint- Hilaire, Isidore Geoffroy Saint-Hilaire, Louis Pasteur et Claude Bernard. Le premier pour sa théorie transformiste ; les deux suivants, pour la célèbre querelle qui les opposa au sujet des plans d'organisation des êtres vivants ; le quatrième pour sa tératologie ; les derniers, pour les bouleversements théoriques et expérimentaux de la chimie biologique et de la physiologie. Les grandes oppositions théoriques et métaphysiques sur la nature du vivant (matérialisme, vitalisme, déterminisme, hasard, liberté, nécessité, finalisme, etc.) et les doctrines du vivant alimentent les réflexions de ces savants et des commentateurs. Ainsi Claude Bernard fait oe uvre de science tout en « philosophant » sur les formes de l'enquête scientifique. Ses écrits valent pour leur importance historique et pour la portée de ce qui s'y condense en termes de pensée et de concepts, mais ils sont aussi - c'est un aspect peu souligné - exemplaires de ce qu'une langue - le français - peut faire quand il s'agit de décrire et analyser la profusion des formes et des manifestations du vivant.

Constituer une Bibliothèque numérique « Claude Bernard » qui comporterait la totalité de ses oe uvres, signifie montrer l'étendue de ses recherches et de sa pratique expérimentale. Si les anglophones ont une Intégrale Darwin (aussi bien papier qu'électronique), il serait dommage qu'aucun des grands savants biologistes du 19e siècle français (à l'exception de Lamarck) ne bénéficie d'une telle postérité éditoriale. De plus, il ne s'agirait pas seulement d'une édition électronique mais d'un hypertexte , combinant les avantages déjà reconnus d'un « corpus électronique » (informatisation des fonctions classiques de la forme livresque) et le profit inhérent à l'hypertexte, en tant qu'il peut donner lieu à de nouvelles offres de lecture et d'appréhension des textes. L'enjeu n'est donc pas de « verser » dans une base textuelle des ouvrages numérisés, mais de leur donner une pleine expansion : cela requiert un constant travail de constitution de l'hypertexte qui s'enrichit des apports venant des intervenants multiples susceptibles de commenter, annoter, analyser, etc., les textes sources.

Les outils et méthodologies conséquentes
Au plan linguistique , il s'agira de :
· tester à l'échelle supérieure, des phénomènes habituellement traités au niveau phrastique et ce, dans la lignée des travaux de G. Vignaux sur les processus énonciatifs ;
· mettre au jour des convergences et des divergences de sens ;
· dessiner des cartographies d'arguments qui vont aider à repérer des positionnements d'objets significatifs de l' oeuvre bernardienne ;
· montrer et synthétiser les phénomènes de « spécialisation » de la langue exhibés par le corpus.
Au plan cognitif , il importera de :
· tracer des parcours chronologiques et/ou diachroniques de conceptualisations contribuant à la spécification d'histoires des idées soit sous forme d'évolutions épistémiques d'une discipline (naissance d'une science expérimentale), soit sous forme d'inventaires de secteurs de connaissances constitutifs de futurs thésaurus ;
· construire des architectures de sens favorisant l'indexation et donc la classification des objets du corpus en même temps qu'assurant des « panoramas » d'une pensée. Il s'agira à la fois de clôturer des espaces de connaissances en même temps que d'ouvrir à des embranchements conceptuels et cognitifs, constitutifs de l'hypertextualisation. L'ensemble doit donner lieu à l'établissement d'une « bibliothèque » numérique témoignant au plan conceptuel, de la pertinence de ce modèle hypertextuel.

Développements expérimentaux et scientifiques
· exploiter les ressources du virtuel sous forme de mise à disposition sur le site, d'un réseau coordonné d'aides à la lecture ;
· construire une architecture du sens au plus près des différentes topiques du fonds (thèmes, notions) ;
· établir entre domaines et sous- domaines des relations cohérentes au plan cognitif ;
· domaines et sous -domaines doivent converger sur des thématiques qui vont jalonner les champs (les grandes divisions) de la future bibliothèque numérique ;
· une indexation généralisée doit permettre l'extraction rapide de mots -clés, indicateur s de domaines mais aussi de notions : les notions sont des entités sémantiques génériques, coordonnant et légitimant les conceptualisations appliquées aux domaines et sous -domaines : elles sous-tendent l'architecture de la bibliothèque numérique ;
· d'où l'importance d'un appareil dictionnairique offrant plusieurs types d'entrées : notions, thèmes, auteurs, termes spécifiques.
· enfin, des bibliographies locales doivent converger vers une bibliographie générale.

Chercheurs impliqués dans le projet :

Véronique Eglin - Laboratoire LIRIS ( Laboratoire d'Informatique en Image et Systèmes d'information )- INSA de Lyon
Eric BRUILLARD - UMR STEF (Sciences Technique Education Formation) - ENS de Cachan
Marc AUGIER - professeur de management des systèmes d'information au CERAM
Stephan RENAUD
David PIOTROWSKI -Centre de recherche en épistémologie appliquée de l'Ecole polytechnique (CREA- CNRS)
Marc SILBERSTEIN