Web Sémantique et Informatique Linguistique - Page 1 - test Tous nos livres sont imprimés dans les règles environnementales les plus strictes Il est interdit de reproduire intégralement ou partiellement la présente publication sans autorisation du Centre Français d’exploitation du droit de Copie (CFC) – 20 rue des GrandsAugustins – 75006 PARIS – Tél. : 01 44 07 47 70 / Fax : 01 46 34 67 19. © Éditions Edilivre – Collection Universitaire – 2008 ISBN : 978-2-8121-0127-4 Dépôt légal : Septembre 2008 Tous droits de reproduction, d’adaptation et de traduction, intégrale ou partielle réservés pour tous pays. UNIVERSITE PARIS X – NANTERRE ECOLE DOCTORALE CONNAISSANCE, LANGAGE ET MODELISATION LABORATOIRE MODYCO (MODELES, DYNAMIQUES, CORPUS) – UMR CNRS 7114 CONVENTION CIFRE N° 422/2003 THESE DE DOCTORAT Discipline : Informatique Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Présentée par Florence Amardeilh Sous la direction de Messieurs Jean-Luc Minel et Philippe Laublet 10 Mai 2007 Membres du jury : Rapporteurs : Mme Nathalie Aussenac-Gilles, Chargée de recherche (HDR), CNRS Mr Gilles Kassel, Professeur d’université, Université de Picardie Examinateurs : Mr Benoît Habert, Professeur d’université, Université Paris X-Nanterre Mme Maria-Teresa Pazienza, Professeur d’université, Università di Roma Tor Vergata Co-Directeur : Co-Directeur : Invité : Mr Jean-Luc Minel, Ingénieur de recherche (HDR), CNRS Mr Philippe Laublet, Maître de conférences, Université Paris IV-Sorbonne Mr Jean Delahousse, PDG de Mondeca A mon grand-père Elie Amardeilh, et à mon futur petit bout… Remerciements J’aimerais remercier toutes les personnes qui m’ont aidée durant mon processus de recherche et d’écriture de cette thèse : Jean-Luc Minel, mon directeur de thèse, pour sa disponibilité, ses critiques et ses conseils toujours opportuns ainsi que pour sa grande gentillesse. Philippe Laublet, mon co-directeur de thèse, pour ses idées constructives, ses remarques toujours pertinentes, sa relecture rigoureuse de ce mémoire et nos discussions animées autour des concepts manipulés par cette thèse. Nathalie Aussenac-Gilles, pour qui j’ai énormément d’admiration, et qui me fait l’honneur d’être rapporteur de cette thèse après m’avoir déjà épaulée lors de mon DEA. Gilles Kassel qui a également eu l’amabilité d’accepter d’être rapporteur de ma thèse. Benoit Habert et Maria Teresa Pazienza pour l’intérêt qu’ils ont porté à cette thèse en acceptant de faire partie de mon jury. Jean Delahousse, CEO de Mondeca, qui m’a offert l’opportunité de rejoindre son équipe, me procurant ainsi un cadre de travail et de réflexion propice à la réalisation de cette thèse, grâce notamment aux divers projets et conférences auxquels j’ai pu participer activement. Toute l’equipe de Mondeca, et notamment Benoît, Thomas, Anh, Louis, Olivier, Laurence, Bernard et Gilles, pour les nombreuses heures passées ensemble sur les projets ou au Merle Moqueur, pour leur aide précieuse et pour leur bonne humeur revigorante. Les linguistes de Témis, et en particulier Vincent, Amandine, Sylvie, Jean-Pierre, Sophie, Christian, Françoise et Stéphanie avec qui j’ai eu plaisir à travailler et à échanger à propos des analyses linguistiques réalisées dans les projets que nous avons menés ensemble. L’ensemble de mes amis (désolée encore pour ces derniers longs mois d’absence) ainsi que toutes les personnes qui ont croisé un jour mon chemin et qui ont su me supporter durant ces années de thèse, parfois éreintantes, mais toujours enrichissantes. Ma famille, et plus particulièrement mes parents, qui ont su m’encourager jour après jour et qui ont toujours cru en moi. Sans leur soutien constant, tant affectif que matériel, je n’aurai jamais pu accomplir mes études et envisager cette thèse. Et enfin, mon « coach perso », mon mari, mon épaule, mon cerveau aussi parfois, Stéphane, pour son amour, sa tendresse, sa présence et sa grande patience, sans qui je ne serai peut-être pas arrivée au bout de cette aventure… Résumé Cette thèse aborde les problématiques liées à l’annotation sémantique et au peuplement d’ontologies dans le cadre défini par le Web Sémantique (WS). La vision du WS a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources, textuelles ou multimédias, doivent être sémantiquement étiquetées par des métadonnées afin que les agents logiciels puissent les exploiter. Dans le processus d’annotation sémantique, les ontologies jouent un rôle primordial puisqu’elles modélisent les concepts, leurs attributs et les relations utilisées pour annoter le contenu des documents. Mais il est aussi important que la base de connaissance, associée à cette ontologie, contienne les instances à utiliser pour l’annotation sémantique. C’est pourquoi la tâche de peuplement d’ontologie a pour but d’enrichir (semi-)automatiquement la base de connaissance avec de nouvelles instances de concepts, d’attributs et de relations. L’idée proposée ici est de combiner les outils d’extraction d’information (EI) avec les outils de représentation des connaissances du WS pour la réalisation de ces deux tâches. Malgré tout, il existe actuellement un fossé entre les formats de représentation des outils linguistiques et ceux des outils WS pour la représentation des connaissances. Cette thèse propose de combler ce fossé en concevant un médiateur capable de transformer les étiquettes générées par les outils d’EI en une représentation plus formelle, que ce soit sous la forme des annotations ou des instances d’une ontologie. Autrement dit, nous tentons de répondre à la problématique suivante : comment pouvonsnous passer d’une certaine représentation du texte à une représentation sémantique de la connaissance ? L’enjeu consiste aussi bien à proposer une réflexion méthodologique sur l’interopérabilité des différentes technologies qu’une conception de solutions opérationnelles dans le monde des entreprises, et à plus large échelle du Web. Dans le cadre de cette thèse, nous avons donc conçu une démarche que nous avons nommée OntoPop, pour « Ontology Population ». Cette démarche propose une passerelle sous la forme de règles, dites « d’Acquisition de Connaissance ». Le langage OPAL (Ontology Population and Annotation Language) définit la grammaire pour l’implémentation de ces règles. Enfin, nous soumettons des propositions pour l’opérationnalisation de la démarche OntoPop à travers une méthodologie en cinq étapes et une plateforme logicielle basée sur l’outil de représentation des connaissances ITM de la société Mondeca. Mots-clefs : Annotation Sémantique, Peuplement d’Ontologie, Web Sémantique, Acquisition de Connaissance, Extraction d’Information. Abstract This thesis deals with the issues related to semantic annotation and ontology population within the framework defined by the Semantic Web (SW). The vision of the Semantic Web aims to structure information available on the Web. To achieve that goal, the resources, textual or multimedias, must be semantically tagged by metadata so that the software agents can exploit them. In the process of semantic annotation, ontologies play a major part since they model the concepts, their attributes and the relations used to annotate the contents of the documents. But it is also important that the knowledge base, associated with this ontology, contains the instances to be used for semantic annotation. This is why the purpose of the ontology population task aims to enrich (semi-)automatically the knowledge base with new instances of concepts, attributes and relations as defined by the ontology model. The idea suggested in this thesis is to combine the information extraction (IE) tools with the knowledge representation tools of the WS for the achievement of these two tasks. Despite all integration efforts, there is currently a gap between the representation formats of the linguistic tools and those of the knowledge representation tools in the field of the Semantic Web. This thesis proposes to fill this gap by designing a mediator able to transform the tags generated by the IE tools into a more formal representation. In other words, we try to answer the following issue: how can we map a certain textual representation into a semantic knowledge representation? The stake consists in proposing a methodological reflexion about the interoperability of various technologies as well as a design of operational solutions in the world of the companies, and on broader scale of the Web. Within this thesis, we thus conceived a framework named OntoPop for "Ontology Population". This framework proposes a bridge in the form of rules, known as "Knowledge Acquisition Rules". The OPAL language (Ontology Population and Annotation Language) defines a grammar for the implementation of these rules. Lastly, we submit proposals for the implementation of the OntoPop through a methodology in five stages and a software platform based on the knowledge repository ITM designed by Mondeca. Mots-clefs : Semantic Annotation, Ontology Population, Semantic Web, Knowledge Acquisition, Information Extraction. Table des Matières REMERCIEMENTS RESUME ABSTRACT TABLE DES MATIEREI LISTE DES FIGURE LISTE DES TABLEAUX INTRODUCTION I. DU BESOIN PARTICULIER DE MONDECA… II. …VERS UNE PROBLEMATIQUE PLUS GENERALE DANS LE CADRE DU WEB SEMANTIQUE III. DEROULEMENT DE LA THESE ET GUIDE DE LECTURE 1 1 3 5 PREMIERE PARTIE. ETAT DES LIEUX AUTOUR DE L’ANNOTATION SEMANTIQUE CHAPITRE 1. L’ANNOTATION ET LE WEB SEMANTIQUE 1.1 L’ANNOTATION SEMANTIQUE 1.1.1 Quelques définitions 1.1.2 Les dimensions de l’annotation sémantique 1.2 L’ANNOTATION ET LE WEB SEMANTIQUE 1.2.1 Les Ressources Terminologiques ou Ontologiques (RTO) 1.2.2 Les RTO et l’annotation sémantique 1.3 LES LANGAGES DE L’ANNOTATION SEMANTIQUE 1.3.1 Les précurseurs 1.3.2 La pyramide des langages du Web Sémantique 1.3.3 Une alternative, les Topics Maps 1.4 LES OUTILS D’ANNOTATION SEMANTIQUE 1.4.1 Qu’est-ce qu’un outil d’annotation sémantique ? 1.4.2 Synthèse des outils existants 1.5 DISCUSSION 1.5.1 Synthèse au sujet de l’annotation sémantique 1.5.2 Vers une méthodologie d’annotation sémantique CHAPITRE 2. L’EXTRACTION D’INFORMATION, UNE APPLICATION DU TAL POUR L’ANNOTATION SEMANTIQUE 9 11 11 11 13 21 22 28 30 31 33 39 41 41 42 46 46 47 49 49 50 52 55 55 59 63 69 2.1 PRESENTATION DE L’EXTRACTION D’INFORMATION 2.1.1 Les tâches de l’extraction d’information 2.1.2 Les règles d’extraction d’information 2.2 DEUX EXEMPLES D’OUTILS D’EXTRACTION D’INFORMATION 2.2.1 GATE 2.2.2 Insight Discoverer™ Extractor 2.3 REFLEXION SUR LA REPRESENTATION EN ARBRE CONCEPTUEL 2.4 CONCLUSION DEUXIEME PARTIE. NOTRE DEMARCHE, ONTOPOP CHAPITRE 3. AU CŒUR D’ONTOPOP : LES REGLES D’ACQUISITION DE CONNAISSANCE 3.1 UNE PASSERELLE POUR L’ANNOTATION SEMANTIQUE ET LE PEUPLEMENT D’ONTOLOGIE 3.2 LA FORMALISATION DES REGLES D’ACQUISITION DE CONNAISSANCE 3.2.1 L’importance du contexte dans les arbres conceptuels 3.2.2 La méthode d’exploration contextuelle 3.2.3 Les constituants d’une Règle d’Acquisition de Connaissance 3.3 L’IMPLEMENTATION DES REGLES D’ACQUISITION DE CONNAISSANCE 3.3.1 Le langage OPAL 3.3.2 Edition et compilation des Règles d’Acquisition de Connaissance 3.4 CONCLUSION CHAPITRE 4. CYCLE DE VIE DES RESSOURCES TERMINOLOGIQUES OU ONTOLOGIQUES 4.1 ONTOPOP, UN CERCLE VERTUEUX 4.1.1 L’analyse linguistique 4.1.2 L’application des Règles d’Acquisition de Connaissance 4.1.3 L’enrichissement des lexiques linguistiques 4.2 L’ANNOTATION SEMANTIQUE ET LE PEUPLEMENT ONTOLOGIQUE 4.2.1 La transformation 4.2.2 La consolidation 4.2.3 La validation 4.3 LA MAINTENANCE DES LEXIQUES ET AUTRES RESSOURCES LINGUISTIQUES 4.4 CONCLUSION TROISIEME PARTIE. L’IMPLEMENTATION DE NOTRE SOLUTION ONTOPOP CHAPITRE 5. LA METHODOLOGIE ONTOPOP 5.1 PRESENTATION GENERALE DE LA METHODOLOGIE 5.2 LA PHASE D’ETUDE 5.3 LA PHASE DE STRUCTURATION 5.3.1 Modélisation de l’ontologie du domaine 5.3.2 Construction des cartouches linguistiques 5.4 LA PHASE DE COUPLAGE 5.5 LA PHASE DE VALIDATION 5.6 LA PHASE DE MISE EN SERVICE 5.7 CONCLUSION CHAPITRE 6. LA PLATEFORME LOGICIELLE D'ONTOPOP 6.1 L’EDITEUR DES REGLES D’ACQUISITION DE CONNAISSANCE 6.1.1 L’architecture 6.1.2 Le processus détaillé 6.1.3 L’implémentation technique 6.2 LE MODULE D’ANNOTATION ET D’ACQUISITION D’ITM 6.2.1 Le Module d’Extraction d’Information 6.2.2 Le Module de Peuplement d’Ontologie 6.2.3 Le Module d’Annotation Sémantique 6.2.4 Le Module de Stockage 6.2.5 L’Interface de validation 6.3 LE MODULE DE MAINTENANCE DES LEXIQUES 6.3.1 L’architecture 6.3.2 Le processus détaillé 6.3.3 L’implémentation technique 6.4 CONCLUSION 71 73 73 75 75 78 79 83 83 87 93 95 95 95 95 97 98 99 102 109 110 113 115 117 117 118 121 121 123 126 128 130 131 133 133 134 134 135 136 138 140 143 144 147 151 151 152 153 153 QUATRIEME PARTIE. EXPERIMENTATIONS ET BILAN DE LA DEMARCHE PROPOSEE 157 CHAPITRE 7. EXPERIMENTATIONS ET EVALUATION D’ONTOPOP 7.1 MESURES POUR L’EVALUATION 7.1.1 Mesures de la performance des RACs 7.1.2 Mesure de la complexité des RACs 7.2 LES EXPERIMENTATIONS 7.2.1 Le projet « Presse People » 7.2.2 Le projet « Edition juridique » 7.3 REFLEXIONS SUR L’EVALUATION DES SYSTEMES D’ANNOTATION SEMANTIQUE OU DE PEUPLEMENT D’ONTOLOGIE 159 160 160 161 162 163 170 175 177 179 179 180 183 184 191 7.4 CONCLUSION CHAPITRE 8. BILAN ET PERSPECTIVES D’EVOLUTION POUR ONTOPOP 8.1 LES LIMITES D’ONTOPOP 8.1.1 Problèmes liés à la définition des Règles d’Acquisition de Connaissance 8.1.2 Problèmes liés au déclenchement des Règles d’Acquisition de Connaissance 8.2 VERS L’ALIGNEMENT D’ONTOLOGIES ? 8.3 CONCLUSION CONCLUSION GENERALE 193 ANNEXES. ANNEXE I. ETUDE DES OUTILS D’ANNOTATION SEMANTIQUE I.1 LA GRILLE DE LECTURE 1.2 DESCRIPTION DES OUTILS 1.2.1 L’approche Web Sémantique 1.2.2 L’approche Acquisition des Connaissance 1.2.3 Les développements récents ANNEXE II. ANALYSE D’UN ARBRE CONCEPTUEL GENERE A PARTIR DE L’OUTIL IDE 199 201 201 205 206 218 228 233 251 252 259 ANNEXE III. RESULTATS DES EVALUATIONS III.1 L’EVALUATION DU PROJET DE LA PRESSE PEOPLE III.2 L’EVALUATION DU PROJET DE L’EDITION JURIDIQUE RÉFÉRENCES BIBLIOGRAPHIQUES 263 Liste des Figures Figure 1. Fonctionnalités proposées par l’outil Intelligent Topic Manager™ .......................................... 2 Figure 2. Exemple d’une annotation utilisant le descripteur « dc:sujet » du DublinCore pour annoter le contenu du document source ................................................................................................................ 15 Figure 3. Exemple d’annotations générées aux différents niveaux morphologique, syntaxique et sémantique d’une analyse linguistique ................................................................................................. 17 Figure 4. Exemple d’une annotation sémantique orchestrée par une ontologie de référence ............. 18 Figure 5. Extrait d’une taxonomie sur la représentation simplifiée de la faune .................................... 22 Figure 6. Les différentes relations qui composent un thesaurus .......................................................... 24 Figure 7. Définition formelle d’une ontologie donnée par Handschuh [HAN 05] .................................. 25 Figure 8. Exemple d’une ontologie dans le domaine de la presse « People » ..................................... 26 Figure 9. Le continuum RTO, issu d’un tutoriel de D. Riañyo......................................................... 28 Figure 10. Extrait de l’article « Le Clan Coppola » paru dans le magasine ELLE, le 30/02/2003. ....... 29 Figure 11. Exemple d’une annotation sémantique en HTML-A ............................................................ 31 Figure 12. Exemple d’une annotation sémantique en SHOE ............................................................... 32 Figure 13. Pyramide des langages du Web Sémantique en 2005........................................................ 33 Figure 14. Exemple d’annotation sémantique en RDF (notation graphique à gauche et XML à droite) ............................................................................................................................................................... 35 Figure 15. Exemple d’annotation sémantique basée sur un schéma RDFS ........................................ 36 Figure 16. Exemple d’annotation sémantique en OW Lite.................................................................... 38 Figure 17. Exemple d’une annotation sémantique en Topic Maps (notation graphique)...................... 40 Figure 18. Exemple d’application d’une règle d’extraction pour remplir un formulaire « Naissance » . 53 Figure 19. Exemple d’une expression régulière exprimée en JAPE..................................................... 57 Figure 20. L’environnement de développement d’une application de GATE........................................ 57 Figure 21. La visualisation des informations extraites et annotées dans GATE................................... 58 Figure 22. Exemple d’une sérialisation en XML des annotations embarquées générées par GATE... 59 Figure 23. Exemple d’une expression régulière dans IDE, combinant étiquettes syntaxiques (« NOUN ») et étiquettes sémantiques (« brand_product ») ................................................................ 60
Web Sémantique et Informatique Linguistique - Page 1
Web Sémantique et Informatique Linguistique - Page 2
wobook