Laboratoire d’analyse de données textuelles

Campus de Moncton

Laboratoire d’analyse de données textuelles

Campus de Moncton

Laboratoire d’analyse de données textuelles

Campus de Moncton

Laboratoire d’analyse de données textuelles

Campus de Moncton

Imprimer cette page
Calendrier
Nouvelles
Bottin
Imprimer cette page
Calendrier
Nouvelles
Bottin

Ressources techniques

Ressources techniques

Le laboratoire se caractérise surtout par les logiciels en analyse de données textuelles : HYPERBASE, ALCESTE, SPHINX et EURÊKA, INTEX/NOOJ, LEXICO , COOCS, et DTM. À ceux-ci se rajoutent quelques logiciels qui permettent le traitement et la gestion de fichiers audio et visuels tels que Sound Forge, Studio DV et Adobe Première.

Exploitation

Deux types d'analyse ou d'exploitation des données sont possibles:

Exploitation Documentaire: Il n'y a pas de chiffre (fréquences ou présence absence), on navigue dans les textes et on recherche des unités qui nous intéressent (un mot, une expression ou une suite de mots et de signes). L’analyse de contenu, le vocabulaire, la concordance des unités, la recherche en contexte, la recherche thématique (les mots associés), les listes de mots (lemmes, mots commençant par, finissant par etc.).

L’exploitation Statistique: fortement influencée par le courant de pensée développé par l'AFC de Benzécri, celle-ci peut comprendre l’analyse des fréquences absolues ou relatives, la distribution lexicale, la richesse du vocabulaire, les formes progressives et régressives et la représentation multidimensionnelle de tous les mots du corpus, L’analyse factorielle du vocabulaire, l’analyse de la cooccurence et de l’association des mots, d’une liste de mots ou encore des variables pertinentes.

 

Présentation des différents logiciels:

ALCESTE

Alceste est un logiciel d'Analyse de Données Textuelles, issu du C.N.R.S. avec le soutien de l'ANVAR, développé par M. Reinart. C'est un outil fondamental d'aide à l'analyse automatiques des données textuelles (questions ouvertes, œuvres littéraires, articles de revues, essais, etc).

Le logiciel Alceste trouve ses applications en sociologie, psychologie, traitement d'enquêtes, analyse de discours, conseils en marketing, publicité, journalisme, histoire, droit, linguistique, médecine, recherche documentaire, analyse de presse, enfin dans les domaines dans lesquels on trouve de grande quantité de texte à traiter.

L'objectif est de quantifier un texte pour en extraire les structures signifiantes ou mondes lexicaux les plus forts, afin de dégager l'information essentielle contenue dans les données textuelles. Les recherches ont montré ( J.P. Benzecri, M. Reinert ) que ces structures sont étroitement liées à la distribution des mots dans un texte et que cette distribution se fait rarement au hasard. Décrire, classer, assimiler, synthétiser automatiquement un texte, tel est l'intérêt présent du logiciel Alceste.

 

Logiciel DTM (Data and Text Mining)

Statistique Exploratoire Multidimensionnelle pour données complexes comprenant des données numériques et textuelles développé par L. Lebart, Directeur de recherches au C.N.R.S., Département SES (Sciences Economiques et Sociales).

Les applications concernent principalement le traitement des enquêtes comportant des questions ouvertes.

- Aspects spécifiques :

Complémentarité des techniques de visualisation (Analyse en composantes principales, Analyse des correspondances simples et multiples) et de la classification automatique (méthode mixte combinant classification hiérarchique [critère de Ward] et centres mobiles [k-means]; cartes auto-organisées de Kohonen).

Validation des techniques de visualisation : Ré-échantillonnage (bootstrap, bootstrap partiel, bootstrap total, bootstrap sur variables). Trois options pour le bootstrap total: Type 1: simple correction de signe pour les axes. Type 2: comme type 1, + correction des interversions d'axes. Type 3 rotations procrustéennes pour rapprocher les réplications de l'échantillon initial.

Analyse de contiguïté et méthodes voisines. Cartes de Kohonen (SOM).

 

HYPERBASE / HYPERBASE (WEB)

Le logiciel Hyperbase, développé par É. Brunet du Laboratoire Bases, Corpus et Langage de l’Université de Nice, est un hypertexte, destiné aux recherches documentaires et statistiques. Les données qu'il traite sont du type texte intégral (full text). Aucune structure n'est supposée a priori dans le document à traiter, dont on n'exige seulement qu'il se présente sous la forme simple d'un fichier ASCII. Les fonctions statistiques dont est doté le logiciel n'impliquent nullement que les données soient numériques. Ces fonctions s'appliquent au texte même, au décompte des occurrences lexicales, suivant la méthode lexicométrique.

La nature des textes importe peu. Hyperbase a été principalement utilisé dans les corpus littéraires (par exemple l'œuvre de Rabelais, de Diderot , de Julien Gracq ou l'intégralité de la Comédie humaine). Mais son application s'est étendue sans problème aux textes juridiques, historiques, publicitaires ou même aux sondages ou enquêtes d'opinion. Même s'il peut traiter rapidement et efficacement les textes courts, son rendement maximum est atteint dans les grands corpus (au delà du million de mots).

 

INTEX/NOOJ

NOOJ a évolué à partir du logiciel INTEX qui avait été développé au Laboratoire LADL par Maurice Gross. Il s’agit d’un environnement de développement linguistique qui construit des dictionnaires et grammaires et fait l’analyse grammaticale de corpus en temps réel.

Développé par Max Silberztein de l’Université de Franche-Comté, NOOJ comprend des outils permettant de créer et de gérer des ressources lexicales importantes, ainsi que des grammaires morphologiques et syntaxiques. Les dictionnaires et grammaires sont appliqués aux textes afin d’identifier les structures morphologiques, lexicales et syntaxiques et de marquer des mots simples et composés.

NOOJ peut élaborer des concordances complexes en utilisant différents type de transducteurs finis. Les utilisateurs de NOOJ peuvent facilement développer des extracteurs pour identifier des unités sémantiques à l’intérieur de textes volumineux tels que des noms propres, dates, expressions techniques, etc. 

 

LEXICO

Lexico, développé par l’équipe SYLED- CLA2T, de l’Université de la Sorbonne nouvelle – Paris 3 (Cédric Lamalle, Serge Fleury, William Martinez, André Salem), permet d’effectuer des analyses globales et locales des textes. Son originalité réside dans la possibilité laissée à l’utilisateur de garder la maîtrise sur l’ensemble des analyses lexicométriques depuis la segmentation initiale jusqu’à l’édition des résultats finaux.

Il offre les principales fonctionnalités suivantes :

- Segmentation

- Décomptes sur les formes textuelles

- Concordances

- Segments répétés

- Spécificités

- Cooccurrences

- Analyses factorielles

 

SPHINX LEXICA

La référence pour les études qualitatives et le traitement des données textuelles, Sphinx a été développé par Jean Moscarola de l’Université de Savoie.

- Ce logiciel permet l’intégration de toutes les fonctions de Primo et Plus² pour les enquêtes et l'analyse de données.

- Importation de tout type de corpus (discours, sites Web, entretiens non directifs, focus groups, bases bibliographiques…).

- Construction de plans de codage pour faire l’analyse de contenu.

- Production de lexiques et navigation lexicale pour mettre en évidence les thèmes et les associations (concordances et lexiques relatifs).

- Analyser les structures linguistiques du texte grâce à l’analyse syntaxique (lemmatisation).

- Mettre en évidence les spécificités lexicales que vous visualisez sur des cartes.

- Lexicométrie : mesure et codification des caractéristiques lexicales du texte, création des variables correspondantes.