Le Prisme - Décembre 2015 No15 - page 4

Décembre 2015 No 15
4
L’intelligence artificielle en
quête des auteurs anonymes
Dans la société d’aujourd’hui, de plus
en plus de textes sont échangés sous
forme électronique que ce soit sur
les réseaux sociaux, par courriel, par
messagerie instantanée ou bien sur des
forums de discussion sur le Web. Pour
ces modes de communication, il est
plutôt commun que la publication de
textes soit faite sous des pseudonymes,
de fausses identités ou tout simplement
de façon anonyme. Cette utilisation est
parfois justifiée, pour préserver la vie
privée des gens, mais dans d’autres cas,
elle constitue un véritable problème,
par exemple, lors de menaces anonymes
proférées envers des individus.
Un courant de recherche pour identifier
les auteurs de textes est la stylométrie.
Elle se base sur
l’étude linguistique
et statistique des œuvres
pour identifier leur style,
leur époque ou leur auteur. Son
but est de découvrir l’ensemble des
caractéristiques d’une époque, d’une
œuvre ou d’un auteur. Historiquement,
elle a été utilisée pour analyser des
textes anciens afin d’identifier des
auteurs potentiels. Des exemples bien
connus sont l’étude de la paternité
des œuvres de Shakespeare ou de celle
du Manuscrit de Voynich. Depuis
l’arrivée des ordinateurs, le nombre et la
variété des œuvres analysées se sont vus
sensiblement accrus. Cette méthodologie
peut être généralisée à d’autres œuvres
artistiques telles que la musique et la
peinture.
La professeure Chadia MOGHRABI
et le professeur Philippe FOURNIER-
VIGER, ainsi que leur étudiant de
maîtrise en informatique Jean Marc
POKOU, travaillent sur ce sujet de
recherche.
Leur revue bibliographique a fait ressortir
que la majorité des études précédentes se
sont concentrées sur l’analyse statistique
des attributs numériques du texte, tels
que le nombre de mots, la longueur
des phrases, et le nombre d’occurrences
des mots-outils (function words) tels
que les pronoms, les prépositions et les
conjonctions. Peu d’études ont porté sur
une analyse linguistique plus approfondie
des textes en se basant sur le contenu
syntaxique et sémantique.
L’hypothèse sous-jacente à leurs travaux
est que chaque auteur a son propre
style, son vocabulaire habituel et ses
propres tournures de phrases, entre
autres. L’objectif de leur projet est de
développer de nouveaux algorithmes
plus performants pour l’identification
d’auteurs. L’utilisation des ordinateurs
permet d’élargir la variété des méthodes
utilisées et ainsi d’introduire des
techniques informatiques novatrices.
Pour ce faire, l’équipe de recherche
compte utiliser des techniques
d’intelligence artificielle et de fouille de
données, branches de l’informatique
reconnues capables de découvrir des
caractéristiques (textuelles, ici) non
préalablement et explicitement planifiées
par le logiciel. Elle s’attend à démontrer
la performance de ses algorithmes
comparativement aux approches
purement numériques portant sur la
forme plutôt que sur le fond.
Les outils qui seront développés
répondront à un besoin pressant de
notre société. Depuis quelques années,
les parents, les directions d’écoles et
la société en général s’intéressent à la
sécurité sur le Web et sur les réseaux
sociaux. Ces techniques peuvent aider
les directions d’écoles et la police à
reconnaître les auteurs de messages
d’intimidation, de messages haineux,
et aider à reconnaître les écrits de
potentiels criminels.
1,2,3 5,6,7,8,9,10,11,12
Powered by FlippingBook