[Cet article a été co-écrit avec l'équipe de WeDoData]
Dans le cadre d’une publication dans la revue TANK, WeDoData, Syllabs et Reputation VIP se sont associées pour créer une data-visualisation sur la notion d’e-réputation.
Comment définir et analyser l’e-réputation, notion qui a évolué avec le temps, les outils et les usages ?
En se plongeant dans les textes de professionnels et d’acteurs du secteur nous avons pu analyser les mots associés à l’e-réputation.
Un corpus à base de veille et de crawling
Notre point de départ : une veille professionnelle contenant des articles de blogs, de médias spécialisés et grand public compilée par Laurence Houdeville (Reputation VIP).
Celle-ci fut enrichie par un crawl automatique via un crawler thématique développé par Syllabs. Ce dernier permet à l’utilisateur de définir une thématique en donnant quelques mots clés et le crawler alors des documents associés à cette thématique. Pour en savoir plus sur la technologie, vous pouvez consulter cet article scientifique décrivant la technologie du crawler.
Au final nous avons obtenu 219 articles traitant de l’e-réputation, publiés entre 2002 et 2013.
Des analyses sémantiques
Ce corpus de 346 789 mots passa ensuite au tamis des technologies de Syllabs afin de faire émerger les mots les plus significatifs, leurs co-occurrences, leur diachronie,…
Pour illustrer : nous avons utilisé une extraction terminologique permettant de détecter les termes “saillants” c’est-à-dire ceux qui représentent le mieux les articles. Ce critère est obtenu en comparant la fréquence d’occurrence des termes par rapport à un corpus journalistique (Le Monde) de plus de 10 Millions de mots. Pour en savoir plus, vous pouvez consulter cet article ou tester la plateforme TTC.
Pour mettre en relief ces informations, Laurence nous a proposé sa vision sur le sujet et plus particulièrement, 3 thèmes principaux, eux-mêmes décomposés en 3 sous-thèmes :
L’analyse sémantique a permis de valider la pertinence de ces thèmes et leurs relations.
De même, l’analyse a faire émerger un thème transversale à tous ces thèmes : le juridique. En effet, l’utilisation du vocabulaire de la justice témoigne d’un cadre juridique en pleine construction et en ébullition, notamment les termes se rapportant à la protection des personnes et aux risques encourus par les individus.
En analysant les différents thèmes et sous-thèmes, il est apparu que de nombreux mots leur étaient communs. Afin d’établir leurs relations avec les uns et les autres, un calcul de proximité a été réalisé.
Quelles représentations ?
Une fois l’analyse réalisée, nous nous retrouvons donc avec trois types d’informations :
- l’évolution temporelle des thèmes, grâce à la quantification de chacun de leurs sous-thèmes
- la cartographie des thèmes grâce au calcul de proximité et leur importance dans la totalité du corpus
- la quantification d’un thème juridique, particulier dans l’ensemble
Sur une double page, il était donc possible de trouver trois types de représentations pour incarner chacun de ces temps d’information :
- Des courbes pleines pour représenter l’évolution temporelle des thèmes et de leurs sous-thèmes entre 2006 et 2012
- Des demi-cercles proportionnels pour lister les 10 mots les plus utilisés rattachés au monde juridique
- Une cartographie pour visualiser les liens entre les mots : l’épaisseur du lien représente l’attachement du mot au thème, la taille des bulles représente l’importance des thèmes dans le corpus et la taille des mots représente leur importance dans le corpus.
Data-visualisation et sémantique
Une fois de plus, cette collaboration montre que la data-visualisation n’est pas seulement vouée à l’analyse des chiffres.
D’après l’équipe de WeDoData, les analyses sémantiques effectuées grâce à la technologie Syllabs ont permis de faire émerger des informations qui n’auraient pu être décelées via un travail journalistique manuel.
Publication
Pour pleinement découvrir cette étude, nous vous invitons à vous procurer le dernier numéro de Tank : http://www.facebook.com/TANkLarevue
Voir aussi : notre billet sur la cartographie des 50 ans de discours en la France et l’Allemagne également réalisée avec WeDoData.
The post Cartographie de la notion d’e-réputation (revue TANK) appeared first on Syllabs' blog.