Que peuvent les algorithmes de plongement de mots pour l’analyse sociologique des textes ?
Analyser les discours et caractériser les locuteurs des plateformes « Grand Débat National » et « Vrai Débat »
Résumé
Dans cet article, nous nous proposons de contribuer à l’évaluation de l’apport des algorithmes dits de « plongement de mots » à l’analyse sociologique des textes : d’une part, en confrontant les résultats des analyses sémantiques de ces algorithmes aux approches maintenant bien connues des analyses de données textuelles ou de textométrie ; d’autre part, en s’intéressant à ce qui constitue un des principaux obstacles à l’analyse sociologique du web : la difficulté à caractériser sociologiquement les auteurs des énoncés issus du web. Pour cela, nous analysons les énoncés issus de plateformes de « civic tech » – plateforme gouvernementale, le « Grand Débat National », et sa riposte politique et algorithmique proposée par un collectif de Gilets jaunes, le « Vrai Débat ». Un troisième corpus issu de la plateforme « Entendre la France », au design identique à celui du Grand Débat National et par ailleurs documenté en termes de propriétés socio-politiques, nous permettra de caractériser les locuteurs en fonction de leurs discours et de tenter de prédire par des approches de machine learning des « pseudos propriétés » affectées aux locuteurs du Grand Débat National.