La tête dans les nuages avec Wordle
Comme Jean Véronis avait l'air de bien s'amuser avec ses nuages, ça m'a donné envie de m'y mettre aussi. Je n'ai ni les connaissances, ni les outils de Jean, mais je me suis dit que je pourrais peut-être obtenir quelque chose d'intéressant. Pour ne pas faire de nuages trop idiots, je me suis mis en tête d'analyser le contenu de mon blog afin de le comparer avec le nuage réalisé par Jean des mots les plus cités sur les blogs littéraires, reproduit ci-dessous :
Comme je me suis pris au jeu, j'ai poursuivi l'expérience en comparant les contenus de quelques blogs de ma blogroll : il s'agit des blogs de Cuné, de Fashion et d'Ys (j'en aurais bien choisi plus, mais mine de rien, on passe vite beaucoup de temps à bricoler ces nuages). Comme pour le nuage ci-dessus, les messages passés à la moulinette sont ceux des deux derniers mois. Mais trêve de bavardage, voici le résultat en image :
Mon nuage (un clic dessus pour agrandir)
Le nuage de Cuné
Le nuage de Fashion
Le nuage d'Ys
Méthode (tutoriel un peu indigeste, je ne vous en voudrai pas si vous zappez cette partie...)
Les nuages ont été réalisés avec Wordle. Si vous vous rendez sur le site, vous constaterez que vous pouvez facilement créer des nuages en réalisant un copier/coller d'un texte ou en saisissant l'adresse de votre blog. Mais le résultat obtenu par cette méthode n'est pas très intéressant, car les mots pris en compte par Wordle ne sont pas forcément pertinents et vous vous retrouvez avec un nuage faisant ressortir adverbes et autres conjonctions...
Pour obtenir des nuages un peu plus intéressants, j'ai utilisé une autre application en ligne, Textanalyser, dans laquelle j'ai copié/collé l'intégralité des messages des deux derniers mois pour chaque blog. Pour les réglages, il faut analyser au moins 200 mots, puis cliquer sur Analyser le texte. J'ai ensuite recopié les résultats obtenus, mais en interprétant un peu les résultats : j'ai écarté les adverbes et certains mots à faible valeur ajoutée (il doit y avoir un terme technique pour ce genre de mots...). J'ai également réuni quand je le pouvais noms et prénoms. Finalement, il faut obtenir un tableau faisant apparaître les mots et leur fréquence, ce qui donne ça :
roman:71
histoire:54
texte:45
livre:34
...
Ensuite, j'ai copié/collé ce tableau (70 mots par nuage) dans la version avancée de Wordle, et c'est seulement à ce stade que l'on peut jouer avec les couleurs et les polices et fabriquer de jolis nuages. Ouf.
Si vous souhaitez voir ou manipuler ces données, voici les liens vers les fichiers que j'ai utilisés :
Fichiers de messages pour Textanalyser : Calepin - Cuné - Fashion - Ys
Fichiers de données pour Wordle advanced : Calepin - Cuné - Fashion - Ys
Observations et commentaires
Cuné a un nuage plutôt homogène et typé littérature (roman, livre, histoire, pages, etc. sont bien visibles). Elle est dans une période Dickens, qui explique la présence de Chadband, de Snagsby et d'anglais dans son nuage. Plaisir est en bonne place, c'est plutôt bon signe non ?
Le nuage de Fashion est facilement reconnaissable : le "chers happy few" présent dans beaucoup de ses messages a laissé des traces ! Sinon, on remarque saison ainsi que épisodes, Docteur et Torchwood : Fashion a beaucoup regardé la télé en mars...
Ys a un nuage très homogène, bien ciblé littérature (comme pour Cuné, on retrouve roman, histoire, livre et pages), quoique film soit assez visible. Un détail rigolo : homme et son pluriel sont très visibles : ne s'agit-il vraiment que d'un tic de langage ?
Pour finir, mon nuage fait beaucoup ressortir les noms d'auteurs et titres de romans : cela s'explique par le fait que je publie beaucoup moins de messages que mes amies blogueuses (qui a dit que c'était comme cela que l'on reconnaissait un blog de mec ?), du coup ces éléments prennent plus d'importance. Sinon, Roman est très visible, il n'y a pas tromperie sur la marchandise lorsque vous vous rendez sur Romans et Lectures...
Conclusion
Après avoir longtemps joué avec ces chiffres et ces nuages, j'ai trouvé que l'analyse de textes, même réalisée par un amateur avec des moyens très basiques, se révélait être un moyen d'investigation assez étonnant et indiscret : on y décèle les habitudes, bonnes ou mauvaises, les centres d'intérêt, les tics de langage (assez flagrant pour les adverbes avec Textanalyser : il faut vraiment que je cesse d'employer vraiment à tout bout de champ...), etc. Il est également assez facile de faire de la psychologie de bas étage avec ces données. En conclusion, des résultats plutôt instructifs et surprenants : des outils à tester si votre emploi du temps déjà surchargé vous le permet encore...