Discussion Wiktionnaire:Statistiques

Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.
Aller à : Navigation, rechercher

Sommaire

[modifier] Mise à jour

Peut-être serait-il (grand) temps de mettre à jour les stats qui datent de 10 mois ? Sans doute est-ce un peu fastidieux alors il serait bon que plusieurs personnes s'y collent tout à tour ? M'enfin, moi ce que j'en dis...

Le Zozo masqué 9 avril 2010

[modifier] Mise à jour

Après une longue absence, j’ai réussi à installer les outils nécessaires aux calculs de statistiques. LBO disc 11 avril 2010 à 09:54 (UTC)

Merci pour ton travail et ton retour. On va enfin avoir des stats digne de ce nom. Le problème c'est que cet outil qui fournit les stats ne dépend que d'une personne (toi) ce qui faait que si tu quittes le projet ou que tu as un problème informatique quelconque (perte de la connexion internet, d'un ordinateur, etc), les stats ne sont plus mises à jour. Est-il possible d'envisager que tu écrives un tuto expliquant pas à pas comment obtenir ses stats pour que n'importe qui puisse mettre à jour cette page ? Merci encore. Pamputt [Discuter] 11 avril 2010 à 18:09 (UTC)
Si tu veux. mais c'est du bricolage... 18 avril 2010 à 11:46 (UTC)

[modifier] Tutoriel

  • Prendre le dernier fichier dump xml sur le site [1] comprenant l'ensemble des articles.
  • Pour chacun des articles, découper l'article en sous-articles de premier niveau (= par langue ) grâce aux balises du {{}} et les quelques exceptions éventuelles ({{-car-}} …)
  • Pour chacun des sous-articles:
    • Mesurer la taille en octets (Je laisse les catégories dans le sous-article)
    • Rechercher les balises de second niveau. Pour ce faire, le plus simple est d'extraire intégralement les balises du type {{-x*-}}
  • Ensuite, charger dans Excel le résultat produit sur deux fichiers XML et faire le ménage...
    • Supprimer du décompte les balises sans intérêts pour les statistiques ( références, balises non gramaticales ...)
    • Affecter les balises à des groupes. Par exemple, toutes les flexions dans le même groupe
    • Faire un pivot dans Excel
    • Ajouter de l'habillage
    • Convertir dans un format wikipedia
Tu convertis avec quoi stp ?. JackPotte ($) 18 avril 2010 à 12:36 (UTC)
Très simplement, En fait, j'ai mes résultats dans une Worksheet et j'ai créé une autre pour le formattage et je formatte les données par correspondance. j'ai quatre formules de bases
les têtes de lignes ="|- |bgcolor='#EEEEEE' |{{"&Tab!LC&"}}"
les têtes de colonnes ="||bgcolor='#EEEEFF' | <B>"&Tab!LC&"</B>"
les cellules colorées ="|| "&Couleur(Tab!LC;100000)&"|"&SI(Tab!LC>1000;TEXTE(Tab!LC;"###.###.##0");SI(Tab!LC=0;" - ";Tab!LC))
La fonction couleur permet de générer des dégradés en fonction du nombre d'occurence et d'un seuil:
Function Hex2Dec(ByVal Hex As String) As Long
  Dim n As Long
  Dim i As Integer
  For i = 1 To Len(Hex)
    Dim CharHex As String
    CharHex = UCase(Mid(Hex, i, 1))
    If Asc(CharHex) >= 65 Then
      n = n + (Asc(CharHex) - 55) * (16 ^ (-i + Len(Hex)))
    Else
      n = n + CInt(CharHex) * (16 ^ (-i + Len(Hex)))
    End If
  Next i
  HexToDec = n
End Function

Function Dec2Hex(Dec) As String
    Dec2Hex = Hex(CInt(Dec))
End Function

Function Couleur(Evolution, NombreTotal) As String
Dim iEvo As Long
iEvo = CLng(Evolution)
    If iEvo = 0 Then
        Couleur = "bgcolor='grey'"
    ElseIf iEvo > 0 Then
        If Evolution < NombreTotal / 2 Then
            Rouge = Round(255 - 255 * 2 * Evolution / NombreTotal, 0)
            Vert = 255
            Bleu = Rouge
        Else
            Rouge = 0
            Vert = 255 - 255 * 2 * (Evolution - NombreTotal / 2) / NombreTotal
            Bleu = 0
        End If
        If Rouge < 0 Then
            Rouge = 0
        ElseIf Rouge > 255 Then
            Rouge = 255
        End If
        
        If Vert < 0 Then
            Vert = 0
        ElseIf Vert > 255 Then
            Vert = 255
        End If
        If Bleu < 0 Then
            Bleu = 0
        ElseIf Bleu > 255 Then
            Bleu = 255
        End If
        Couleur1 = "bgcolor='#" & Right("00" & Dec2Hex(Rouge), 2) & Right("00" & Dec2Hex(Vert), 2) & Right("00" & Dec2Hex(Bleu), 2) & "'"
        If Rouge = 0 Then
            Couleur = Couleur1 + " style='color:white;' "
        Else
            Couleur = Couleur1
        End If
        
    Else
        Couleur = "bgcolor='red'"
    End If
End Function

LBO disc 21 avril 2010 à 19:14 (UTC)

[modifier] rohingya

Bonjour, les dernières statistiques indiquent qu'il n'y a aucun article en rohingya. Or, il en existe au moins un. D'où vient le problème ? Pamputt [Discuter] 19 avril 2010 à 10:10 (UTC)

Euh?! J'en vois même 12. Cependant, il y en a 11 qui ont changé de codes de {{cit}} à {{rhg}} LBO disc 11 mai 2010 à 18:47 (UTC)

[modifier] Format du tableau de statistiques

Bonjour, Serait-il possible d'afficher également les totaux du tableau de statistiques juste en dessous des intitulés de colonnes. On doit actuellement aller tout en bas du tableau pour trouver ces totaux, et sans pouvoir voir les intitulés, on ne sait pas à quoi correspond chaque chiffre. Merci d'avance pour vos réponses. Blacksabbath4343 17 mai 2010 à 03:07 (UTC)

[modifier] Existe-t-il une norme "internationale" pour le calcul des statistiques au sein du projet wiktionary ?

Bonjour, Existe-t-il une norme "internationale" pour le calcul et la présentation des statistiques au sein du projet wiktionary ? Apparemment, ce n'est pas le cas. Le tableau en français est très lisible et bien conçu. Même si le total du bas de tableau ne semble pas correspondre au total affiché en début de page. Par contre, la version anglaise se passe de commentaires...Aucune couleur, classement alphabétique et confus, pas de total... Des réflexions ont-elle été entamées sur la définition de standards pour le traitement de ces statistiques ? Quid de la fiabilité des statistiques présentées par chaque pays ? Tiens, ça me rappelle d'ailleurs quelque chose cette histoire de statistiques truquées ! En tous cas, félicitations à ceux qui travaillent sur le sujet actuellement et qui ont créée cette belle page pleine d'esthétique ! Continuez comme ça. Blacksabbath4343 17 mai 2010 à 03:20 (UTC)

Non, il n'y a pas de discussions, c'est juste les projets qui peuvent s'inspirer les uns des autres. Il y a des améliorations à apporter : utiliser un critère de classement compréhensible (par exemple le nombre d'entrées), ajouter une colonne avec le rang... Lmaltier 17 mai 2010 à 05:25 (UTC)

[modifier] inversion de 2 colonnes

j'ai l'impression que les dates sont inversées entre les colonnes "Mots le 30 mars 2010" et "Mots le 23 juin 2010".Hector 25 août 2010 à 08:58 (UTC)

C'est vrai, je l'avais déjà signalé à l'auteur. JackPotte ($) 25 août 2010 à 11:54 (UTC)

[modifier] nombre d'entrées sans les formes fléchies

je verrais bien une colonne "nombre d'entrées sans forme fléchie", afin de pouvoir comparer facilement avec les dictionnaires qui souvent n'intègrent pas les formes fléchies. Merci Hector 25 août 2010 à 10:43 (UTC)

On appelle ça les lemmes. JackPotte ($) 25 août 2010 à 11:47 (UTC)
Bien vu, merci !Hector 26 août 2010 à 15:38 (UTC)

[modifier] Collaboration

Bonjour, suite au départ de Laurent Bouvier qui maintenait cette page, une collaboration s'est mise en place pour écrire du code qui permettra de mettre ces statistiques à jour. Si vous voulez participer, rendez vous ici. Pamputt [Discuter] 9 mars 2011 à 16:14 (UTC)

Nul n'est indispensable. Bravo pour ton initiative. LBO disc 30 avril 2011 à 12:53 (UTC)

[modifier] russes

Où sont passées les 150 000 mots russes ? (voir les colonnes de droite)Hector 15 mai 2011 à 23:30 (UTC)

Il me semble qu’une bonne partie des entrées en russe sont des noms de famille (voir Noms de famille en russe) qui compte plus de 17000 mots. Pour le reste je ne sais pas Pamputt [Discuter] 16 mai 2011 à 09:33 (UTC)
En fait il y a 17 000 noms de famille et 134 000 flexions de ces mêmes noms de famille ! Il ne reste ensuite que 4500 mots normaux (noms, verbes, adjectifs, noms propres). — Dakdada (discuter) 16 mai 2011 à 15:16 (UTC)

OK, merci pour ces précisions. Ça montre selon moi l'intérêt de ma proposition 2 paragraphes plus haut, de faire une colonne avec des lemmes uniquement, sans flexions & noms propres , pour qu'on ait une base de comparaison avec les dictionnaires classiques. Il est aujourd'hui très difficile de répondre à une question toute bête : "je pars en vacances en Russie, est-ce que le wiktionnaire saura me satisfaire ou aurai-je besoin d'un autre dictionnaire ?" Hector 20 mai 2011 à 08:16 (UTC)

La cellule "lemme russe" semble encore assez étrange, sans doute qu'on n'enlève pas les 17000 noms de famille. ça vous dirait d'enlever les noms de famille/noms propres à la colonne lemme ? Hector (discussion) 16 mai 2012 à 13:29 (UTC)
C'est techniquement possible mais je ne vois pas bien l'intérêt de le faire. Si une langue a plein de noms de famille alors c'est déjà pas mal même si ce n'est pas représentatif des mots communs mais bon. Les lemmes permettent d'avoir quand même une idée relativement exactes du vocabulaire « utile » d'une langue. Pamputt [Discuter] 16 mai 2012 à 13:53 (UTC)

[modifier] Tableau triable

Bonjour, j’ai essayé de rendre le tableau de stats triable (voir ceci). Cela dit ça ne semble pas fonctionner (le tableau reste statique, sans flèche). C’est normal ? Pamputt [Discuter] 11 octobre 2011 à 07:07 (UTC)

C’est parce que les titres de colonnes ne sont pas définis comme tel (il faut utiliser ! à la place de |). J’ai modifié. — Dakdada (discuter) 12 octobre 2011 à 09:06 (UTC)
Il faut aussi ajouter « class="sortbottom" » aux deux rangées devant rester en bas du tableau (total et rappel des titres de colonnes). J’ai aussi modifié. —C.P. 12 octobre 2011 à 09:23 (UTC)
Lettres
C
A
B
Fixe

La colonne Évolution ne fonctionne pas à cause des signes + et -.

Évolution Sans '+' Sans '+' ni espace Sans espace
0 0 0 0
+ 1 1 1 +1
- 1 - 1 -1 -1
- 16 - 16 -16  -16
+ 15 15 15 +15

Il faudrait peut être retirer les "+" ou les espaces. --Moyogo (discuter) 12 octobre 2011 à 09:14 (UTC)

C’est effectivement les espaces (mais pas le signe « + ») qui empêche le tri correct et qu’il faudrait retirer. —C.P. 12 octobre 2011 à 09:31 (UTC)
Ok, Moyogo a supprimé les espaces et maintenant ça fonctionne. Je vais enlever l’espace dans le code pour éviter ce problème à l’avenir. Pamputt [Discuter] 12 octobre 2011 à 10:07 (UTC)

[modifier] lien vers la langue concernée

Bonjour, Un truc que je trouve super serait de remplacer dans la colonne langue le modèle langue (par exemple {{fr}}) par : [[:Catégorie:{{fr}}|{{fr}}]] ce qui permettrait de pointer en cliquant dessus directement vers la page d’accueil de la langue concernée. (Et si on pouvait aussi changer pour des couleurs moins flashy ….) Unsui Discuter 11 octobre 2011 à 08:19 (UTC)

Oui c’est tout à fait possible, je vais ajouter ça tout de suite. Pour les couleurs moins flashy par contre je ne sais pas trop par quoi les remplacer. Pamputt [Discuter] 12 octobre 2011 à 08:06 (UTC)
Pour les couleurs, laisse tomber car en effet c’est une question de goût. Pour le lien c’est par contre franchement intéressant et ça deviendra même la méthode la plus rapide pour aller voir plusieurs langues rapidement. Unsui Discuter 12 octobre 2011 à 08:26 (UTC)
De quelle "colonne langue" parlez-vous exactement ? — Dakdada (discuter) 12 octobre 2011 à 09:09 (UTC) Euh non c’est bon en fait… et oui c’est une bonne idée, même si la page devient encore un peu plus lourde. — Dakdada (discuter) 12 octobre 2011 à 09:10 (UTC)
Rah la la, copier-coller, c’est trop compliqué :-) --Moyogo (discuter) 12 octobre 2011 à 09:11 (UTC)
Est-ce qu'il serait possible d'indiquer aussi le code de la langue ? Ça permettrait de réutiliser plus facilement les données dans un tableur. Moyg 9 novembre 2011 à 08:57 (UTC)

[modifier] Doublons

Bonjour et merci pour toutes ces stats.

Je viens de trouver des "doublons" dus aux redirections de modèles. Certaines langues sont indiquées plusieurs fois et je suppose qu'il faut additionner chacune de leurs apparitions :

  • cantonais
  • haïtien
  • minnan
  • occitan
  • vieux slave
  • võro
  • coréen (hanja) (mise à jour du 11 mai 2012)

Moyg 9 novembre 2011 à 09:03 (UTC)

Merci d’avoir signalé ceci. Je vais essayé d’uniformiser tout cela avant le prochain dump. Comment as-tu détecté ces doublons ? Pamputt [Discuter] 9 novembre 2011 à 09:20 (UTC)
Je cherchais des données sur les langues régionales et j'ai trouvé plusieurs occitans.
Techniquement : j'avais les données dans un tableur, je n'avais plus qu'à faire un tri alphabétique des langues et faire un test (par exemple si les langues sont en colonne A, tu fais =IF(A3=A2;1;0) en B3, tu copies ta formule jusqu'en bas et tu cherches les 1). Du coup il y a peut-être des doublons non détectés si l'orthographe varie légèrement (espace, accent...).
Moyg 9 novembre 2011 à 12:39 (UTC)

Pour le coréen (hanja), le problème devrait être résolu lors de la prochaine mise à jour. Le problème vient du fait qu’il semble que JackBot n’avait pas fini de tout harmoniser. Pamputt [Discuter] 15 mai 2012 à 11:06 (UTC)

Pour le coréen, c'est plus qu'un doublon, c'est un triplet ! Il y a le coréen et deux fois le « coréen (hanja) », c'est pourtant la même langue. Cdlt, VIGNERON * discut. 16 mai 2012 à 12:15 (UTC)

[modifier] malgache

d’après Catégorie:malgache, on a 24000 pages en malgache. Le chiffre dans le tableau quant à lui est ridiculement faible : il y a une explication rationnelle ? Merci Hector 3 janvier 2012 à 17:38 (UTC)

Oui, le tableau de stats a été mis à jour juste avant que Jagwar (d · c · b) ne lance son bot qui ajoute justement des entrées en malgache. Les chiffres du malgache seront plus proches de la réalité lors de la prochaine mise à jour. Pamputt [Discuter] 3 janvier 2012 à 17:47 (UTC)

ok, merci !

[modifier] Adjectifs numéraux.

Bonjour,

Je me pose une question. En comptant les adjectifs, compte-t-on également les variantes des adjectifs, comme les adjectifs numéraux. En roumain, le nombre d'adjectif a baissé et tout ce que j'ai fait c'est de passer quelques nombres mal classés de {{-adj-}} à {{-adj-num-}}. Fenkys (discussion) 14 mars 2012 à 06:29 (UTC)

Bonjour Fenksys, en effet d’après ce que je comprends du script de Jona (que j’utilise), seules les entrées qui ont explicitement {{-adj-}} (et pas {{-adj-num-}}, ...) sont comptabilisés. On pourrait peut-être revoir le script pour qu’il prenne en compte ta remarque. Pamputt [Discuter] 14 mars 2012 à 06:37 (UTC)

Je découvre l'existence de -adj-num-. Supprimer ce modèle serait aussi une possibilité. Lmaltier (discussion) 14 mars 2012 à 06:40 (UTC)

Les nombres sont si particuliers qu'ils mériteraient une place à part. Certains sont des adjectifs, d'autres des noms, d'autres encore existent sous les deux formes un adjectif et un nom. Sans compter la différence cardinal/ordinal.Fenkys (discussion) 14 mars 2012 à 09:51 (UTC)
Outils personnels
Espaces de noms

Variantes
Actions
Navigation
Contribuer
Aide
Boîte à outils