« Discussion Wiktionnaire:Statistiques » : différence entre les versions

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.
Dernier commentaire : il y a 8 ans par Otourly dans le sujet Bargraphe
Contenu supprimé Contenu ajouté
m Annulation des modifications 21064741 de Automatik (discussion) ne marche pas
Ligne 645 : Ligne 645 :
{ "name": "xscale", "type": "ordinal", "range": "width",
{ "name": "xscale", "type": "ordinal", "range": "width",
"domain": {"data": "table", "field": "category"} },
"domain": {"data": "table", "field": "category"} },
{ "name": "yscale", "range": "height", "nice": true,
{ "name": "yscale", "type": "linear", "range": "height", "nice": true,
"domain": {"data": "table", "field": "amount"} }
"domain": {"data": "table", "field": "amount"} }
],
],

Version du 5 février 2016 à 16:58

Mise à jour

Peut-être serait-il (grand) temps de mettre à jour les stats qui datent de 10 mois ? Sans doute est-ce un peu fastidieux alors il serait bon que plusieurs personnes s'y collent tout à tour ? M'enfin, moi ce que j'en dis...

Le Zozo masqué 9 avril 2010

Mise à jour

Après une longue absence, j’ai réussi à installer les outils nécessaires aux calculs de statistiques. LBO disc 11 avril 2010 à 09:54 (UTC)Répondre

Merci pour ton travail et ton retour. On va enfin avoir des stats digne de ce nom. Le problème c'est que cet outil qui fournit les stats ne dépend que d'une personne (toi) ce qui faait que si tu quittes le projet ou que tu as un problème informatique quelconque (perte de la connexion internet, d'un ordinateur, etc), les stats ne sont plus mises à jour. Est-il possible d'envisager que tu écrives un tuto expliquant pas à pas comment obtenir ses stats pour que n'importe qui puisse mettre à jour cette page ? Merci encore. Pamputt [Discuter] 11 avril 2010 à 18:09 (UTC)Répondre
Si tu veux. mais c'est du bricolage... 18 avril 2010 à 11:46 (UTC)

Tutoriel

  • Prendre le dernier fichier dump xml sur le site [1] comprenant l'ensemble des articles.
  • Pour chacun des articles, découper l'article en sous-articles de premier niveau (= par langue ) grâce aux balises du modèle {{=xx=}} et les quelques exceptions éventuelles ({{caractère}} …)
  • Pour chacun des sous-articles:
    • Mesurer la taille en octets (Je laisse les catégories dans le sous-article)
    • Rechercher les balises de second niveau. Pour ce faire, le plus simple est d'extraire intégralement les balises du type {{-x*-}}
  • Ensuite, charger dans Excel le résultat produit sur deux fichiers XML et faire le ménage...
    • Supprimer du décompte les balises sans intérêts pour les statistiques ( références, balises non gramaticales ...)
    • Affecter les balises à des groupes. Par exemple, toutes les flexions dans le même groupe
    • Faire un pivot dans Excel
    • Ajouter de l'habillage
    • Convertir dans un format wikipedia
Tu convertis avec quoi stp ?. JackPotte ($) 18 avril 2010 à 12:36 (UTC)Répondre
Très simplement, En fait, j'ai mes résultats dans une Worksheet et j'ai créé une autre pour le formattage et je formatte les données par correspondance. j'ai quatre formules de bases
les têtes de lignes ="|- |bgcolor='#EEEEEE' |{{"&Tab!LC&"}}"
les têtes de colonnes ="||bgcolor='#EEEEFF' | <B>"&Tab!LC&"</B>"
les cellules colorées ="|| "&Couleur(Tab!LC;100000)&"|"&SI(Tab!LC>1000;TEXTE(Tab!LC;"###.###.##0");SI(Tab!LC=0;" - ";Tab!LC))
La fonction couleur permet de générer des dégradés en fonction du nombre d'occurence et d'un seuil:
Function Hex2Dec(ByVal Hex As String) As Long
  Dim n As Long
  Dim i As Integer
  For i = 1 To Len(Hex)
    Dim CharHex As String
    CharHex = UCase(Mid(Hex, i, 1))
    If Asc(CharHex) >= 65 Then
      n = n + (Asc(CharHex) - 55) * (16 ^ (-i + Len(Hex)))
    Else
      n = n + CInt(CharHex) * (16 ^ (-i + Len(Hex)))
    End If
  Next i
  HexToDec = n
End Function

Function Dec2Hex(Dec) As String
    Dec2Hex = Hex(CInt(Dec))
End Function

Function Couleur(Evolution, NombreTotal) As String
Dim iEvo As Long
iEvo = CLng(Evolution)
    If iEvo = 0 Then
        Couleur = "bgcolor='grey'"
    ElseIf iEvo > 0 Then
        If Evolution < NombreTotal / 2 Then
            Rouge = Round(255 - 255 * 2 * Evolution / NombreTotal, 0)
            Vert = 255
            Bleu = Rouge
        Else
            Rouge = 0
            Vert = 255 - 255 * 2 * (Evolution - NombreTotal / 2) / NombreTotal
            Bleu = 0
        End If
        If Rouge < 0 Then
            Rouge = 0
        ElseIf Rouge > 255 Then
            Rouge = 255
        End If
        
        If Vert < 0 Then
            Vert = 0
        ElseIf Vert > 255 Then
            Vert = 255
        End If
        If Bleu < 0 Then
            Bleu = 0
        ElseIf Bleu > 255 Then
            Bleu = 255
        End If
        Couleur1 = "bgcolor='#" & Right("00" & Dec2Hex(Rouge), 2) & Right("00" & Dec2Hex(Vert), 2) & Right("00" & Dec2Hex(Bleu), 2) & "'"
        If Rouge = 0 Then
            Couleur = Couleur1 + " style='color:white;' "
        Else
            Couleur = Couleur1
        End If
        
    Else
        Couleur = "bgcolor='red'"
    End If
End Function

LBO disc 21 avril 2010 à 19:14 (UTC)Répondre

rohingya

Bonjour, les dernières statistiques indiquent qu'il n'y a aucun article en rohingya. Or, il en existe au moins un. D'où vient le problème ? Pamputt [Discuter] 19 avril 2010 à 10:10 (UTC)Répondre

Euh?! J'en vois même 12. Cependant, il y en a 11 qui ont changé de codes de {{cit}} à {{rhg}} LBO disc 11 mai 2010 à 18:47 (UTC)Répondre

Format du tableau de statistiques

Bonjour, Serait-il possible d'afficher également les totaux du tableau de statistiques juste en dessous des intitulés de colonnes. On doit actuellement aller tout en bas du tableau pour trouver ces totaux, et sans pouvoir voir les intitulés, on ne sait pas à quoi correspond chaque chiffre. Merci d'avance pour vos réponses. Blacksabbath4343 17 mai 2010 à 03:07 (UTC)Répondre

Existe-t-il une norme "internationale" pour le calcul des statistiques au sein du projet wiktionary ?

Bonjour, Existe-t-il une norme "internationale" pour le calcul et la présentation des statistiques au sein du projet wiktionary ? Apparemment, ce n'est pas le cas. Le tableau en français est très lisible et bien conçu. Même si le total du bas de tableau ne semble pas correspondre au total affiché en début de page. Par contre, la version anglaise se passe de commentaires...Aucune couleur, classement alphabétique et confus, pas de total... Des réflexions ont-elle été entamées sur la définition de standards pour le traitement de ces statistiques ? Quid de la fiabilité des statistiques présentées par chaque pays ? Tiens, ça me rappelle d'ailleurs quelque chose cette histoire de statistiques truquées ! En tous cas, félicitations à ceux qui travaillent sur le sujet actuellement et qui ont créée cette belle page pleine d'esthétique ! Continuez comme ça. Blacksabbath4343 17 mai 2010 à 03:20 (UTC)Répondre

Non, il n'y a pas de discussions, c'est juste les projets qui peuvent s'inspirer les uns des autres. Il y a des améliorations à apporter : utiliser un critère de classement compréhensible (par exemple le nombre d'entrées), ajouter une colonne avec le rang... Lmaltier 17 mai 2010 à 05:25 (UTC)Répondre

inversion de 2 colonnes

j'ai l'impression que les dates sont inversées entre les colonnes "Mots le 30 mars 2010" et "Mots le 23 juin 2010".Hector 25 août 2010 à 08:58 (UTC)Répondre

C'est vrai, je l'avais déjà signalé à l'auteur. JackPotte ($) 25 août 2010 à 11:54 (UTC)Répondre

nombre d'entrées sans les formes fléchies

je verrais bien une colonne "nombre d'entrées sans forme fléchie", afin de pouvoir comparer facilement avec les dictionnaires qui souvent n'intègrent pas les formes fléchies. Merci Hector 25 août 2010 à 10:43 (UTC)Répondre

On appelle ça les lemmes. JackPotte ($) 25 août 2010 à 11:47 (UTC)Répondre
Bien vu, merci !Hector 26 août 2010 à 15:38 (UTC)Répondre

Collaboration

Bonjour, suite au départ de Laurent Bouvier qui maintenait cette page, une collaboration s'est mise en place pour écrire du code qui permettra de mettre ces statistiques à jour. Si vous voulez participer, rendez vous ici. Pamputt [Discuter] 9 mars 2011 à 16:14 (UTC)Répondre

Nul n'est indispensable. Bravo pour ton initiative. LBO disc 30 avril 2011 à 12:53 (UTC)Répondre

russes

Où sont passées les 150 000 mots russes ? (voir les colonnes de droite)Hector 15 mai 2011 à 23:30 (UTC)Répondre

Il me semble qu’une bonne partie des entrées en russe sont des noms de famille (voir Noms de famille en russe) qui compte plus de 17000 mots. Pour le reste je ne sais pas Pamputt [Discuter] 16 mai 2011 à 09:33 (UTC)Répondre
En fait il y a 17 000 noms de famille et 134 000 flexions de ces mêmes noms de famille ! Il ne reste ensuite que 4500 mots normaux (noms, verbes, adjectifs, noms propres). — Dakdada (discuter) 16 mai 2011 à 15:16 (UTC)Répondre

OK, merci pour ces précisions. Ça montre selon moi l'intérêt de ma proposition 2 paragraphes plus haut, de faire une colonne avec des lemmes uniquement, sans flexions & noms propres , pour qu'on ait une base de comparaison avec les dictionnaires classiques. Il est aujourd'hui très difficile de répondre à une question toute bête : "je pars en vacances en Russie, est-ce que le wiktionnaire saura me satisfaire ou aurai-je besoin d'un autre dictionnaire ?" Hector 20 mai 2011 à 08:16 (UTC)Répondre

La cellule "lemme russe" semble encore assez étrange, sans doute qu'on n'enlève pas les 17000 noms de famille. ça vous dirait d'enlever les noms de famille/noms propres à la colonne lemme ? Hector (discussion) 16 mai 2012 à 13:29 (UTC)Répondre
C'est techniquement possible mais je ne vois pas bien l'intérêt de le faire. Si une langue a plein de noms de famille alors c'est déjà pas mal même si ce n'est pas représentatif des mots communs mais bon. Les lemmes permettent d'avoir quand même une idée relativement exactes du vocabulaire « utile » d'une langue. Pamputt [Discuter] 16 mai 2012 à 13:53 (UTC)Répondre

Tableau triable

Bonjour, j’ai essayé de rendre le tableau de stats triable (voir ceci). Cela dit ça ne semble pas fonctionner (le tableau reste statique, sans flèche). C’est normal ? Pamputt [Discuter] 11 octobre 2011 à 07:07 (UTC)Répondre

C’est parce que les titres de colonnes ne sont pas définis comme tel (il faut utiliser ! à la place de |). J’ai modifié. — Dakdada (discuter) 12 octobre 2011 à 09:06 (UTC)Répondre
Il faut aussi ajouter « class="sortbottom" » aux deux rangées devant rester en bas du tableau (total et rappel des titres de colonnes). J’ai aussi modifié. —C.P. 12 octobre 2011 à 09:23 (UTC)Répondre
Lettres
C
A
B
Fixe

La colonne Évolution ne fonctionne pas à cause des signes + et -.

Évolution Sans '+' Sans '+' ni espace Sans espace
0 0 0 0
+ 1 1 1 +1
- 1 - 1 -1 -1
- 16 - 16 -16  -16
+ 15 15 15 +15

Il faudrait peut être retirer les "+" ou les espaces. --Moyogo (discuter) 12 octobre 2011 à 09:14 (UTC)Répondre

C’est effectivement les espaces (mais pas le signe « + ») qui empêche le tri correct et qu’il faudrait retirer. —C.P. 12 octobre 2011 à 09:31 (UTC)Répondre
Ok, Moyogo a supprimé les espaces et maintenant ça fonctionne. Je vais enlever l’espace dans le code pour éviter ce problème à l’avenir. Pamputt [Discuter] 12 octobre 2011 à 10:07 (UTC)Répondre

lien vers la langue concernée

Bonjour, Un truc que je trouve super serait de remplacer dans la colonne langue le modèle langue (par exemple {{fr}}) par : [[:Catégorie:{{fr}}|{{fr}}]] ce qui permettrait de pointer en cliquant dessus directement vers la page d’accueil de la langue concernée. (Et si on pouvait aussi changer pour des couleurs moins flashy ….) Unsui Discuter 11 octobre 2011 à 08:19 (UTC)Répondre

Oui c’est tout à fait possible, je vais ajouter ça tout de suite. Pour les couleurs moins flashy par contre je ne sais pas trop par quoi les remplacer. Pamputt [Discuter] 12 octobre 2011 à 08:06 (UTC)Répondre
Pour les couleurs, laisse tomber car en effet c’est une question de goût. Pour le lien c’est par contre franchement intéressant et ça deviendra même la méthode la plus rapide pour aller voir plusieurs langues rapidement. Unsui Discuter 12 octobre 2011 à 08:26 (UTC)Répondre
De quelle "colonne langue" parlez-vous exactement ? — Dakdada (discuter) 12 octobre 2011 à 09:09 (UTC) Euh non c’est bon en fait… et oui c’est une bonne idée, même si la page devient encore un peu plus lourde. — Dakdada (discuter) 12 octobre 2011 à 09:10 (UTC)Répondre
Rah la la, copier-coller, c’est trop compliqué :-) --Moyogo (discuter) 12 octobre 2011 à 09:11 (UTC)Répondre
Est-ce qu'il serait possible d'indiquer aussi le code de la langue ? Ça permettrait de réutiliser plus facilement les données dans un tableur. Moyg 9 novembre 2011 à 08:57 (UTC)Répondre

Doublons

Bonjour et merci pour toutes ces stats.

Je viens de trouver des "doublons" dus aux redirections de modèles. Certaines langues sont indiquées plusieurs fois et je suppose qu'il faut additionner chacune de leurs apparitions :

  • cantonais
  • haïtien
  • minnan
  • occitan
  • vieux slave
  • võro
  • coréen (hanja) (mise à jour du 11 mai 2012)

Moyg 9 novembre 2011 à 09:03 (UTC)Répondre

Merci d’avoir signalé ceci. Je vais essayé d’uniformiser tout cela avant le prochain dump. Comment as-tu détecté ces doublons ? Pamputt [Discuter] 9 novembre 2011 à 09:20 (UTC)Répondre
Je cherchais des données sur les langues régionales et j'ai trouvé plusieurs occitans.
Techniquement : j'avais les données dans un tableur, je n'avais plus qu'à faire un tri alphabétique des langues et faire un test (par exemple si les langues sont en colonne A, tu fais =IF(A3=A2;1;0) en B3, tu copies ta formule jusqu'en bas et tu cherches les 1). Du coup il y a peut-être des doublons non détectés si l'orthographe varie légèrement (espace, accent...).
Moyg 9 novembre 2011 à 12:39 (UTC)Répondre

Pour le coréen (hanja), le problème devrait être résolu lors de la prochaine mise à jour. Le problème vient du fait qu’il semble que JackBot n’avait pas fini de tout harmoniser. Pamputt [Discuter] 15 mai 2012 à 11:06 (UTC)Répondre

Pour le coréen, c'est plus qu'un doublon, c'est un triplet ! Il y a le coréen et deux fois le « coréen (hanja) », c'est pourtant la même langue. Cdlt, VIGNERON * discut. 16 mai 2012 à 12:15 (UTC)Répondre

malgache

d’après Catégorie:malgache, on a 24000 pages en malgache. Le chiffre dans le tableau quant à lui est ridiculement faible : il y a une explication rationnelle ? Merci Hector 3 janvier 2012 à 17:38 (UTC)Répondre

Oui, le tableau de stats a été mis à jour juste avant que Jagwar (d · c · b) ne lance son bot qui ajoute justement des entrées en malgache. Les chiffres du malgache seront plus proches de la réalité lors de la prochaine mise à jour. Pamputt [Discuter] 3 janvier 2012 à 17:47 (UTC)Répondre

ok, merci !

Adjectifs numéraux.

Bonjour,

Je me pose une question. En comptant les adjectifs, compte-t-on également les variantes des adjectifs, comme les adjectifs numéraux. En roumain, le nombre d'adjectif a baissé et tout ce que j'ai fait c'est de passer quelques nombres mal classés de {{-adj-}} à {{-adj-num-}}. Fenkys (discussion) 14 mars 2012 à 06:29 (UTC)Répondre

Bonjour Fenksys, en effet d’après ce que je comprends du script de Jona (que j’utilise), seules les entrées qui ont explicitement {{-adj-}} (et pas {{-adj-num-}}, ...) sont comptabilisés. On pourrait peut-être revoir le script pour qu’il prenne en compte ta remarque. Pamputt [Discuter] 14 mars 2012 à 06:37 (UTC)Répondre

Je découvre l'existence de -adj-num-. Supprimer ce modèle serait aussi une possibilité. Lmaltier (discussion) 14 mars 2012 à 06:40 (UTC)Répondre

Les nombres sont si particuliers qu'ils mériteraient une place à part. Certains sont des adjectifs, d'autres des noms, d'autres encore existent sous les deux formes un adjectif et un nom. Sans compter la différence cardinal/ordinal.Fenkys (discussion) 14 mars 2012 à 09:51 (UTC)Répondre

Nombre d'articles

Bonjour, En regardant les historiques, je m’aperçois que le nombre d’articles (dans le titre au début du tableau) n’évolue pas dans le temps quand on consulte les statistiques des mois passés. Il semble que c’est parce qu’il uitilise une variable donnant le nombre d’articles du moment même si l’on consulte l’historique de janvier par exemple. Ne pourrait-on pas le gérer autrement de façon à garder chaque mois la valeur du moment correspondante (en ce moment, le nombre d’articles est à 2 224 914 aussi bien pour le mois d’août que pour le mois de février dernier) ? Unsui Discuter 21 août 2012 à 13:58 (UTC)Répondre

Bonjour Unsui, si tu parles des chiffres dans la section « Progression actuelle », alors oui ils sont générés automatiquement. Pour avoir le nombre de mots à un moment donné il faut consulter le bas du tableau. Attention il s’agit du nombre de mot, pas d’article. C’est-à-dire que s’il y a plusieurs sections de langues dans un article ça comptera pour autant de mots. Pamputt [Discuter] 22 août 2012 à 05:52 (UTC)Répondre
Salut Pamputt, oui, je sais bien puisque j’avais écrit un programme temporaire à ce sujet. Mais je que j’aurais aimé, c’est en effet de connaître le nombre d’articles des mois passés. De toute façon ce n’est pas très normal d’afficher le nombre d’articles d’aujourdhui dans l(historique de février dernier par exemple. Bon, Ce n’est absolument pas important. Je peux en effet partir du nombres de mots qui lui, bien sûr, est correct à chaque fois. Je voulais juste le signaler et s’il y avait eu un truc simple pour avoir le nombre d’articles correct des mois passés (que le programme qui constitue ces stats fournirait à chaque fois à l’instar des autres nombres) j’étais preneur. T’en fais surtout pas c’est peanuts Sourire. Unsui Discuter 22 août 2012 à 07:53 (UTC)Répondre

Erreurs

Il y a les modèles inexistants grc= et eo= présent dans le tableau. Je n’ose pas les retirer, de peur de tout casser, mais ça fait plutôt moche. Quelqu’un serait d’où vient le problème et serait en mesure de le résoudre ? Sinon il y a aussi le problème de la langue « coréen (hanja) » qui apparait deux fois dans le tableau mais avec évidemment des valeurs différentes. V!v£ l@ Rosière /Murmurer…/ 9 octobre 2012 à 07:21 (UTC)Répondre

Ah oui je n’avais pas vu grc= et eo=. Il faut que je regarde le code car il doit y avoir un bogue quelque part, hmmm. Pour le coréen hanja, c’est parcequ’il utilise deux codes différents ({{ko-Hani}} et {{ko-hanja}}). Il faudrait remplacer l’un des deux modèles par l’autre. Par ailleurs, je ne connais pas le coréen mais on pourrait s’interroger sur la présence de cette langue ; n’est ce pas tout simplement du coréen ? Pamputt [Discuter] 9 octobre 2012 à 07:37 (UTC)Répondre
Bah en gros si mais il semble que l’écriture hanja est dépréciée et soit devenue désuète (au moins en Corée du Sud) après en ce qui concerne le Nord on dirait que c’est encore utilisé. La fusion entrainerait les mêmes problèmes de classement que le japonais, vaut mieux donc avoir l’avis de Shinji. V!v£ l@ Rosière /Murmurer…/ 9 octobre 2012 à 14:33 (UTC)Répondre
Pur info les codes eo= et grc= devraient avoir disparu dans la prochaine mise à jour. Pamputt [Discuter] 2 décembre 2012 à 10:08 (UTC)Répondre

Compte total présenté par le tableau

Bonjour,

Le tableau indique 2 460 071 entrées récemment, mais la section Progression actuelle en indique 120 000 de moins. Est-ce normal ? Automatik (discussion) 16 avril 2013 à 16:49 (UTC)Répondre

Bonjour, la différence provient probablement du fait que « Progression actuelle » compte le nombre d’articles tandis que le compte donné dans le tableau compte chaque « section ». Par exemple, si un article compte deux sections « noms », une section « adjectif » et une section « flexion de verbe » alors il comptera pour 4 dans le tableau. Pamputt [Discuter] 16 avril 2013 à 17:21 (UTC)Répondre
Ça marche Sourire Automatik (discussion) 16 avril 2013 à 17:31 (UTC)Répondre

Apparition de langues bizarres...

…comme le Mickey Mouse, le Leeds, le Lucy, le Glagolitic, etc. Je suppose que c’est dû à du vandalisme, mais cachez où ? V!v£ l@ Rosière /Murmurer…/ 26 avril 2013 à 08:38 (UTC)Répondre

Salut, ce n’était pas du vandalisme mais un bogue de JAckBot. Ces « langues » devraient donc disparaitre à la prochaine mise à jour. Pamputt [Discuter] 26 avril 2013 à 12:07 (UTC)Répondre
On peut trouver la liste complète dans Catégorie:Modèles de langue sans code (déjà vidée apparemment). — Dakdada 26 avril 2013 à 19:37 (UTC)Répondre
Dacodac. V!v£ l@ Rosière /Murmurer…/ 26 avril 2013 à 21:16 (UTC)Répondre

Stats avec Lua

Bonjour,

Apparemment, les langues ajoutées en Lua n’ont plus de modèle associé (logique), donc ça crée un mauvais lien dans la liste des langues (ex : [[:catégorie:Modèle:bzx|Modèle:bzx]]). Je ne sais pas si le bogue est facilement résolvable. Automatik (discussion) 18 juin 2013 à 19:06 (UTC)Répondre

Il suffit de remplacer {{nzx}} par {{nom langue|bzx}}. Il faut que le script qui créée la page soit mis à jour du coup. — Dakdada 18 juin 2013 à 19:16 (UTC)Répondre
Bon, la page est alourdie, forcément, mais il semble qu'on gagne quelques secondes (42s -> 30s, comparaison avec 1 échantillon de chaque :P). — Dakdada 18 juin 2013 à 19:34 (UTC)Répondre
C’est bon ça, les effets du Lua commencent à se faire voir Sourire Automatik (discussion) 18 juin 2013 à 20:19 (UTC)Répondre

Nombre de pages contenant au moins une entrée en français

Bonjour,

En lisant les en-têtes des colonnes du tableau des stats, je vois qu’il y a 237 263 lemmes (indiqué comme "total - flexions"). Quelqu’un pourrait-il me dire comment est fait ce calcul ? Mon analyse de dump m’a donné 260 000 pages pour le français (hors pages qui ne contiennent rien d’autre qu’une (ou des) flexion(s) en français), et il s’agit du dump du 1er juillet (donc à peu près au même moment si ce n’est au même).

Au cas où, je pose ci-dessous le regex que j’ai utilisé pour lister les pages :

\{\{-(?:abr|adj(?:ectif|-dém|-excl|-indéf|-int|-num|-pos)?|adv(?:erbe|-int|-pron|-rel)?|aff
|art(?:icle|-déf|-indéf|-part|-pers)?|conj(?:-coord)?|dét|faux-prov|inf|interf|interj(?:ection)?|lettre
|nom(?:-fam|-pr|-propre|-sciences)?|num(?:ér|éral)?|onom(?:a|atopée)?|part(?:icule|-num)
|post(?:position)?|préf(?:ixe)?|prénom|prép|pronom(?:-adj|-dém|-indéf|-int|-pers|-personnel|-pos|-rel)?
|prov(?:erbe)?|radical|suf(?:fixe)?|symb(?:ole)?|verbe?|loc(?:-[^-]+)?)-\|fr\}\}

(Avec le regex \{\{-[a-zé-]+-\|fr\}\}(?<!\{\{-flex-[a-zé-]+-\|fr\}\}), j’en obtiens 1000 de plus, dues aux sections -var-ortho- et -erreur- non prises en compte précédemment.)

J’avoue na pas trop comprendre, pourquoi cette différence avec la page de stats (il devrait y en avoir moins, puisque je liste les pages et non les entrées) ? En vous remerciant par avance, Automatik (discussion) 10 juillet 2013 à 23:11 (UTC)Répondre

Bonjour Automatik, le nombre de « lemmes » correspond simplement au nombre total d’entrées moins le nombre de flexions. Donc tu as raison que tu devrais en trouver moins que le nombre actuellement indiqué dans le tableau. Je n’ai malheureusement pas le temps d’investiguer ça pour le moment mais le code utilisé pour faire les stats est dispo sur la page de Jona. Pamputt [Discuter] 11 juillet 2013 à 05:34 (UTC)Répondre
J’ai le sentiment que le script de Jona ne prend pas en compte un certain nombre de types de mots : tous les {{-adj-dém-}}, {{-adj-num-}}, {{-art-part-}}, {{-art-pers-}}, {{-abr-}}, etc. De plus, j’ai l’impression qu’il déduit le nombre de flexions à partir du nombre de ({{langue}} - modèle pris en compte), n’est-ce pas ?
D’ailleurs la ligne :
                        elif (s[0].find("loc") == 0):
                                        ltype.append([("loc",),currentLang])

est-elle censée récupérer les locutions ? J’ai l’impression qu’avec ce code seules les {{-loc-|…}} sont pris en compte, et non pas les {{-loc-adj-}}, etc. (donc l’essentiel).

Finalement, en enlevant de l’analyse les modèles non pris en compte par Jona, et les locutions, j’en arrive à un nombre similaire (ce qui n’est toujours pas très logique). Il y a d’autre part un type de mot dans le code qui ne me paraît pas avoir sa place ici :

                        elif s[0] == "pron":
                                        ltype.append([s,currentLang])

Avec plus loin :

                        elif s[0] == "pronom":
                                        ltype.append([("pron",),currentLang])

alors que {{-pron-}} n’est pas un type de mot (par contre {{-pronom-}} si). Automatik (discussion) 11 juillet 2013 à 18:16 (UTC)Répondre

Beau travail d’analyse de code Automatik. Pour ma part, j’avoue ne pas m’être penché plus que ça sur le code. Donc si tu penses pouvoir améliorer son script, n’hésites surtout pas à le modifier. Je m’en servirai pour générer les prochaines stats. Pamputt [Discuter] 11 juillet 2013 à 18:22 (UTC)Répondre
Après la rétro-ingénierie vient le refactoring. JackPotte ($) 11 juillet 2013 à 19:23 (UTC)Répondre

Colonne "classement" fixe

Bonjour, que pensez-vous de ne pas rendre triable la colonne « Classement » ? L’intérêt c’est que les numéro ne bouge pas. Acutellement, si on veut regarder le classement d’une langue non pas en fonction du nombre d’entrée totale mais de son nombre de lemme (par exemple), on clique sur la flèche « Lemme » et toutes les colonnes bougent en même temps, y compris la colonne classement. Si on la rend fixe, ça permettrait de savoir directement quelle langue a le plus (ou le moins) de lemmes. Si ce n’est pas très parlant, j’ai fait un test sur Utilisateur:Pamputt/test. Ça mérite quelques améliorations. Par exemple, je ne sais pas comment spécifier la « hauteur » d’une cellule (pour le titre de la première colonne) ce qui explique que « Classement » ne soit pas centré. Pamputt [Discuter] 31 août 2013 à 16:48 (UTC)Répondre

C'est pas mal, pour la hauteur voir Aide:Tableau (aide détaillée)#width_et_height sur l’encyclopédie Wikipédia . JackPotte ($) 31 août 2013 à 18:26 (UTC)Répondre
J’ai regardé mais je n’arrive pas à utilisé « height » avec le « ! » qui est utilisé pour le titre des colonnes. Du coup je ne sais pas comment modifier la hauteur d’une cellule de titre. Pamputt [Discuter] 5 septembre 2013 à 18:34 (UTC)Répondre

Cela me semble une bonne idée. Lmaltier (discussion) 5 septembre 2013 à 19:25 (UTC) À moi aussi ! Hector (discussion) 8 septembre 2013 à 10:08 (UTC)Répondre

Ça y est, je viens de faire le changement. Petit problème, les colonnes semblent maintenant beaucoup plus large ce qui fait que le tableau « déborde » de mon petit écran à présent. Est ce que quelqu’un saurait comment corriger ce soucis ? Pamputt [Discuter] 18 décembre 2013 à 21:01 (UTC)Répondre
En réduisant la police ? JackPotte ($) 18 décembre 2013 à 21:28 (UTC)Répondre

Éxactitude des nombres présentés

Il y a comme un souci avec ces stats : pour les langues les plus renseignées, la somme des lemmes ( nom communs + noms propres + adjectifs + verbes + adverbes + loc) affichée est souvent supérieure au nombre de lemmes de la colonne "Lemmes" : Exemple en same du nord : 510 + 108 + 74 + 209 + 20 + 12 = 933. Or le nombre de lemmes indique seulement 602. Si par ailleurs on y ajoute les flexions, on obtient souvent un nombre supérieur au nombre d’entrées (1291680 pour le français alors que le nombre d’entrées indiqué est de 1257936). Il semble que le problème soit que le nombre d’entrées soit en fait le nombre de pages (qui peut contenir plusieurs types de mots pour une langue donnée). On ne peut donc pas calculer le nombre de lemmes comme étant le nombre d’entrées moins les flexions. Si cette hypothèse est la bonne, elle n’explique pas pourquoi le total des entrées en bas du tableau 2527231 est différent du nombre de page 2406000. Je reste perplexe… — Unsui Discuter 4 septembre 2013 à 08:25 (UTC)Répondre

Oui en fait, le nombre total 2527231 est différent du nombre de pages 2406000 à cause des pages qui contiennent plusieurs langues. Quand à ce qui concerne les lemmes, il faudrait, amha, supprimer la colonne "ébauches" dont l’utilité ici n’est pas évidente et qui de plus prête à confusion car les entrées correspondantes sont déjà comptabilisées ailleurs (par exemple dans les noms communs, verbes, etc.) et renseigner 2 colonnes supplémentaires : une "nombre total de définitions" et une "lemmes divers" et calculer le nombres de lemmes soit comme la somme des colonnes représentant les lemmes soit comme la différence entre le nombre total de définitions et les flexions (normalement cela devrait théoriquement donner la même chose). — Unsui Discuter 4 septembre 2013 à 09:03 (UTC)Répondre
Salut, je pense que ça rejoins la discussion du dessus. Malheureusement, je n’ai pas encore trouvé le courage pour me pencher sur le code python du script de JonaPamputt [Discuter] 4 septembre 2013 à 09:54 (UTC)Répondre
OK. Je ne pense pas qu’il y ait des tonnes de boulot mais je n’ai pas envie non plus de m’y coller, ne connaissant pas le python et ayant, comme tout le monde, des tas de casseroles sur le feu Sourire. — Unsui Discuter 4 septembre 2013 à 10:44 (UTC)Répondre

problème du décompte de la colonne "lemmes"

Il y a un souci dans le calcul du nombre de lemmes dans la version actuelle (maj du 22 janvier 2014). Par exemple en occitan les flexions sont actuellement fort peu nombreuses, et le nombre total de mots est proche du nombre de lemmes, hors le tableau indique actuellement environ 50% de flexions (comparer avec la version du 7 janvier[2]). Même souci dans mes principales langues de travail (espagnol, catalan et ancien occitan). Xic667 27 janvier 2014 à 21:19 (UTC)Répondre

Bonsoir, le problème est connu. Le problème vient du fait que le code ne tient pas compte de la nouvelle syntaxe des articles (modèle {{S}}) (voir ma page de discussion). Unsui est en train de travailler dessus. Pamputt [Discuter] 27 janvier 2014 à 21:35 (UTC)Répondre
Tout simplement, merci de la réponse Sourire Xic667 27 janvier 2014 à 21:40 (UTC)Répondre

Nouvelle version

Bonjour,

J’ai mis en ligne une nouvelle version tenant compte de la migration en cours des modèles relatifs aux types de mots. Il manque encore l’évolution avec les données du dump précédent. Je vais l’ajouter normalement pour la prochaine fois. L’analyse du dump étant différente de celle utilisée précédemment, il y a de petites différences parfois dans les résultats. De plus, les nouveaux modèles {{S|type de mot|code langue}} catégorise automatiquement comme locution tout mot vedette comportant une espace. Ce qui est différent de ce qui était pratiqué auparavant (où des modèles spécifiques {{-loc-type de mot-|code langue}} étaient utilisés. Ce qui induit également des différences. N’hésitez pas à me faire part de vos remarques. Merci d’avance. — Unsui Discuter 28 janvier 2014 à 10:06 (UTC)Répondre

Beau boulot :) Remarquez, je me suis dit qu'on pourrait avoir une page qui utilise les mots magiques comme {{PAGESINCATEGORY:français}} qui donne 1 985 645, mais c’est une fonction coûteuse, ce qui veut dire qu’on ne peut en mettre que 500 par pages (on peut faire ce genre de statistiques sur un portail par contre, ou n’utiliser que certaines statistiques pour certaines langues). — Dakdada 28 janvier 2014 à 10:28 (UTC)Répondre
Pourquoi ne pas lancer le script d'Unsui toutes les nuits depuis un serveur de la fondation ?
Je pourrais le prendre sur mon profil si personne d'autres n'est en mesure de créer la cron. JackPotte ($) 28 janvier 2014 à 18:58 (UTC)Répondre
On peut lancer le script automatiquement tous les jours pour vérifier s’il y a un nouveau dump, mais c’est à peu près tout. Par contre avoir une copie des codes d’Unsui sur le Tool Labs serait pas mal (même juste archivé), histoire d’éviter le problème qu’à eu Lmaltier. — Dakdada 29 janvier 2014 à 09:10 (UTC)Répondre
Je mettrai une copie dès que les petits bugs que je suis en train de corriger auront disparu. Mais sinon, j’ai des copies de mes scripts un peu partout (y compris et surtout en cloud). Pour l’instant, je corrige les codes langues qu’a détectés le script, dans les modèles de types de mots quand ils ne correspondent pas à celui de la langue.. — Unsui Discuter 29 janvier 2014 à 09:35 (UTC)Répondre
En ce qui concerne les lemmes d'italien, on est passé de mémoire de ~20000 à 23000. Est-ce dû à l'inclusion des locutions ? Ou à une autre raison ? Merci... Hector (discussion) 29 janvier 2014 à 17:43 (UTC)Répondre
Euh non, les locutions sont décomptées à part (elles ne font pas doublon avec les nombres des autres colonnes). Par contre les lemmes incluent maintenant les noms propres, je ne suis pas sûr que c’était le cas avant. C’est bien sûr discutable. J’attends un peu le résultat de la discussion sur les lemmes qui a lieu justement en ce moment pour m’aligner ensuite sur ce qui sera retenu. (Amha, ce sera à prendre avec des pincettes, la notion de lemmes étant une notion grammaticale propre à chaque langue et qui résulte des processus de lexicalisation. Bref, ça ne recouvre pas les mêmes choses selon les langues. Par exemple, en français, si "chantons" est une flexion de "chanter", "amicalement" n’est pas une flexion de "amical". Ce qui n’est pas le cas de toutes les langues. Du coup, ça me parait difficile de généraliser et ce de plus automatiquement. Je vais faire une page de présentation pour expliquer ces stats et le mode opératoire. — Unsui Discuter 29 janvier 2014 à 22:34 (UTC)Répondre
OK, merci pour ta réponse. En fait, je viens de remarquer que la somme flexions+lemmes dépassait le total, tjs pour l'italien... Mais ça n'est pas bien grave ... Merci pour ton boulot ! Hector (discussion) 30 janvier 2014 à 17:33 (UTC)Répondre
J’ai vu que tu avais supprimé les proto-langues dans la dernière version. Je pense que c’est une bonne chose mais tu as oublié l’indo-européen commun Clin d’œil Pamputt [Discuter] 30 janvier 2014 à 16:49 (UTC)Répondre
Ah oui. OK je vais intégrer ça.
@Hector : là, par contre, c’est normalement correct (j’ai vérifié avec plusieurs langues) : le premier nombre est le nombre de pages; Mais dans une page en italien par exemple, tu peux avoir parfois pour un même mot par exemple un nom et un verbe, ou bien 2 noms (num=1 et num=2) etc. Du coup la somme des noms + verbes + etc dépasse alors le nombre de pages. Ça le fait pour toutes les langues pour lesquelles il y a beaucoup d’entrées. Je compte ajouter prochainement (après la migration) une colonne indiquant le nombre total de définitions par langue. On aura alors enfin : nombre de déf = nombre de lemmes + nombres de flexion + divers (style locutions). Pour l’italien, j’ai pensé depuis, qu’outre l’explication que je t’ai donnée, il y a aussi le fait que le nombre de lemmes était mal calculé dans les stats précédentes (c’était justement dû au problème que je viens d’exposer car on faisait : nombre de lemmes = nombre de pages (et non pas nombre de définitions) - nombre de flexions. Bref ça va finir par le faire comme on dit maintenant. Sourire. — Unsui Discuter 30 janvier 2014 à 20:43 (UTC)Répondre
Une nouvelle version un peu plus détaillée est en ligne. Suite à une remarque de Lmaltier, j’ai modifié les intitulés de colonnes pour qu’ils correspondent un peu mieux à ce qu’ils sont censés représenter et ajouté deux colonnes pour les définitions en séparant celles concernant les flexions dont l’intérêt ne me parait pas très évident. — Unsui Discuter 17 février 2014 à 14:38 (UTC)Répondre

Gentilés

En français on a importé énormément de gentilés (noms communs + adjectifs), si bien que leur nombre peut fausser les comparaisons avec les dictionnaires classiques qui n'en contiennent qu'une petite partie. Ce serait bien donc d'avoir une idée du nombre de ces gentilés. — Dakdada 17 février 2014 à 11:31 (UTC)Répondre

Les gentilés sont des noms communs (avec majuscule), donc un nombre donné. Les adjectifs (avec minuscule) dérivés des gentilés représentent un autre nombre. Lmaltier a rentré automatiquement et avec leur accord les gentilés de www.habitants.fr, des gentilés d'habitants de communes (30.095 au 17 février annoncés sur le site). Il a créé les féminins et les pluriels. Il a créé parallèlement les adjectifs dérivés de ces gentilés, en faisant référence par courtoisie au site précité, avec les féminins et les pluriels. Il faut rajouter tous les gentilés qui ont été mis occasionnellement pour des habitants de pays, de régions, de provinces... -- Béotien lambda 17 février 2014 à 12:29 (UTC)Répondre
On a 50k adjectifs, si on estime que 30k sont des gentilés, c'est énorme et loin d'être négligeable si on veut comparer avec d'autres dicos. — Dakdada 17 février 2014 à 14:00 (UTC)Répondre
Certes, mais les gentilés sont des noms et non pas des adjectifs (comme le fait remarquer Béo). Comment reconnait-on les gentilés et les adjectifs associés comme par exemple parisien ? — Unsui Discuter 17 février 2014 à 14:43 (UTC)Répondre
La catégorie Gentilés_en_français indique 78000 pages … Pamputt [Discuter] 17 février 2014 à 14:56 (UTC)Répondre
Elle rassemble aussi les flexions actuellement. Pour repérer les adjectifs associés à des gentilés comme parisien, je ne vois pas, pour autant il est possible de les cibler pour la majorité en cherchant {{mercihabitants}} dans la page. Une autre méthode pourrait être de chercher le terme capitalisé dans {{voir}} mais il y aura sans doute quelques faux-positifs (comme amateur/Amateur). Ce serait dans tous les cas une approximation du coup, sauf erreur. — Automatik (discussion) 17 février 2014 à 15:11 (UTC)Répondre
Je ne serais pas contre un modèle {{gentilé}} pour marquer les définitions correspondant, ce serait bien pratique pour les traquer. De mon côté, mes scripts détectent les gentilés avec un mélange note-gentilé, merci-habitant, et en cherchant les définitions du type « Habitant de... ». J'en compte 46661 comme ça (noms français), mais ça doit inclure masculin et féminin. — Dakdada 17 février 2014 à 15:54 (UTC)Répondre

Page lourde : réorganiser ?

La page est particulièrement lourde à charger. Ce serait bien de trouver une solution pour alléger la page. Ce qu'on pourrait faire :

  • Ne garder que les langues avec plus de 1000/100/10 mots dans la page (soit 81, 223 ou 719 lignes sur 3574), et et mettre les autres dans une sous-page ;
  • Lister toutes les langues ici, mais détailler la composition dans une sous-page (en ne gardant que une ou deux colonnes, comme "total" et "lemmes").

Qu'en dites-vous ? — Dakdada 6 mars 2014 à 14:39 (UTC)Répondre

Oui, j’y ai déjà travaillé. Ce que j’ai fait (pas encore en ligne) : je regroupe toutes les langues qui ont une seule page sur une seule ligne (avec les totaux de chaque colonne correspondants) ce qui diminue la page de moitié. Quand on clique sur cette ligne on a soit le tableau inverse (toutes les langues qui n’ont qu’une seule page précédées d’une ligne pour regrouper toutes les autres) soit le tableau complet comme actuellement (je ne sais quelle est la solution préférable). Dans le 1er cas on ne peut plus faire une recherche de langue en une seule fois, dans le 2ème cas, si on a besoin de voir toutes langues la page reste bien évidemment lourde à charger. (Perso je préfère quand même la 1ère solution). Je vais présenter une maquette. — Unsui Discuter 6 mars 2014 à 15:02 (UTC)Répondre
J’ai divisé la page en deux pages : Utilisateur:Unsui/work d’où on peut se débrancher en cliquant sur "Langues n’ayant qu’une seule page" à Utilisateur:Unsui/work1 (et vice-versa). Merci de donner vos avis. — Unsui Discuter 7 mars 2014 à 14:17 (UTC)Répondre
Je verrais bien plutôt une limite à 10 ou 100 articles. — Dakdada 7 mars 2014 à 15:48 (UTC)Répondre
Les nouvelles statistiques sont super, et puisqu’il est question de long temps de chargement, je m’étais demandé si colorer toute une colonne dans la même couleur était utile. Je trouve qu’une distinction par couleur est compréhensible pour la ligne d’évolution, mais pour les autres, on pourrait alléger en laissant une ligne colorée sur deux si le but est de s’y retrouver en naviguant, par exemple. Ça me semblerait plus logique, mais je peux me tromper. Par contre, ça n’augmente peut-être pas tellement le temps de chargement… — Automatik (discussion) 7 mars 2014 à 17:13 (UTC)Répondre
C’est le temps de chargement qui te soucie (@ Dak) ou la longueur de la page. Car pour moi, sous chrome, les 2 pages se chargent en 4 secondes chacune, ce qui est somme toute acceptable. On pourrait, amha, par contre faire l’impasse sur la colonne "entrées précédentes" puisque l’on a la colonne "évolution". De plus ça réduirait la largeur de la page. Qu’en pensez-vous ; Pour l’alternance de la couleur, je ne suis pas sûr que ça réduise beaucoup le temps de chargement mais je vais la tester. — Unsui Discuter 7 mars 2014 à 21:27 (UTC)Répondre
Personnellement, je suis d’accord pour supprimer la colonne "entrée précédente" pour la raison que tu énonces en effet. Je me suis mal exprimé à propos de la couleur. En fait ce que je voulais dire c’est : est-ce utile d’avoir des colonnes colorées, à part la colonne « Évolution » ? Si c’est pour pouvoir s’y retrouver en utilisant l’ascenseur, alors je proposais l’alternance. Sinon, alors le mieux serait de supprimer simplement ces couleurs sauf pour la colonne « Évolution », et cela devrait faire gagner en même temps un peu de temps de chargement, même si certes pas beaucoup.
Pour le temps de chargement, la page WT:STAT prend actuellement 25 sec. à charger chez moi, Utilisateur:Unsui/work, 12 sec, Utilisateur:Unsui/work1 13 sec., sous Firefox. Déconnecté, les deux dernières prennent 8 sec. chacune à charger. Donc ça dépend beaucoup des configurations. — Automatik (discussion) 8 mars 2014 à 21:17 (UTC)Répondre
OK c’est intéressant. Je vais supprimer la colonne "entrée précédente", je vais enlever un peu de couleur (mais pas tout) et garder dans la première page que les langues ayant au moins 3 pages. Je comprends le désir de Dak mais je pense qu’il ne faut pas trop défavoriser la 2ème page. Si ça reste trop long à charger (je compte sur toi pour m’indiquer le gain obtenu) j’éleverai à nouveau le seuil. Merci à toi en tout cas. — Unsui Discuter 8 mars 2014 à 21:42 (UTC)Répondre
Bon, j’ai supprimé une colonne, enlevé des couleurs et gardé finalement que les langues ayant au moins 5 entrées sur la première page. Si tu pouvais me dire le gain obtenu ça serait super. — Unsui Discuter 8 mars 2014 à 22:41 (UTC)Répondre
Ça reste les résultats obtenus avec ma configuration : 8 secondes pour Utilisateur:Unsui/work et 15 pour l’autre. Ce devrait être un peu plus rapide avec quelqu’un qui a moins de gadgets. — Automatik (discussion) 9 mars 2014 à 12:54 (UTC)Répondre

Bon, j’ai mis les nouvelles stats en ligne en faisant 2 tableaux : langues ayant au moins 5 pages dans le premier et les autres dans le second. J’ai enlevé la colonne "entrées précédentes" puisqu’on a l’évolution et l’historique. J’ai supprimé les appels au module langue (mais le gain semble minime). On peut bien sûr changer également le nombre de pages par langues provoquant la rupture en 2 tableaux comme le suggère Dak. Et si vous avez d’autres suggestions, n’hésitez pas. Merci; — Unsui Discuter 15 mars 2014 à 21:24 (UTC)Répondre

Historique

Y'a moyen qu'on obtienne des courbes au cours du temps ? Où sont archivé ces données ? --Lyokoï (discussion) 26 février 2015 à 17:36 (UTC)Répondre

Je pense qu’il faut se taper l’historique. Je crois qu’il existe des technologies wiki pour tracer directement des graphes mais je n’ai plus le nom en tête des balises. Pamputt [Discuter] 26 février 2015 à 18:31 (UTC)Répondre
J’ai ça pour mes courbes perso :
Désolé, je ne garde rien d’autres. Pour ce qui manque, il faut, comme le dit Pamputt, reprendre les historiques; — Unsui Discuter 26 février 2015 à 18:58 (UTC)Répondre

Lignes de séparation

Dans le tableau, la ligne de séparation entre langues manque parfois. J'imagine que c'est très facile à corriger. Lmaltier (discussion) 11 mars 2015 à 18:52 (UTC)Répondre

Je crois que c’est un bogue d’affichage. Mais je n’en suis pas absolument sûr. Entre quelle langue et quelle langue vois-tu qu’il manque une ligne de délimitation ? Pamputt [Discuter] 12 mars 2015 à 06:47 (UTC)Répondre
Entre les lignes 2 et 3, entre 14 et 15, entre 19 et 20, entre 33 et 34, par exemple. Ce n'est pas systématique, tout à l'heure c'était bon, maintenant c'est mauvais. Mais il semble que, quand il y a problème, ce soit souvent aux mêmes endroits, je suppose donc que, d'une façon ou d'une autre, il y aurait quelque chose à regarder dans le programme qui affiche. Lmaltier (discussion) 12 mars 2015 à 06:56 (UTC)Répondre
C’est bizarre en effet. Je n’ai jamais eu ce problème avec Firefox ni, de mémoire, avec Chrome. Par contre j’ai à certains endroits (en gros toutes les 6 lignes) une ligne de séparation plus épaisse. Mais ça me le fait ailleurs dans les autres tableaux (conjugaisons, etc.). Sinon j’utilise, comme on peut le voir en modificaton, le code standard wiki pour les tableaux. Peut-être que JackPotte ou Automatik aurait une idée à ce sujet. Avec quel navigateur travailles-tu ? — Unsui Discuter 12 mars 2015 à 09:14 (UTC)Répondre
Sur Firefox j'ai toujours vu cette ligne plus épaisse qui n'apparait pas dans le CSS. Ici je la vois toutes les quatre lignes mais ça change selon le zoom. Je croyais que c'était lié au navigateur. JackPotte ($) 12 mars 2015 à 09:43 (UTC)Répondre
Ça l’est, c’est une feature de Firefox pour améliorer la lecture de tableau comportant la même séparation un trop grand nombre de fois. (Ce n’est pas le cas si le CSS le fait naturellement). --Lyokoï (discussion) 12 mars 2015 à 11:32 (UTC)Répondre
J'utilise Firefox. Je n'ai pas de traits plus épais mais des traits qui sautent. C'est peut-être du navigateur que ça vient, mais dans ce cas, je considère que ce n'est absolument pas normal. Et je n'ai jamais vu ça ailleurs, alors que j'utilise Firefox à haute dose, y compris pour afficher des tableaux. Lmaltier (discussion) 12 mars 2015 à 21:51 (UTC)Répondre
J’ai aussi le même « problème ». J’ai des lignes de délimitation qui sautent parfois. J’utilise aussi firefox (version 31.5.0 sous GNU/Linux) Pamputt [Discuter] 12 mars 2015 à 22:20 (UTC)Répondre

Nombre de lemmes

Je suggérerais de changer la formule, et d'y inclure toutes les entrées, sauf celles qui ne peuvent pas être considérées comme des lemmes, c'est-à-dire les flexions, et peut-être aussi les caractères (je n'ai pas la liste sous les yeux, j'oublie peut-être des cas). Par exemple, que les interjections ne figurent pas dans le chiffre me semble anormal. Lmaltier (discussion) 11 mars 2015 à 18:58 (UTC)Répondre

Je suis d’accord avec Lmaltier, sauf que je pense qu'on peut considérer les caractères comme étant des lemmes (difficile d’écrire autrement un « a » que par un « a » pour parler du « a »…). --Lyokoï (discussion) 11 mars 2015 à 23:53 (UTC)Répondre
Le titre pour les lettres est Lettre, pas Caractère. Pour la virgule, on utilise Symbole. Alors, ce serait peut-être Symbole qu'il faut exclure, si Caractère n'est jamais utilisé dans le cas des langues ? Je ne sais pas trop. Mais l'idée est de tout mettre, sauf certains, au lieu d'avoir une liste positive limitative. Lmaltier (discussion) 12 mars 2015 à 06:48 (UTC)Répondre
« Caractère » n’est effectivement jamais utilisé dans une section de langue, c’est un peu comme « conventions internationales ». — Automatik (discussion) 12 mars 2015 à 12:23 (UTC)Répondre
Ah, oh… mais du coup, « Lettre » c’est dans les lemmes ? --Lyokoï (discussion) 12 mars 2015 à 12:28 (UTC)Répondre
Comme il est écrit sous le tableau : le nombre de lemmes est la somme des noms communs + noms propres + adjectifs + verbes + adverbes. et rien d’autres pour le moment. Mais je veux bien inclure vos propositions. — Unsui Discuter 12 mars 2015 à 15:01 (UTC)Répondre
Je parlais des interjections, mail il y a aussi en français des mots comme un, le, de, que, pour, etc. Autrement des mots parmi les plus courants de la langue. Pourquoi avoir choisi de limiter ainsi ? Lmaltier (discussion) 12 décembre 2015 à 16:27 (UTC)Répondre

évolution

Il y a une colonne évolution, mais évolution depuis quand, on ne sait pas. Il serait bien de l’indiquer. Lmaltier (discussion) 26 septembre 2015 à 15:46 (UTC)Répondre

faitUnsui Discuter 26 septembre 2015 à 20:33 (UTC)Répondre
Merci. Lmaltier (discussion) 21 octobre 2015 à 20:44 (UTC)Répondre

Méthode de calcul ?

Je vois pour le français 28704 verbes. Mais la catégorie Verbes en français en compte déjà nettement plus, et en ajoutant les locutions, encore beaucoup plus. Quelle est l’explication ? Comment le nombre indiqué est-il déterminé ? Lmaltier (discussion) 9 décembre 2015 à 22:57 (UTC)Répondre

C’est anormal en effet. Je regarde (ça peut prendre un peu de temps). Pour les locutions, là par contre, c’est voulu et expliqué dans le commentaire en dessous du tableau de stat. — Unsui Discuter 10 décembre 2015 à 10:43 (UTC)Répondre
Bon, ça vient du fait que mon script considère toute entrée (excepté les noms propres) comprenant une espace comme une locution. Ce qui fait que les verbes pronominaux ne sont pas dans les verbes mais dans les locutions. Je vais voir ce que je peux faire. — Unsui Discuter 10 décembre 2015 à 22:01 (UTC)Répondre
Notification @Lmaltier : C’est corrigé pour le français. — Unsui Discuter 11 décembre 2015 à 14:55 (UTC)Répondre
Notification @Unsui : Cette explication montre que le nombre des statistiques était en fait plus significatif que la taille de la catégorie, car les verbes pronominaux font normalement doublon. En ce qui concerne les locutions, il me semble que ce serait mieux de les regrouper avec les noms, verbes, etc. et de supprimer la colonne Locutions. Ce qu’est que mon avis. Un autre choix serait de donner les deux nombres dans la même colonne, ce serait peut-être raisonnable si on se limitait aux cas où il y a des locutions : par exemple, on pourrait avoir simplement, comme actuellement, 5, s’il n’y a pas de locutions ou 50 + 2 loc s’il a des locutions. La place prise en plus serait compensée par la suppression de la colonne Locutions. Lmaltier (discussion) 11 décembre 2015 à 18:26 (UTC)Répondre
Notification @Lmaltier : Normalement, le nombre indiqué dans les statistiques est en effet meilleur que le nombre donné dans les catégories car il décompte précisément chaque appel à un type de mot. Par exemple {{S|verbe|fr|num=1}} suivi de {{S|verbe|fr|num=2}} compte pour 2 dans les stats mais pour 1 dans la catégorie ce qui explique que le nombre dans les stats pour un type de mot donné devrait toujours être supérieur ou égal au nombre indiqué dans sa catégorie. Pour les locutions, les inclure est évidemment très facile mais cela implique de comptabiliser comme verbes des trucs comme se mettre le doigt dans l’œil, se mettre le doigt dans l’œil jusqu’au coude, etc, etc. Perso, je suis contre et c’est pourquoi je ne l’ai pas fait. Si on veut, un tant soit peu, comparer le wiktionnaire avec d’autres dictionnaires, ce n’est évidemment pas la meilleure solution. Pour ta 2ème proposition, je ne sais pas trop et surtout je ne comprend pas bien. 50 + 2 loc, tu veux dire dans la colonne verbe par exemple. (Et aussi, je suppose alors, dans toutes les colonnes puisqu’il y a des locutions pour tous les types de mots). Du coup, ça augmente singulièrement la taille du tableau, même en tenant compte de la suppression de la colonne "locution". Mais peut-être n’ai je pas compris ce que tu veux dire.— Unsui Discuter 11 décembre 2015 à 20:36 (UTC)Répondre
Oui, c’est bien ce que je voulais dire. C’est vrai que ça augmenterait la taille du tableau, mais il faut tenir compte du fait que des locutions, nous n’en avons pas pour toutes les langues, très loin de là, et qu'on pourrait éventuellement mettre un saut de ligne avant le nombre de locutions si ça semble mieux. Lmaltier (discussion) 11 décembre 2015 à 20:45 (UTC)Répondre
Nous n’avons pas de locutions actuellement pour beaucoup de langues car elles ne figurent pas souvent dans les dictionnaires (surtout ceux en ligne) et qu’il faut donc parler la langue pour les connaitre. Sinon, je pense qu’il y en a dans toutes les langues (en tout cas dans toutes celles que je connais, même en inuktitut, langue pourtant hyper agglutinante, on arrive a en avoir quelques unes). Ce qu’il faut considérer, amha, c’est que déjà, je ne connais pas d’autres dictionnaires qui donnent autant de d’infos sur son contenu. (et il n’y a pas photo). Certes, on peut toujours faire mieux. Mais dans un premier temps je pense que c’est déjà assez significatif. Malgré tout je reste disponible si un consensus se fait sur des points précis à améliorer. — Unsui Discuter 11 décembre 2015 à 21:03 (UTC)Répondre

Nombre d'entrées ayant une traduction par langue

Bonjour, Je pense qu'il serait intéressant d'ajouter une colonne sur le nombre d'entrées ayant une catégorie:Traductions en... par langue afin de se rendre compte de la différence entre le nombre d'entrée par langue et le nombre de traductions ajoutés. EN effet bien souvent les articles ne sont pas liés et je pense qu'avec cette stat on pourrait avoir des surprises. Otourly (discussion) 12 décembre 2015 à 08:44 (UTC)Répondre

Notification @Otourly : Désolé, je ne comprends pas très bien ce que tu souhaites. La colonne "nombre de traductions total" donne déjà une idée du nombre présent dans catégorie:Traductions en... . la différence éventuelle est expliquée en bas du tableau de stat. Ce que tu souhaiterais serait-il d’ajouter le nombre d’entrées pour chaque langue (que l’on trouve dans le tableau de stat générale) ? Peut-être pourrais-tu me donner un exemple, sur une langue avec peu d’entrées, de ce que tu veux, que je puisse me faire une idée. Merci d’avance. — Unsui Discuter 12 décembre 2015 à 13:37 (UTC)Répondre
Comme je le comprends, ce qui est demandé est, pour chaque langue étrangère, le nombre (ou mieux, le pourcentage) d'entrées (hors flexions évidemment) non référencées par les traductions. C'est l'autre statistique évidente qu'on peut tirer des relations traductions-entrées, et qui peut effectivement être utile. --Nicasser (discussion) 17 janvier 2016 à 07:04 (UTC)Répondre
C’est un peu délicat tel que c’est écrit pour l’instant. On peut toutefois croiser les stats générales avec celles sur les traductions et obtenir un chiffre approximatif en faisant :
(Nb entrées - Flexions - liens bleus) / (Nb entrées - Flexions). Exemple pour l’anglais : (131159 - 90021 - 31941) / (131159 - 90021) = 22,3 % — Unsui Discuter 17 janvier 2016 à 15:21 (UTC)Répondre
Notification @Otourly : J’ai modifié le tableau en conséquence (du moins je l’espère). — Unsui Discuter 26 janvier 2016 à 14:15 (UTC)Répondre
Notification @Unsui : Je dois pas regarder au bon endroit, mais en tout cas j'ai fait de mon coté une petite stat basée sur les catégories : Portail:Italien/statistiques. Otourly (discussion) 26 janvier 2016 à 16:11 (UTC)Répondre
Notification @Otourly : Normalement, c’est Sourire. — Unsui Discuter 26 janvier 2016 à 16:28 (UTC)Répondre

Traductions : question et autres stats

Bonjour. La question que je me pose depuis que j'ai vu le tableau est de savoir si un lien est considéré comme "bleu" non seulement s'il pointe vers une page existant ici, mais aussi si cette page contient réellement une section pour la langue en question. La remarque "On trouve 640980 traductions dont 520477 distinctes. Pour celles-ci, il est vérifié l’existence de la page dans la langue concernée (hors flexions)" est un peu floue : cela veut-il dire qu'il est vérifié l'existence d'une section pour la langue concernée sur la page liée, ce qui donne des stats plus correctes ?

J'aimerais également faire trois suggestions concernant les stats sur les traductions :

  1. Ajouter un pourcentage "liens bleus"/total, beaucoup plus parlant qu'un couple de nombres et surtout triable dans le tableau.
  2. Ajouter une stat "liens bleus"/"liens rouges" pour les liens vers les autres wiktionnaires (pourcentage de "trad+").
  3. Pourquoi pas une stat qui combine liens "internes"/"externes", ç-à-d quel est le pourcentage de traductions dont l'entrée n'existe ni ici ni sur l'autre wiktionnaire ? Et un listing de ce vocabulaire en langues étrangères non décrit sur aucun Wiktionnaire, pour détecter éventuellement erreurs et vandalismes et déterminer du travail à faire en priorité ?

Merci. --Nicasser (discussion) 17 janvier 2016 à 07:39 (UTC)Répondre

Oui, évidemment, il est vérifié pour une traduction dans une langue donnée que, pour qu’un lien soit bleu, la page existe avec une section de langue correspondante. Pour le reste, mis à part le pourcentage "liens bleus"/total, je n’ai malheureusement pas le temps de me pencher sur de nouveaux développements, surtout que cette stat, qui n’existe sur aucun autre wiki, demande de nombreuses heures pour être constituée. Je ne la fais d’ailleurs pas systématiquement. Comme la patrouille me prend déjà une grande partie de la journée, mes contributions persos pourtant réduites à une seule langue en ce moment faute de temps, le reste de la journée, il m’est difficile d’envisager un surcroit de travail pour l’instant. — Unsui Discuter 17 janvier 2016 à 14:40 (UTC)Répondre
Notification @Nicasser : J’ai ajouté deux colonnes tenant compte de vos remarques. — Unsui Discuter 26 janvier 2016 à 14:16 (UTC)Répondre
C’est super intéressant ! Est-ce que tu aurais cinq minutes pour mettre en valeur ton travail pour le prochain numéro d’Actualité, le journal d’information sur le Wiktionnaire. Je veux bien essayer de m’en occuper, puisque j’ai déjà ajouté récemment tes statistiques sur les citations, et essayé un nouveau truc sur les thésaurus avec Benoît, mais je pense que tu as une vision plus claire des résultats et de ce qu’il serait intéressant de proposer. Si tu as du temps d’ici la fin du mois, ça serait super, sinon pour un autre mois, il n’y a pas d’urgence ! Si tu n’as pas envie du tout, n’hésite pas à me le dire, je ne le prendrai pas mal Sourire Noé/Eölen 26 janvier 2016 à 15:30 (UTC)Répondre
Et il l’a fais ! Un joli paragraphe à retrouver dans l’Actualités n°10 de janvier 2016 Sourire Noé/Eölen 1 février 2016 à 21:39 (UTC)Répondre

Bargraphe

Bonjour, je me suis essayé de faire un bargraphe des dix premières langues (voir ci-après). Par contre je diviserais bien l'échelle pour montrer davantage les écarts, et je ne comprends pas pourquoi l'espéranto me joue ainsi des tours... Si quelqu'un veut bien jeter un œil et l'améliorer; merci ! Otourly (discussion) 31 janvier 2016 à 18:29 (UTC)Répondre

Titre 0 75
français (1985645)
35.5
21.6
russe (202578)
3.6
bulgare (155903)
2.8
anglais (173223)
3.1
espagnol (202084)
3.6
latin (92773)
1.7
slovène (81116)
1.4
espéranto (150960)
2.7
same du Nord (627389)
11.2
italien (658050)
11.8
Actuellement il n’y a aucune échelle mise en place, puisque la largeur des cases dépend uniquement de leur contenu (voir l’espagnol qui fait la même taille que la ligne précédente, pas seulement l’espéranto). La première chose à faire àma, c’est peut-être expliquer que signifie {{PAGESINCATEGORY:italien:R}}, je n’ai pas trouvé où cette notation est documentée (le :R, d’où vient-il ?). — Automatik (discussion) 31 janvier 2016 à 19:22 (UTC)Répondre
PAGESINCATEGORY est un MagicWord et le « :R » semble nécessaire pour que l'expression fonctionne... Otourly (discussion) 1 février 2016 à 06:31 (UTC)Répondre
Testons :
{{#expr:{{PAGESINCATEGORY:russe|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}
5
{{#expr:{{PAGESINCATEGORY:espéranto|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}
4
{{#expr:{{PAGESINCATEGORY:italien|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}
18
{{#expr:{{PAGESINCATEGORY:slovène|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}
2
Hum Otourly (discussion) 1 février 2016 à 11:09 (UTC)Répondre
Il y a donc bien une erreur de syntaxe pour commencer, c’est {{#expr: {{PAGESINCATEGORY:italien|R}} }} et non {{#expr: {{PAGESINCATEGORY:italien:R}} }}, avec le pipe. — Automatik (discussion) 1 février 2016 à 13:38 (UTC)Répondre
Pour le R c'est expliqué là : mw:Help:Magic_words/fr même on peut pas dire que c'est très clair... Otourly (discussion) 1 février 2016 à 16:19 (UTC)Répondre
Merci, c’était bien caché. Le problème de la présentation ci-dessus est que les noms de langues, les nombres d’entrées, sont inscrits directement dans la barre, l’obligeant à avoir une longueur minimum (au-dessous de laquelle plus aucune distinction n’est faite entre les différentes barres). Pourquoi ne pas sortir ces informations en dehors de la barre, voire même utiliser l’extension ad hoc pour créer des histogrammes (on en parlait dans Wiktionnaire:Questions techniques/juin 2015#Tracer un graph) :

Automatik (discussion) 1 février 2016 à 21:56 (UTC)Répondre

(NB : le nombre d’entrées est censé s’afficher au survol de la souris, mais perso je n’arrive à le voir qu’en prévisualisation — Automatik (discussion) 1 février 2016 à 21:58 (UTC))Répondre

Pareil pour moi, je ne vois le nombre d’entrées qu’en mode de prévisualisation. Dommage car j’aime beaucoup les graphiques que vous essayez de produire ! Ils agrémenteront très bien le prochain numéro des Actualités ! Une fois la forme trouvée, est-ce que vous pensez qu’il serait possible de faire la même opération sur le projet anglophone afin d’observer les différences de comportements entre eux et nous ? Je crains qu’il ne soit pas à notre avantage, mais je n’en sais trop rien, et je suis curieux de voir ce que ça pourrait donner Sourire Noé/Eölen 1 février 2016 à 22:27 (UTC)Répondre
Il ne serait pas possible de mettre une échelle logarithmique ? Certes ça fausse les proportions mais on y gagnerait en lisibilité. Dommage qu'on ne puisse pas ajouter les fonctions parser PAGESINCATEGORY car du coup ce n'est pas automatique...Notification @Noé : on peut bien évidement faire le même traitement pour la version anglophone, malgache et cie. Otourly (discussion) 2 février 2016 à 05:25 (UTC)Répondre
Bon le premier ressemble enfin à quelque chose ! Otourly (discussion) 2 février 2016 à 16:30 (UTC)Répondre
Ah ouais ! C’est bien ! Et pour continuer à demander des trucs sans apporter du tout mon aide au développement (mais je fais d’autres trucs alors je culpabilise pas trop), est-ce que tu crois qu’il serait possible de diviser chaque barre en deux couleurs, en distinguant les bases lexicales des flexions ? C’est à dire les mots de sens plein des formes fléchies qui ne sont que des formes différentes pour une racine (le pluriel, les formes conjuguées, les déclinaisons, etc.) Merci d’avance Sourire Noé/Eölen 2 février 2016 à 16:43 (UTC)Répondre
Notification @Noé : un petit test sur le français et uniquement la catégorie:Formes de verbes en français en effet il n'y a pas de catégorie contenant toutes les flexions.
Par contre, si on fait la somme de toutes les catégories de flexions séparément on pourrait les compter plusieurs fois et ainsi faire des double-compte (triple et plus) et probablement le pourcentage ne signifie pas grand chose. De plus PAGESINCATEGORY compte aussi les sous-catégories (certes y'en a pas non plus des masses et ça donne un bon apperçu...
En fait pour avoir de bonnes statistiques, il faudrait compter toutes les sections grammaticales des entrées... Otourly (discussion) 2 février 2016 à 17:09 (UTC)Répondre
Oui oui, mais c’est déjà ce que fait Unsui dans le tableau des statistiques générales, donc ces informations là sont déjà disponible, non ? Sourire Noé/Eölen 2 février 2016 à 17:18 (UTC)Répondre
En effet, Notification @Unsui : peut utiliser ça pour mettre en graphique les données de la page d'à coté mais on aura pas l'actualisation automatique ;) Otourly (discussion) 2 février 2016 à 17:30 (UTC)Répondre
Oui, mais qui a vraiment besoin de ce genre de graphique en temps réel ? Déjà qu’aucun wiki n’a autant de stats qu’ici. Prendre garde également de bien comprendre de quoi on parle : PAGESINCATEGORY renvoie, je suppose, un nombre de pages (qui était souvent faux auparavant, mais ça a l’air d’être corrigé maintenant), les stats géné un nombre d’entrées. Une page peut contenir pour une langue donnée plusieurs lemmes et/ou plusieurs flexions. Sinon, je signale que je mets à disposition un fichier texte des nombres des stats géné ici, normalement chaque mois (quand je n’oublie pas Sourire). On peut donc l’intégrer dans un tableur et en tirer une pelleté de graphiques. — Unsui Discuter 2 février 2016 à 18:14 (UTC) En plus, il y a les historiques qui permettent de remonter dans le temps. — Unsui Discuter 2 février 2016 à 18:35 (UTC)Répondre

J’ai modifié les histogrammes ci-dessus pour qu’ils affichent le nombre d’entrées sur demande. Et pour répondre à Dommage qu'on ne puisse pas ajouter les fonctions parser PAGESINCATEGORY car du coup ce n'est pas automatique, oui, on peut utiliser ces fonctions (fait ci-dessus). — Automatik (discussion) 2 février 2016 à 22:14 (UTC)Répondre

Notification @Automatik : Excellent ! j'ai fait une petite modification comme indiquée sur la page d'aide de MediaWiki pour exclure les sous-catégories. et ainsi renvoyer un résultat juste (enfin plus juste à voir si ça correspond aux critères de Unsui). On ne peut pas changer l'échelle de linéaire à logarythmique ? On verrait mieux les différences entre les autres langues que le français. En tout cas c'est bien réussi ! Otourly (discussion) 3 février 2016 à 05:15 (UTC)Répondre