Wiktionnaire:Prise de décision/Catégories des lettres rares

Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.
Proposition close Proposition close

Résultat :

  • Le Lua ne catégorisera pas les lettres rares inconnues ;
  • les lettres rares seront stockées séparément de la liste des langues ;
  • les catégories de lettres rares ne seront pas masquées à la vue des lecteurs ;
  • les lettres dites rares sont celles présentes dans moins d’1% des mots d’une langue.

Discussion

Conformément nos discussions (en 2013 et 2014), il y a une semaine j'ai enfin automatisé le remplissage de Catégorie:Lettres rares en Lua en temps réel (que je faisais toutes les nuits en Python).

Ce nouveau module a mis en évidence un flou sur ce qui peut être inadmissible dans ces catégories.

C'est pourquoi nous avons besoin de recueillir vos avis pour définir les lettres qui auront le privilège de figurer dans Catégorie:Lettres rares en français (et les autres langues par défaut). JackPotte ($) 10 janvier 2015 à 19:19 (UTC)[répondre]

Votes

Faut-il cacher les catégories des lettres rares ?

Oui

Non

  1. Contre Contre car c’est une catégorie de curiosité linguistique, donc destinée aux utilisateurs. Ce sont plutôt les catégories de maintenance qu’on cache, inutiles pour le lecteur. — Automatik (discussion) 10 janvier 2015 à 19:14 (UTC)[répondre]
  2. Contre Contre JackPotte ($) 10 janvier 2015 à 19:27 (UTC)[répondre]
  3. Contre Contre Mêmes arguments qu’Automatik. --Lyokoï (discussion) 11 janvier 2015 à 11:51 (UTC)[répondre]
  4. Contre Contre Idem. V!v£ l@ Rosière /Murmurer…/ 12 janvier 2015 à 21:34 (UTC)[répondre]
  5. Contre Contre, comme a dit Automatik. — Dakdada 14 janvier 2015 à 17:31 (UTC)[répondre]

Euh ?

  1. Je n’ai pas compris la question. --GaAs 12 janvier 2015 à 21:37 (UTC)[répondre]
    if | pour | contre. JackPotte ($) 13 janvier 2015 à 07:40 (UTC)[répondre]

Faut-il lister les lettres rares par langue dans une nouvelle colonne de la liste des langues, ou bien tenir une liste parallèle comme actuellement ?

Oui pour fusionner

  1. Pour Pour JackPotte ($) 10 janvier 2015 à 19:13 (UTC)[répondre]

Non

  1. Contre Contre Cette réponse réponse est toujours d’actualité. Aucun rapport entre les deux et, si j’ai bien compris, aucun avantage à les fusionner sauf apporter de la confusion lors de la maintenance. Notification @JackPotte : tu sembles vouloir les fusionner, mais pour quelles raisons ? V!v£ l@ Rosière /Murmurer…/ 12 janvier 2015 à 21:42 (UTC)[répondre]
    Pour avoir une seule liste de langues au lieu de deux : une avec les liens interwikis et l'autre avec le pool de lettres à catégoriser, en vertu de la méthode de programmation Duplication de code sur l’encyclopédie Wikipédia . JackPotte ($) 13 janvier 2015 à 07:36 (UTC)[répondre]
  2. Plutôt Contre Contre pour l'instant : la liste a un rapport très limité avec la liste des langues. — Dakdada 14 janvier 2015 à 17:33 (UTC)[répondre]



Faut-il limiter les lettres selon leurs occurrences dans la catégorie des lettres rares ?

Non (et renommer "lettres rares" en quelque chose comme "lettres par mot")

Neutre Neutre C’est une statistique qui peut être intéressante globalement, mais plus j’utilise AWB plus je pense qu’on devrait créer une page Annexe:Statistiques sur le français où on y mettrai tout un tas de chiffre sympa ! Mort de rire --Lyokoï (discussion) 13 janvier 2015 à 13:44 (UTC)[répondre]

En-dessous de 1 % des articles de la langue

  1. Pour Pour JackPotte ($) 10 janvier 2015 à 19:18 (UTC)[répondre]
    Pour PourAutomatik (discussion) 10 janvier 2015 à 19:21 (UTC) ça me semble en fait trop selon les stats ci-dessous. — Automatik (discussion) 14 janvier 2015 à 19:31 (UTC)[répondre]
  2. Pour Pour --Lyokoï (discussion) 11 janvier 2015 à 11:52 (UTC) Idem qu’Automatik. --Lyokoï (discussion) 15 janvier 2015 à 13:43 (UTC)[répondre]
  1. Pour Pour V!v£ l@ Rosière /Murmurer…/ 12 janvier 2015 à 21:42 (UTC)[répondre]

En-dessous de 0,1 % des articles de la langue

  1. Pour Pour. J'ai fait les stats suivantes : Utilisateur:Darkdadaah/Listes/Lettres fr. Faire une limite à 0,1 % (soit 1000 mots, comparé à 10 000 mots avec 1 %) pour le français me semble mieux. Par exemple je ne trouve pas que w (0.5 %), ô (0.3 %) ou à (0.3 %) soient particulièrement rares. — Dakdada 14 janvier 2015 à 18:30 (UTC)[répondre]
  2. Pour Pour, ça me semble mieux. — Automatik (discussion) 14 janvier 2015 à 19:31 (UTC)[répondre]

En-dessous de 1000 mots contenant la lettre

  1. Pour Pour étant donné que les statistiques vont bouger plus facilement (+3000 mots en moyenne par mois en français) qu’un nombre plancher. J’opte pour la symbolique barre des 1000 mots. --Lyokoï (discussion) 15 janvier 2015 à 13:45 (UTC)[répondre]
    Ce chiffre statique ne va par définition pas s’adapter au nombre de mots dans la catégorie de la langue, et semble donc un très mauvais moyen de jauger ce qu’est une lettre rare (par exemple, pour les langues à 1000-3000 mots, la plupart des lettres seront considérées comme rares, même les plus courantes. Je ne parle pas des langages contenant moins de 1000 mots sur le Wiktionnaire, les catégories n’auront pour eux simplement aucun sens). — Automatik (discussion) 25 janvier 2015 à 23:27 (UTC)[répondre]

En-dessous de 100

En-dessous de 10

Si la lettre a des diacritiques

En fonction des lemmes uniquement (le Lua ignorerait toutes les flexions)




Faut-il lister les lettres inattendues par le Lua ?

Il est possible dans un module Lua de noter toutes les lettres appartenant à l’alphabet d'une langue d'une part, et toutes les lettres rares et recensées pour cette langue d’autre part. Si des lettres rares mais non recensées existent dans la langue, voudriez-vous que les entrées qui utilisent ces lettres soient listées dans une catégorie de maintenance ?

Oui dans des petites catégories (dont certaines à une seule entrée)

Oui dans la catégorie mère Catégorie:Lettres rares en français

  1. Pour Pour JackPotte ($) 10 janvier 2015 à 19:19 (UTC)[répondre]
  2. Pour Pour --Lyokoï (discussion) 13 janvier 2015 à 13:46 (UTC)[répondre]

Non

  1. Plutôt Contre Contre : ce genre d'analyse devrait plutôt être fait en analysant les fichiers dump. Utiliser Lua et les catégories pour trouver des lettres rares est très inefficace. — Dakdada 14 janvier 2015 à 18:34 (UTC)[répondre]

Discussion

Euh… J’ai pas compris la question. C’est quoi une lettre que n’attend pas le Lua ? Un exemple ? V!v£ l@ Rosière /Murmurer…/ 12 janvier 2015 à 21:42 (UTC)[répondre]

J’ai tenté d’expliquer juste en-dessous de la question. — Automatik (discussion) 12 janvier 2015 à 22:55 (UTC)[répondre]
En gros ce serait les mot contenant des lettres empruntées d’un alphabet différent c’est ça ?
Ouais si j’ai bien compris. — Automatik (discussion) 15 janvier 2015 à 11:42 (UTC)[répondre]



Résultat

  1. Faut-il cacher les catégories des lettres rares ? Non à 5 contre 0.
  2. Faut-il lister les lettres rares par langue dans une nouvelle colonne de la liste des langues, ou bien tenir une liste parallèle comme actuellement ? Non à 2 contre 1.
  3. Faut-il limiter les lettres selon leurs occurrences dans la catégorie des lettres rares ? Oui à 5 contre 0 : en-dessous de 1 % à 5 contre 0, pas de consensus pour moins que cela.
  4. Faut-il lister les lettres inattendues par le Lua ? Non à 1 contre 2 : pas de consensus.

Je vais donc supprimer les lettres plus répandues que 1 % dans Module:langues/lettres rares. JackPotte ($) 25 janvier 2015 à 23:06 (UTC)[répondre]

L’interprétation du point 3 ne me semble pas adéquate, puisque si un utilisateur a voté pour les lettres ayant "- de 1%" d’occurrences, il sera forcément d’accord pour "- de 0.1%" d’occurrences, alors que l’inverse n’est pas vrai. — Automatik (discussion) 25 janvier 2015 à 23:33 (UTC)[répondre]
L'ensemble des lettres inférieures à 0,1 % est inclus dans celui des lettres inférieures à 1 %. Les lettres que je viens de retirer ("é", "è", et "â") sont exclues de ces deux ensembles, auxquels personne ne s'est opposé. JackPotte ($) 25 janvier 2015 à 23:48 (UTC)[répondre]
Mais l’ensemble des lettres inférieures à 0.1% n’est pas inclus dans celui des lettres à -1%, donc en toute logique dans l’ensemble des lettres à -0.1%, il y a à la fois ceux qui ont voté "-0.1%" et ceux qui ont voté "1%", alors que dans la tranche "0.1% - 1%", il n’y a que ceux qui ont voté "1%". Dessiner des cercles permet de mettre ça en évidence. — Automatik (discussion) 26 janvier 2015 à 07:25 (UTC)[répondre]
Justement non, on ne peut pas dire que ceux qui ont voté à 1 % étaient pour la suppression du œ. Car comme Catégorie:œ en français existait depuis 2012, la solution de ce problème est la même d'un point de vue additif ou soustractif, en vertu des règles de suppression (et en plus elle est aussi sur l’anglophone et l’hispanophone) : 2 165 * 100 / 1 374 427 = 0,16 > 0,1 %. JackPotte ($) 26 janvier 2015 à 11:24 (UTC)[répondre]
Je n’ai pas dit que ceux qui ont voté 1% sont d’accord pour la suppression du "œ". Par contre, ils ne sont que 2 pour la conservation du œ et 4-5 pour la conservation des lettres < 0.1%. Donc le consensus le plus fort est pour répertorier les lettres < 0.1%, puisque il y a 4 personnes pour ces lettres, vs. à peine 2 pour les lettres > 0.1%. — Automatik (discussion) 26 janvier 2015 à 11:32 (UTC)[répondre]
Autrement dit, quand tu dis que « en-dessous de 1 % à 5 contre 0 », tu fais erreur puisque ceux qui ont voté 0.1% n’ont pas voté 1% : quand quelqu’un est pour 0.1% c’est qu’il ne s’inclut pas parmi ceux qui veulent garder les lettres > à 0.1%. L’ensemble 0.1% n’est par conséquent pas inclus dans l’ensemble 1%. Le raisonnement que tu avances est clairement un sophisme. — Automatik (discussion) 26 janvier 2015 à 11:36 (UTC)[répondre]
Ma phrase en rouge se voulait synthétique et donc pas assez précise pour en opposer les deux sens possibles ici. Je répète juste que si j'ai pu supprimer les lettres > 1 % à 5 contre 0, on ne pourrait pas supprimer "œ" sur WT:Suppression à deux contre deux (voire même à deux contre trois si on ignore l'ouverture du neutre de Lyokoï). D'où le "pas de consensus pour moins" JackPotte ($) 26 janvier 2015 à 11:48 (UTC)[répondre]