Wiktionnaire:10000-wp-fr

2005[modifier le wikicode]

Voici une liste des termes les plus fréquents utilisés sur la Wikipédia française. La liste obtenue des 10 000 termes les plus fréquents, a été scindée en 10 blocs de 1 000 mots chacun :

Notes : cette liste a été générée automatiquement et comporte des erreurs de comptage :

Toutes les formes de capitalisation d’un même terme sont comptées séparément, ce qui comprend la capitale en début de phrase ou de titre, mais aussi des termes écrits entièrement en lettres capitales (la capitalisation est également souvent faite au détriment des accents et cédilles normalement nécessaires).
Toutes les différentes inflexions d’un même terme sont comptées séparément; cela désavantage fortement les verbes, et donne au contraire un fort avantage aux adverbes par rapport aux substantifs et adjectifs.
Des mots distincts sont accolés par contraction avec une apostrophe ce qui multiplie le nombre de distinctions au désavantage des termes commençant par une voyelle ou un h muet, qui sont comptés séparément avec les contractions de articles (l’), prépositions (d’), adverbes de négation (n’), pronoms (c’, j’, m’, s’, t’), et particules de liaison verbales (-t-, -z-). De plus les apostrophes ne sont pas unifiées (apostrophe droite ' saisie le plus souvent, ou apostrophe oblique et courbée ’ recommandée en typographie française). Ces contractions accolées sont donc très fréquentes dans la liste (qu’elles « polluent » inutilement) mais désavantagent les véritables mots isolés qui sont donc sous-représentés.
Elle comprend de nombreux noms propres, marques commerciales et toponymes, internationaux par nature et non spécifiques au français. Aucune analyse n’a permis de faire la distinction entre un nom propre en un mot commun capitalisé (par exemple Pierre). Parmi les toponymes composés, les orthographes avec ou sans traits d’union ne tiennent pas toujours compte de la forme recommandée, et certains sont traduits ou translitérés suivant différentes conventions (y compris des conventions non françaises).
Certains termes proviennent de la syntaxe wiki ou HTML et n’auraient pas du être comptées car ils sont absent du texte effectivement affiché (il s’agit donc d’erreurs d’analyse du code Wiki par l’outil automatique d’extraction). Des nombreuses erreurs surviennent notamment dans l’extraction du code wiki des tableaux de données et servent en fait à la mise en forme du texte, d’autres sont des erreurs d’interprétation des paramètres de modèles.
La liste contient diverses abréviations, dont certaines sont fautives, incomplètes, non conformes aux recommandations, ou utilisées de façon opportuniste en fonction d’impératifs de présentation (par exemple dans des tables de données très compactes).
Certains mots sont mal orthographiés ou bien il leur manque des accents, ou sont coupés abusivement (l’extraction automatique ne peut pas reconnaître pas les césures forcées); ce n’est pas un problème de l’outil d’extraction lui-même mais des articles dont proviennent ces termes et dans lesquels figurent ces orthographes fautives laissées par les contributeurs mais non encore revues et corrigées.
La liste contient des termes de langues étrangères (notamment de l’anglais) présents dans le texte de Wikipédia, souvent dans des citations ou titres d’œuvres étrangères citées, ou dans les titres d’articles (et les liens vers ceux-ci) consacrés à ces œuvres.
Elle comprend diverses lettres isolées, ou groupes de lettres qui ne constituent pas des mots mais des notations, par exemple des ordinaux romains, des indices, des renvois de notes, etc...
Elle contient d’autres caractères, notamment des signes de ponctuation et symboles, dont une partie sert à la syntaxe Wiki et ne sont même pas affichés dans le rendu effectif des pages.
Elle contient des termes avec des caractères invalides (provenant d’erreurs d’encodage suite à des opérations de copier-coller ou d’autres modifications d’articles faites dans des navigateurs mal configurés ou ne supportant pas bien Unicode); ces occurrences auraient du être éliminées.

Il n’est malheureusement pas possible de corriger tous ces problèmes à cause de l’ambigüité des termes sortis de leur contexte, les textes ne contiennent pas de méta-données d’analyse grammaticale et l’outil d’extraction ne sait pas faire cette analyse.

Dans de nombreux cas, ces erreurs génèrent des "liens rouges" car les termes ainsi écrits ne pointe sur aucune entrée du Wikitionnaire, mais ce n'est pas toujours le cas pour les termes de langues étrangères, et certaines capitalisations sont présentes dans le Wikitionnaire soit sous forme d’entrées séparées, soit sous forme de redirections.

Si les liens rouges sont problématiques dans cette liste, les contributeurs qui souhaitent les corriger devraient supprimer les liens Wiki parasites (en conservant les termes) plutôt que créer une redirection ou un article pour une nouvelle entrée. Toutefois, de telles corrections seraient inutiles car cette liste peut être régénérée plus tard à partir d’une nouvelle extraction des articles de Wikipédia et d’une amélioration de l’analyse visant à éliminer une partie des problèmes ci-dessus.

2012[modifier le wikicode]

À titre de comparaison, version du 17 octobre 2012 (script différent, sélection des mots utilisant le script latin seulement) :

/20121017-1000

NB : le dump contenait 1 304 441 article, le script en a isolé 395 788 678 mots, dont 2 462 972 uniques (mais avec les aléas décrits ci-dessus, notamment les mots en majuscule en double).

2016[modifier le wikicode]

Version la plus récente :

Utilisateur:Darkdadaah/Listes/Mots dump/frwiki/2016-02-03