- https://dumps.wikimedia.org/frwiktionary/
- Articles, templates, media/file descriptions, and primary meta-pages.
- Exemple : frwiktionary-20221101-pages-articles.xml.bz2 484.6 MB (compressé), 4.9 GB (décompressé).
- Téléchargement : wget https://dumps.wikimedia.org/frwiktionary/20221101/frwiktionary-20221101-pages-articles.xml.bz2
- Extraction : bzip2 -dk *pages-articles.xml.bz2
- -d --decompress
- -k --keep (conserver le fichier compressé)
- Interface en ligne de commande grammalecte-cli, testé avec une distribution Linux.
- https://grammalecte.net/index.html
- Téléchargement section CLI & Serveur
- python3 grammalecte-cli.py -owe -ff 20221103-def.txt
- -owe, --only_when_errors ; Afficher seulement les résultats avec des erreurs.
- -ff (Fichier entrant, 20221103-def.txt, UTF-8 requis) et crée un fichier de résultats (*.res.txt)
- 20221103-def.txt ; Extraction des définitions du Wiktionnaire (dump incrémental).
- Pour l'instant, recherche Accord de genre erroné dans *.res.txt.
{{m}} {{m}}
2023-11-14 ; 3 corrections
2021-11-01 ; 1 correction
{{f}} {{f}}
2023-11-14 ; 5 corrections
2021-11-01 ; 1 correction
- Habituellement vers le lemme
- Corrections : (plusieurs autres restent à faire)
- Exemple d'erreurs corrigées :
- achromatiques
- acronymes
- adversaires ; (2)
- atomes
- comédiens
- convulsions
- électrons ; (2)
- [[empreintes]] [[digitales]] > [[empreinte digitale|empreintes digitales]] ; (2)
- gonades ; (2)
- lentilles
- pulsations
Ligne avec [Catégorie: ne terminant pas par "]]"[modifier le wikicode]
grep "^\[\[Catégorie:" *.xml | sed 's#</text>$##g' | grep -v "]] *" | grep -v "]]$" | grep -v "</noinclude>$"
2023-11-14 ; 7 corrections (il en reste)
2021-11-01 ; 5 corrections
Ajout de la [[Catégorie:Noms multigenres en français]][modifier le wikicode]
- acétate
- adi
- arénaire
- armadille
- brandebourg
- brie
- cagna
- camme
- câpre
- carnasse
- carnauba
- catin
- caustique
- chalcide
- champagne
- charleston
- chitte
- chlorite
- chnek
- transat
- tétragone
- vulnéraire
Liste des ")" dans les titres d'articles incluant la chimie et des redirections (251 résultats)
|
Dump 2021-10-20
- (
- (+)-
- (-)-
- (−)-
- 1,1,1-Trichlor-2,2-bis-(4-chlorophenyl)ethan
- 1,1,1-trichlor-2,2-bis(p-chlorofenyl)ethan
- 1,1,1-trichloro-2,2-bis(4-chlorophenyl)ethane
- 1,1,1-trichloro-2,2-bis(p-chlorofenyl)etán
- 1,1,1-trichloro-2,2-di(4-chlorophenyl)ethane
- 1,1,1-tricloro-2,2-bis(4-clorofenil)
- 1,1,1-tricloro-2,2-bis(4-clorofenil)-etano
- 1,1,1-tricloro-2,2-bis(p-clorofenil)etano
- 1,1,1-triklor-2,2-di(4-klorbensen)etan
- 1,1,1-trikloro-2,2,-bis(4-klorofenüül)etaan
- 1,1,1-trikloro-2,2-di(p-klorofenil)etan
- 1,1-bis(4-klorofenüül)-2,2,2-trikloroetaan
- (11E)-octadeceenzuur
- (11E)-octadecenoic acid
- (11E)-octadekeenihappo
- (11E)-oktadekenoinska kiselina
- (11Z)-eicoseenzuur
- (11Z)-eicosenoic acid
- (11Z)-eikoseenihappo
- (11Z)-eikozenoinska kiselina
- (11Z)-icoseenzuur
- (11Z)-icosenoic acid
- (11Z)-ikozenoinska kiselina
- 1,2 bis-(3-méthoxycarbonyl-2-thiouréido) benzène
- (13Z)-docosenoic acid
- (13Z)-dokoseenihappo
- (13Z)-dokozenoinska kiselina
- (13Z)-eicosanoic acid
- (13Z)-eikoseenihappo
- (15Z)-tetracosenoic acid
- (15Z)-tetrakoseenihappo
- (15Z)-tetrakozenoinska kiselina
- (15Z)-тетракозеновая кислота
- 2,2-iminodi(ethylamine)
- 2,2'-iminodi(éthylamine)
- 2,2’-iminodi(éthylamine)
- 2,3-bis(nitrooxy)propyl nitrate
- (2S)
- (2s)
- 4,4'-(2,2,2-trichloroethaan-1,1-diyl)bis(chloorbenzeen)
- 4,4’-(2,2,2-trichloroethaan-1,1-diyl)bis(chloorbenzeen)
- (4Z,7Z,10Z,13Z,16Z,19Z)-docosahexaeenzuur
- (4Z,7Z,10Z,13Z,16Z,19Z)-docosahexaenoic acid
- (4Z,7Z,10Z,13Z,16Z,19Z)-docosahexaensyre
- (4Z,7Z,10Z,13Z,16Z,19Z)-dokosaheksaeenihappo
- (4Z,7Z,10Z,13Z,16Z,19Z)-dokosaheksaeno rugštis
- (4Z,7Z,10Z,13Z,16Z,19Z)-dokozaheksaenoinska kiselina
- (5R,6S)-7,8-didehydro-4,5-époxy-3-méthoxy-N-méthylmorphinan-6-ol
- (5S,6E,8Z,11Z,14Z)hidroksikozatetraenoinska kiselina
- (5S,6E,8Z,11Z,14Z)hydroxyicosatetraenoic acid
- (5Z,8Z,11Z,14Z,17Z)-5,8,11,14,17-eikozapentaénsav
- (5Z,8Z,11Z,14Z,17Z)-eicosapentaeenzuur
- (5Z,8Z,11Z,14Z,17Z)-icosapentaenoic acid
- (5Z,8Z,11Z,14Z,17Z)-icosapentaensyre
- (5Z,8Z,11Z,14Z,17Z)-ikozapentaenoinska kiselina
- (5Z,8Z,11Z,14Z)-5,8,11,14-eicosatetraenoic acid
- (5Z,8Z,11Z,14Z)-eicosatetraenoic acid
- (5Z,8Z,11Z,14Z)-eicosatetraenoico
- (5Z,8Z,11Z,14Z)-eikozatetraenojska kislina
- (5Z,8Z,11Z,14Z)-icosatetraenoic acid
- (5Z,8Z,11Z,14Z)-ikosatetraenoinska kiselina
- (5Z,8Z,11Z)-eicosatrienoic acid
- (5Z,8Z,11Z)-eikosatrieenihappo
- (5Z,8Z,11Z)-eikozatrienoinska kiselina
- (5Z,9Z,12Z)-octadecatrienoic acid
- (5Z,9Z,12Z)-oktadekatrieenihappo
- (6E,8Z,11Z,14Z)-5-гидропероксиэйкоза-6,8,11,14-тетраеновая кислота
- (6Z,9Z,12Z,15Z)-octadecatetraenoic acid
- (6Z,9Z,12Z,15Z)-oktadekatetraeenihappo
- (6Z,9Z,12Z)-octadeca-6,9,12-trieenzuur
- (6Z,9Z,12Z)-octadecatrieenzuur
- (6Z)-hexadecenoic acid
- (6Z)-octadecenoic acid
- 7-(2-octyl-1-cyclopropenyl)heptanoic acid
- 7-(2-Octylcyclopropen-1-yl)heptansäure
- (7R,11R)-3,7,11,15-tetramethylhexadecaanzuur
- (7R,11R)-3,7,11,15-tetramethylhexadecanoic acid
- (7R,11R)-3,7,11,15-Tetramethylhexadecansäure
- (8E,10E,12E)-octadecatrienoic acid
- (8E,10E,12Z)-octadecatrienoic acid
- (8E,10E,12Z)-oktadekatrieenihappo
- (8Z,10E,12Z)-octadecatrienoic acid
- (8Z,10E,12Z)-oktadekatrieenihappo
- (9E,11E,13E)-octadecatrienoic acid
- (9E,11E,13Z)-octadecatrienoic acid
- (9E,11E,13Z)-oktadekatrieenihappo
- (9E,12E)-octadecadienoic acid
- (9E)-octadecenoic acid
- (9E)-octadecensyra
- (9E)-octadekeenihappo
- (9E)-oktadekenoinska kiselina
- (9Z,11E,13E,15Z)-octadecatetraenoic acid
- (9Z,11E,13E)-octadecatrienoic acid
- (9Z,11E,13E)-oktadekatrieenihappo
- (9Z,11E)-octadecadienoic acid
- (9Z,11E)-oktadekadieenihappo
- (9Z,12Z,15Z)-octadecatrieenzuur
- (9Z,12Z,15Z)-octadecatrienoic acid
- (9Z,12Z,15Z)-octadecatriensyre
- (9Z,12Z,15Z)-oktadeka-9,12,15-trieenihappo
- (9Z,12Z,15Z)-oktadeka-9,12,15-trienoiska kiselina
- (9Z,12Z,15Z)-oktadekatrienoiska kiselina
- (9Z,12Z)-octadecadienoic acid
- (9Z,12Z)-oktadekadieenihappo
- (9Z)-hekaadecenoinska kiselina
- (9Z)-hexadeceenihappo
- (9Z)-hexadeceenzuur
- (9Z)-octadeceenzuur
- (9Z)-octadecenoic acid
- (9Z)-oktadecenoinska kiselina
- (9Z)-oktadecénsav
- (9Z)-oktadekensyra
- (9Z)-tetradecenoic acid
- (9Z)-tetradekeenihappo
- àcid (9Z)-hexadecenoic
- acide (13Z)-icosénoïque
- acide (5S,6E,8Z,11Z,14Z)hydroxyicosatétraénoïque
- acide (5Z,8Z,11Z,14Z)-eicosatétraénoïque
- acide (5Z,9Z,12Z)-octadécatriénoïque
- acide 7-(2-octylcyclopropén-1-yl)heptanoïque
- acide (8E,10E,12E)-octadécatriénoïque
- acide (8E,10E,12Z)-octadécatriénoïque
- acide (8Z,10E,12Z)-octadécatriénoïque
- acide (8Z,11Z,14Z,17Z)-eicosatétraénoïque
- acide (9E,11E,13E)-octadécatriénoïque
- acide (9E,11E,13Z)-octadécatriénoïque
- acide (9Z,11E,13E,15Z)-octadécatétraénoïque
- acide (9Z,11E,13E)-octadécatriénoïque
- acide (9Z)-octadécén-12-ynoïque
- acido (13Z)-docosenoico
- ácido (13Z)-docosenoico
- ácido (4Z,7Z,10Z,13Z,16Z,19Z)-docosa-hexaenoico
- ácido (4Z,7Z,10Z,13Z,16Z,19Z)-docosahexaenoico
- acido (5Z,8Z,11Z,14Z,17Z)-eicosapentenoico
- ácido (5Z,8Z,11Z,14Z,17Z)-icosapentaenóico
- ácido (6Z,9Z,12Z,15Z)-octadecatetraenoico
- acido (6Z,9Z,12Z)-ottadecatrienoico
- ácido (6Z)-hexadecenoico
- ácido (9E)-octadecenoico
- ácido (9Z,12Z,15Z)-octadecatrienoico
- ácido (9Z,12Z,15Z)-octadecatrienóico
- ácido (9Z)-hexadecenoico
- ácido (9Z)-octadecenoico
- ácido (9Z)-octadecenóico
- ácido (9Z)-tetradecenoico
- aïnou (Japon)
- (all-cis)-eicosapentaeenzuur
- (all-cis)-Octadeca-9,12,15-triensäure
- Aluminium(III)-oxid
- aluminium(III) oxide
- aluminium(II) oxide
- Aluminium(I)-oxid
- aluminium(I) oxide
- (+)-amphétamine
- (−)-amphétamine
- Antimon(III)-sulfid
- antimony(III) sulfide
- ardennite-(As)
- ardennite-(As)s
- asam (4Z,7Z,10Z,13Z,16Z,19Z)-dokosahéksaénoat
- awa (môn-khmer)
- azido (9Z)-oktadezenoiko
- B(a)P
- bassa (Cameroun)
- bété (Côte d’Ivoire)
- biélorusse (tarashkevitsa)
- Bis(2-aminoethyl)amin
- Bis(2-aminoethyl)amine
- bis(2-amino-ethyl)amine
- Bis(2-aminoethyl)aminen
- Bis(2-aminoethyl)amins
- Capt(N)
- Château-Chinon (Ville)
- (cis,cis)-Octadeca-9,12-diensäure
- Cocos (Keeling) Islands
- coréen (hanja)
- digallane(6)
- digallano(6)
- djuga(l)-
- djuka(r)-
- Essigsäure-(2-methylpropyl)ester
- henge (å)
- hexadécahydrocyclopenta(a)phénanthrène
- hidroksi(okso)metana
- hidrudo de plomo(IV)
- hydroxy(oxo)methane
- Îles Cocos (Keeling)
- îles Cocos (Keeling)
- indium(III) hydride
- isopropyl-N (3 chlorophényl) carbamate
- Kókusz (Keeling)-szigetek
- kwas (13Z)–dokozenowy
- kwas (15Z)-tetrakozenowy
- kwas (5Z,8Z,11Z,14Z)-ejkozatetraenowy
- kwas (6Z,9Z,12Z)-oktadekatrienowy
- kwas (9Z,12Z,15Z)-oktadekatrienowy
- kwas (9Z,12Z)-oktadekadienowy
- kwas (9Z)-heksadekenowy
- kwas (9Z)-oktadekenowy
- kwas (all-Z)-4,7,10,13,16,19-dokozaheksaenowy
- kwas (all-Z)-5,8,11,14-ejkozatetraenowy
- kwas (Z,Z,Z)-6,9,12-oktadekatrienowy
- kyselina (13Z)-dokosenová
- kyselina (9Z,11E,13E)-oktadekatrienová
- kyselina (cis,cis)-oktadeka-9,12-dienová
- lead(IV) hydride
- luo (Cameroun)
- luo (Kenya, Tanzanie)
- maria (Inde)
- mende (Papouasie-Nouvelle-Guinée)
- mono (République démocratique du Congo)
- N-(2-aminoetyyli)etaani-1,2-diamiini
- N-(4-hidroxifenil)etanamida
- N-(4-hydroxyphényl)éthanamide
- N-(4-idrossifenil)acetammide
- norvégien (bokmål)
- norvégien (nynorsk)
- oxyde d'aluminium(I)
- oxyde d’aluminium(I)
- oxyde d'aluminium(II)
- oxyde d’aluminium(II)
- oxyde d'aluminium(III)
- oxyde d’aluminium(III)
- plutonium(2+) hydride
- plutonium(II) hydride
- poly(chlorure de vinyle)
- poly(téréphtalate de butylène)
- poly(téréphtalate d’éthylène)
- (R)-acétate de sec-butyle
- (R)-amphetamine
- (R)-amphétamine
- (R)-sec-butyl acetate
- sabueso español (typo grande)
- (S)-acétate de sec-butyle
- (S)-amphétamine
- (S)-sec-butyl acetate
- un(e)
- uroporphyrine III-Cu(II)
- waray (Philippines)
- Ynysow Cocos (Keeling)
- (Z8/E8)-12 Ac
- (Z)-tetrakoz-15-enoinska kiselina
- (Z,Z)-9,12-octadecadiëenzuur
- λοπαδοτεμαχοσελαχογαλεο(...)πτερυγών
- τη(ν)
- түймедейді түйедей ету (қылу)
- 科科斯(基林)群岛
|
Traductions avec des parenthèses (autres que relativement à la chimie)
Nombre de résultats = Nombre d'entrées en français
Total = 45
grep "\[\[[a-z][a-z]*s]]s " *.xml
2024-03-16 ; 1 correction
2021-10-20 ; erreurs corrigées 4/4
# [[adverbes]]s
# [[français]]s
# [[locutions]]s
# [[moyens]]s
grep -o "\[\[[a-z][a-z]*s]]s[a-z]*" *.xml | sort | uniq -c | sort -nr
2023-11-14 ; 0 résultat
2022-11-01
446 [[gras]]se
100 [[bas]]se
82 [[épais]]se
63 [[gros]]se
48 [[gros]]ses
20 [[épais]]ses
18 [[bas]]ses
8 [[gras]]ses
1 [[multimédias]]s = corrigé
1 [[métis]]ses
1 [[métis]]se
1 [[gros]]sière
1 [[bros]]ser -> Wiktionnaire:Questions_sur_les_mots ; exclure ces sections prochain dump
1 [[adjectifs]]s = déjà corrigé
grep -io "[0-9]* janvier [0-9]*" *.xml | sed 's/^ //g' | sort | uniq -c | sort -nr
20221101 ; 1 erreur corrigée
Erreurs corrigées après vérification de la source (anciens dumps) :
# janvier 19912
# 252 janvier 2017
# 4 avril 202
# 10 avril 20120
# 10 mai 20035
# 7 juin 20212
* (plusieurs dates restent à revoir)
Corrections :
duffixe = suffixe
Mots en français absents du Wiktionnaire ; à ajouter peut-être[modifier le wikicode]
- acanthoptère
- anti-braconnage
- antibraconnage
- apraclonidine
- bouteillée
- bronchopneumopathie chronique obstructive
- clonidine ; clonidine sur l’encyclopédie Wikipédia
- costiforme
- dicophile
- diosmétine ; diosmétine sur l’encyclopédie Wikipédia
- diplobacille
- embarroqué
- énergiculture
- galette pacaude
- inaniméité
- magnétoception
- mycobionte
- naphtolate
- pailletage
- pansémite
- radioélectronique
insource:/’’’/ [1]
2021-10-30 ; 5 erreurs corrigées
bbb
insource:/bbb/ [2]
2022-11-04 ; 14 résultats (tous faux positifs)
2021-11-01 ; 11 résultats (tous faux positifs)
ccc
insource:/ccc/ -insource:/cccccc/ -insource:/\|ccc/ [3]
2021-11-01 ; 26 résultats (dont plusieurs faux positifs)
* Corrigées :
# acccessibilitat (catalan)
# Acccusatif (x 4)
# Bocccace
# Éd. de Bocccard
# racccordement
# tocccata
ddd
insource:/ddd/ -insource:/\|ddd/ -insource:/www.dddllf.com/ -insource:/\/ddd\// [4]
2022-11-04 ; 14 résultats (0 erreur)
2021-11-01 ; 22 résultats (dont plusieurs faux positifs)
* Corrigées :
# middden (néerlandais)
ggg
insource:/ggg/ [5]
2022-11-04 ; 6 résultats (0 erreur)
2021-11-01 ; 7 résultats (1 erreur)
jjj
insource:/jjj/ [6]
2022-11-04 ; 2 résultats (0 erreur)
2021-11-01 ; 3 résultats (1 erreur)
* Corrigées :
# hjjj (vandalisme)
kkk
insource:/kkk/ -insource:/\|kkk/ [7]
2021-11-01 ; 7 résultats (à revoir - contient quelques erreurs)
nnn
insource:/nnn/ [8]
2022-11-04 ; 77 résultats (5 corrections) (à revoir - contient quelques erreurs)
2021-11-01 ; 113 résultats
paage
insource:/paage/ -insource:/paage\#fro/ -insource:/paage]]/ - insource:/ne paage/
2024-03-16 ; 0
édtion
insource:/édtion/
2024-03-16 ; 0 résultat
2021-11-01 ; 41 résultats
mnt
insource:/mnt/ -insource:/\|umnt/ [9]
2022-11-04 ; 34 résultats (à revoir - contient quelques erreurs)
2021-11-01
* Résultats : 37
* Corrections : 2
# maquerellemnt
# Probableemnt
un personne
insource:/un personne/ -insource:/un personnel/ [10]
2022-11-04 ; 14 résultats (12 corrections, 1 à faire, 1 faux positif)
une homme
insource:/ une homme/ [11]
2021-11-01
* Résultats : 2
* Corrections : 1
- encombrant ; Avoir une homme dans les pieds (citation à vérifier)
Rechercher d'abord dans un dump puis avec insource://
Exemples d'erreurs trouvées :
1 résultat ; 1 correction
insource:/ les câblage /
insource:/ les combinaison /
insource:/ les construction /
insource:/ les croyance /
insource:/ les dictionnaire /
insource:/ les distance /
insource:/ les district /
insource:/ les établissement /
insource:/ les zone /
Plus d'une correction :
insource:/ les main / ; (2)
insource:/ les service / ; (2)
Rechercher d'abord dans un dump puis avec insource://
Exemples d'erreurs trouvées :
1 résultat ; 1 correction
insource:/ des adjectif /
insource:/ des approvisionnement /
insource:/ des armature /
insource:/ des bosse /
insource:/ des chariot /
insource:/ des charrue /
insource:/ des chorégraphie /
insource:/ des mur /
Plus d'une correction :
insource:/ des membre / ; (2)
Corrections :
n'etait
insource:/latin \{\{étyl\|la/
du latin latin
Du bas latin latin
bas-latin latin
2023-11-14 ; 1 résultat ; 1 correction
2022-11-04 ; 2 résultats ; 2 corrections
2021-11-02 ; 6 résultats ; 6 corrections
insource:/français \{\{étyl\|fr/
français français
Résumé de modification : {{S|étymologie}} ; correction orthographique ; français français > français
2022-11-04 ; 2 résultats (1 correction, 1 à corriger)
2021-11-03 ; 3 résultats ; 3 corrections
insource:/anglais \{\{étyl\|en/
anglais anglais
Résumé de modification : {{S|étymologie}} ; correction orthographique ; anglais anglais > anglais
2021-11-03 ; 2 résultats ; 2 corrections
insource:/de l'\{\{étyl\|ang\|/
Résumé de modification : de l'vieil anglais > du vieil anglais
2022-11-04 ; 0 résultat
insource:/l'\{\{étyl\|enm\|/
Résumé de modification : de l'moyen anglais > du moyen anglais
2022-11-04 ; 0 résultat
* À faire : autres langues
Apostrophe typo vers apostrophe droite ]]’' --> ]]''[modifier le wikicode]
insource:/]]’'/ -intitle:tester
Résumé de modification : Apostrophe typo vers apostrophe droite ]]’' --> ]]
2024-03-16 ; 4 corrections
2022-11-04 * Résultats : 5, 4 corrigés, 1 faux positif
2022-07-21 * Résultats : 5, 4 corrigés, 1 faux positif
2021-11-04 * Résultats : 10
Titre de niveau 2 vers Titre de niveau 3[modifier le wikicode]
anagrammes
insource:/== \{\{S\|anagrammes}} ==/ -insource:/=== \{\{S\|anagrammes}} ===/
Résumé de modification : == {{S|anagrammes}} == -> === {{S|anagrammes}} ===
2022-11-04 ; 1 résultat (1 corrigé) Note : Erreur = trop long
2021-11-06 ; 2 résultats (2 corrections)
insource:/==== ====/
Résumé de modification : ==== (x 2) en fin de ligne
2023-11-14 ; 0 résultat
2021-11-06 ; 2 résultats (2 corrections)
insource:/=== ===/
2023-11-14 ; 0 résultat
2022-07-21 ; 1 résultat (1 correction)
Erreur modèle exemple |source| plutôt que |source=[modifier le wikicode]
-intitle:source insource:/\|source\|/ -insource:/\{\{lien\|source\|/ -insource/{{composé de\|source\|/
2023-11-14 ; 21 corrections
insource:/]]]/ -insource:/]]]]/
2024-03-16 ; 1 correction
2023-11-14 ; 28 corrections
insource:/\[\[\[/ -insource:/\[\[\[\[/
2023-11-14 ; 9 corrections
Fréquence des caractères dans les entrées en italien[modifier le wikicode]
italien.txt
Catégorie : italien sur petscan.
126 389 entrées (2023-05-11) petscan
126 048 entrées (2023-04-20) https://fr.wiktionary.org/wiki/Wiktionnaire:Statistiques
-- List of characters to keep unchanged, empty for Italian
keep = {},
-- Table of character transformations, meant for characters without diacritics (ligatures, etc.)
mappings = {
["ʿ"] = "",
["ª"] = "a",
["α"] = "a", -- Alpha grec
["æ"] = "ae",
["β"] = "b", -- Bêta grec
["ə"] = "e", -- schwa, e culbuté
["ɜ"] = "e",
["γ"] = "g", -- Gamma grec
["ħ"] = "h", -- Lettre minuscule latine h barré horizontalement.
["º"] = "o",
["ø"] = "o",
["œ"] = "oe",
Avec notes (à conserver sur la page utilisateur)
["ʿ"] = "", (7 entrées) aš-Šammāʿiyah, al-ʿAyūn Sidi Mallūk...
["ª"] = "a", (2 entrées) 1ª, 2ª
["α"] = "a", -- Alpha grec (10 entrées) acido α-linolenico, raggio α
["æ"] = "ae", (4 entrées) Fær Øer, Ægir...
["β"] = "b", -- Bêta grec (10 entrées) decadimenti β, radiazioni β...
["ə"] = "e", -- e culbuté (10 entrées) ləi, benvenutə...
["ɜ"] = "e", (2 entrées) benvenutɜ, -ɜ...
["γ"] = "g", -- Gamma grec (13 entrées) particella γ, fotone γ...
["ħ"] = "h", -- h barré (2 entrées) għana, fil-Għoli (Catégorie:ħ_en_italien)
["º"] = "o", (10 entrées) 1º, 9º
["ø"] = "o" (3 entrées) Isole Fær Øer, Fær Øer
["œ"] = "oe", (1 entrée) trompe-l’œil
Caractères non convertis par le module en français : ª, ð, ħ, ə, ɜ, α
Cas à revoir :
["ð"] (Lettre minuscule latine ed) ; 1 entrée Angrboða
grep -o . italien.txt | sort | uniq -c | sort -nr
160630 a
157566 i
132171 e
125680 o
106705 t
93895 r
88306 n
70203 s
65884 c
58578 l
42489 m
32889 p
31981 d
29571 g
28086 u
23848 b
22125 z
20484
17583 f
16622 v
8512 h
2024 à
1871 q
1809 S
1575 C
1339 A
1310 -
1203 M
1110 B
1082 k
984 P
877 ò
796 L
785 T
778 ’
681 y
674 G
627 R
613 V
466 F
418 E
402 O
376 x
372 D
364 I
359 N
346 w
292 j
242 é
183 Z
166 è
159 K
150 H
116 U
107 J
87 ì
75 Q
73 ù
50 Y
47 ī
47 ,
44 ā
43 W
43 1
25 ū
23 2
22 ï
19 š
18 É
18 â
18 0
15 Ò
14 4
13 γ
13 9
12 6
11 3
10 β
10 α
10 ö
10 º
10 č
10 5
9 ç
9 &
8 ü
8 á
7 ʿ
7 X
7 í
7 8
7 7
7 ̨
6 ë
6 ä
6 )
6 (
5 û
5 ş
5 ô
5 ê
4 ţ
4 Š
4 ó
4 î
3 ú
3 ṣ
3 Ş
3 Ø
3 ñ
3 È
3 æ
3 /
3 .
2 ž
2 ṭ
2 Î
2 ẖ
2 ħ
2 ġ
2 ɜ
2 ə
2 ã
2 Â
2 ª
2 !
1 ż
1 Ţ
1 ř
1 œ
1 ō
1 ḥ
1 Ḥ
1 ḩ
1 ð
1 Č
1 ć
1 Æ
1 Ā
1 Á
1 ̱
1 »
1 «
1 *
1 '
Sans A-Z a-z et 0-9 ; (incomplet - brouillon)[modifier le wikicode]
grep -o . italien | tr A-Z a-z | sed -e 's/[a-z0-9]//g' | sort | uniq -c | sort -nr
1336701 Lettres et chiffres
20484 Espaces
1310 -
778 ’
47 ,
18 É
15 Ò
13 γ
10 β
10 α
9 &
7 ʿ
7 ̨
6 )
6 (
4 Š
3 Ş
3 Ø
3 È
3 /
3 .
2 ž
2 Î
2 Â
2 !
1 ż
1 Ţ
1 Ḥ
1 Č
1 Æ
1 Ā
1 Á
1 ̱
1 »
1 «
1 *
1 '