Utilisateur:VIGNERON/Règles

Quelques règles de reconnaissance de la langue d’un à partir des caractères qui le compose.

Reconnaissance du système d’écriture[modifier le wikicode]

Par ordre d’apparition en Unicode :

latin
grec
copte
cyrillique
arménien
hébreu
arabe
syriaque
thâna (abjad du divehi)
n’ko
etc.

Distinction des langues dans un même système[modifier le wikicode]

Le problème se pose principalement pour les langues utilise l’alphabet latin. On peut alors se servir des Catégorie:Curiosités linguistiques par langue. On peut distinguer plusieurs types de caractéristiques : les diacritiques, la fréquence des caractères, la longueur moyenne des mots, etc.

Langue	Spécificité
Anglais	Accent anecdotiquement dans les emprunts (Catégorie:Termes anglais avec des diacritiques), mot assez court.
Breton	Seuls accents courant : ù et ñ (dans les pluriels en ioù ou ioù et ñ pour la nasalisation). Jamais de c tout seul, un c est toujours suivi soit d’un h soit d’une apostrophe.
Français	à, â, ä, c, é, è, ê, ë, ñ, ô, ö, ù, û, ÿ, œ, æ (w:Diacritiques utilisés en français)

Certaines diacritiques sont plus rares que les autres au sein d’un langue, il serait utile de déterminer une fréquence d’apparition.