Utilisateur:VIGNERON/Règles
Quelques règles de reconnaissance de la langue d’un à partir des caractères qui le compose.
Reconnaissance du système d’écriture[modifier le wikicode]
Par ordre d’apparition en Unicode :
Distinction des langues dans un même système[modifier le wikicode]
Le problème se pose principalement pour les langues utilise l’alphabet latin. On peut alors se servir des Catégorie:Curiosités linguistiques par langue. On peut distinguer plusieurs types de caractéristiques : les diacritiques, la fréquence des caractères, la longueur moyenne des mots, etc.
Langue | Spécificité |
---|---|
Anglais | Accent anecdotiquement dans les emprunts (Catégorie:Termes anglais avec des diacritiques), mot assez court. |
Breton | Seuls accents courant : ù et ñ (dans les pluriels en ioù ou ioù et ñ pour la nasalisation). Jamais de c tout seul, un c est toujours suivi soit d’un h soit d’une apostrophe. |
Français | à, â, ä, c, é, è, ê, ë, ñ, ô, ö, ù, û, ÿ, œ, æ (w:Diacritiques utilisés en français) |
Certaines diacritiques sont plus rares que les autres au sein d’un langue, il serait utile de déterminer une fréquence d’apparition.