Utilisateur:Lyokoï/Projet étymologie

Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.

Première réflexion[modifier le wikicode]

Je dégage plusieurs notions. D'abord, il doit être enraciné. On peut en effet remonter jusqu'à un étymon ultime. C'est quasiment tout le temps un mot d'une langue reconstruite. C'est juste le nombre d'intermédiaire qui va changer. Il a un sens qui est le temps. Mais ce temps n'est pas absolument sur toute la longueur de l'arbre.

En effet, si l'on peut dater l'apparition écrite des mots lorsqu'on a des langues écrite, dès qu'on sort de ces domaines, c'est mort. Il ne reste plus que des datations relatives. Pire !! La datation peut fluctuer entre une datation absolue (par date d'attestation écrite) puis être relative pour une reconstruction, qui, elle-même, vient d'un étymon écrit attesté, donc daté absolument, qui, lui, vient d'un étymon reconstruit plus ancien encore.

C'est le problème de la datation des intermédiaires reconstruits… Je pense au latin vulgaire et au gallo-roman notamment, mais je suis limité par mon approche des langue d'oïl, j'imagine que c'est le bordel partout… XD

Je pense que je vais me contenter d'une datation relative avec une pondération de la longueur des branches issues de la même racine en fonction de la date d'attestation lorsqu'elles existent. C'est la solution la plus simple qui me vient à l'esprit.

Passons maintenant aux problèmes plus chiants : Un mot peut avoir plusieurs racines… Oui, oui… TT_TT Prenons un mot scientifique banal : baromètre. Deux racines identifiée : baro- et -mètre. On s'en fout de leur nature (radical, affixes, déclinaisons, etc…) chaque constituant du mot a droit à son explication, puisque c'est la somme qui expliquera l'HISTOIRE du mot. Donc, il me faut absolument un moyen de décrire des arbres pluriracinaires à potentiellement N-racine. Même si dans les faits on doit en avoir pas plus de 3-4 en moyenne avec un maximum à genre 15-20 pour les trucs ultra-longs que nos esprits malades sont capables de produire.

Bon les racines, c'est gentil en fait… Parce qu'en ce qui concerne la dérivation, c'est-à-dire le nombre de mots qui sont issus d'un étymon, on peut atteindre fastoche une centaine à N+1 pour des trucs productifs en français… Même si j'estime au doigt mouillé la moyenne à 10-20. On est dans des arbres qui foisonnent rapidement. Et si on vise des niveaux à N+2 ou N+3, on peut foisonner vraiment rapidement ! Ça va être pas mal chaud pour représenter ça…

Et attention ! Je vise l'exhaustivité ! On a donc un nombre de dérivations très variable pour chaque étymon. Avec des branches très productives et d'autres figées… On peut presque comparer ça à des arbres phylogénétiques. Mais tout ça, c'était facile. Si on veut être propre, il faut prendre en compte les procédés de dérivation. En gros, qu'est-ce qui fait qu'on passe d'un mot à un autre… Et les procédés sont nombreux et parfois combinés, genre suffixation+phonétique… On pourrait traduire ça avec des couleurs sur les branches. L'avantage c'est qu'on peut les hachurer pour mettre plusieurs couleurs sur une branche.

Nouveaux problèmes : Les hypothèses, les influences, les fusions… Et oui, pas mal de données étymologiques ne sont que des hypothèses. Et il n'est pas rare qu'un mot ait plusieurs explications possibles. On complique hein ! :D Pour les influences c'est plus facile, un étymon peut être influencé par un autre pour changer d'affixe, de prononciation, de forme… C'est totalement le bazar de qui a influencé qui… Et la représentation s'en fera sentir… Pour le mot enfant d'une influence, la représentation est simple : Il suffit de mettre le mot influenceur sur la branche avec une indication sur la nature de l'influence, genre lié à mi-longueur. Je pense que c'est faisable sans trop de soucis. Mais pour un mot influenceur ??? Est-ce qu'un mot influencé est un dérivé ? Il est important de le lister pour montrer la portée d'action du mot influenceur sur les autres mots du (ou des) système(s) linguistique(s) concerné(s).

Donc on a un nouveau type de lien. On pourrait le représenter sur une nouvelle dimension, mais il n'y en a pas tant que ça d'après mon expérience. Ce serait compliquer la représentation, déjà bien chargée, pour rien… Je pense que je vais partir sur des liens en pointillés… XD

Et la fusion… Alors là… Je pense que le plus clair serait de faire des liens en Y. Cela permettrait de différencier le procéder d'avec des liens sur plusieurs étymons qui prendront touts racines directement dans le mot concerné. La crise de nerfs arrive quand il faut prendre en compte tout ça par groupe d'hypothèse. Bah oui, imaginez :

  • groupe 1 : Il vient d'un radical+suffixe.
  • Groupe 2 : dérivation phonétique
  • Groupe 3 : Dérivation morpho + influence

Ouiiiiii, ça va prendre de la place ! #bordel

Et pour chaque nœud (=mot) de ces immenses arbres, il faut donner la langue et la nature grammatical... Sachant qu'un emprunt d'une langue à une autre crée un nouveau nœud. Il faut pouvoir expliquer en plus le contexte à chaque fois que c'est nécessaire (ça l'est souvent). Cela permet de justifier la nature d'un lien. Ce contexte peut être une explication historique ou un lien vers une annexe dédiée... Et puis y'a les "structures étymologiques"…

Une "structure étymologique", c'est un ensemble de mot associé à des règles contextuelles qui permettent d'expliquer l'existence d'autres mots. C'est LA méthode scientifique en étymologie. Ce sont des trucs de fou, mais mettre ça dans un arbre… XD Le plus simple serait d'encadrer le ou liens concernés dans une boite qui portera le titre de la structure étymologique.

Bon, c'est pas tout ça. Mais la génération doit être automatique à partir du @Wiktionnaire. Ouaip ! Et c'est là que ça va être coton… Où je trouve toutes ces informations ? Comment faire pour qu'elles soient lisible par un générateur automatique ET par le lecteur.rice… Idéalement, il faudrait créer un modèle {{étymon}} qui ne prend que l'information reliant le mot en N-1. Puis le générateur descendrait l'arbre article par article jusqu'aux racines finales.

MAIS ! Il doit pouvoir le faire aussi pour les dérivés où la démarche est différente. Puisqu'il ne devra pas que partir de la potentielle liste de dérivés présente dans l'article, mais aussi de la liste des pages liées, et vérifier chacune de leur section étymologie. Tout cela afin de récupérer un maximum d'information pour caractériser tous ces liens.

Tellement de trucs à faire... Mais tellement de découvertes possibles ! :D

Réflexion issue de twitter