Aller au contenu

Discussion utilisateur:Thorgal/Catégories

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Ajouter un sujet
Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.

Bon, j'inaugure donc cette page de discussion, je suis trop wikipédiholiste (ou plutôt wiktionairholiste ?). Je trouve que la classification que tu présente est très bien, elle n'est pas plus compliqué pour le contributeur que je suis. Cependant il faudra faire une bonne page d'explication pour les débutants peu motivés, en effet, les modèles ne sont pas utilisés facilement par tout le monde.

J'ai cependant une critique. Je trouve dommage de couper le nom de certaine catégorie. Pourquoi {{C|xx|info}} et non {{C|xx|informatique}} ? Cela risque d'obliger à remodifier une page parce que l'on n'aura mis le mot entier alors qu'il n'en fallait que la moitié, ou l'inverse. A part ça, très bon travail ! Eölen (discuter) 1 aout 2006 à 22:20 (UTC)

Gilles MAIRET (1)[modifier le wikicode]

(Petite remarque au sujet du titre de section qui peut sembler un rien nombriliste : j'aurai certainement plusieurs courriers à faire au fil de mes réflexiosn. Autant donc leur attribuer un auteur et un numéro d'ordre).
Tout d'abord : bravo pour ton travail, en tous points remarquable. Il fallait que quelqu'un se prenne par la main. Tu l'as fait : merci.
Sur l'idée de la structure d'ensemble, rien à dire : elle recoupe tout à fait mes idées à ce sujet. Je voudrais seulement lister ci-après quelques arguments qui soutiennent l'idée de cette structure (et permettent de mieux en comprendre l'intérêt et la souplesse).
  • Structuration par langues au premier niveau (catégorie-1) : il est manifeste qu'une des catégories les plus importantes est celle de "grammaire" et que les grammaires sont subordonnées aux langues. Ceci qui n'est pas neutre vis-àvis de la théorie du langage. Si nous supposions que les catégories grammaticales précédaient les langues, nous supposerions qu'il existe une "langue humaine naturelle primordiale", avec sa grammaire, dont les diverses langues ne seraient qu'une manifestation contingente. Pour être plus terre à terre, remarquons qu'un libellé tel que : "adjectifs en no (japonais)" appelle un libellé tel que "adjectifs en no (français)" ou "adjectifs en no (moldo-valaque)". Ceci est un problème de structure logique. Les catégories appellent les sous-catégories et non l'inverse. "Adjectifs en no" est une sous-catégorie grammaticale du japonais qui doit donc être sélectionné en tête.
    Pour répondre à ce point, les "adjectifs en no" seront dans mon système référencés [[Catégorie:japonais/Grammaire/Adjectifs/Adjectifs en no]].
  • Dans chaque langue, les catégories-2 ne sont pas limitées : elles précisent la nature des divers classements que nous pouvons effectuer sur les mots d'une langue. L'idée, c'est donc que nous listons les diverses propriétés des mots d'une langue - exclusives les unes des autres - et que nous effectuons une classification sur une propriété particulière. La structuration en catégorie-2 doit donc partir d'une réflexion sur les propriétés des mots. Exemple : la catégorie grammaticale en est évidemment une - facile. La catégorie sémantique en est une autre, mais plus délicate à définir (j'aurais l'occasion de revenir là-dessus ultérieurement). On peut en imaginer d'autres : la forme du graphème (abréviation, sigle, locution...) en est une autre, importante, qu'il faudrait mieux maîtriser. On peut en imaginer d'autres, par exemple "Rime". [Clairement, la notion de rime dépend de la langue - des règles de poétique de la langue - et constitue un propriété des mots qui ne recoupe ni la grammaire, ni la sémantique, ni la forme du graphème.]. On pourrait donc avoir, dans la stricte logique de structuration des catégories : "Catégorie:français/Rimes/rimes en é" par exemple.
    Actuellement, les rimes sont en annexes, celles-ci ayant été faites par un robot. Je pense que Dakdada a eu entièrement raison de faire faire ça par un robot plutôt que de demander aux contributeurs de s’en occuper. Maintenant, tu abordes un point particulier qui n’est pas en rapport direct avec les catégories mais qui est en rapport avec la possibilité de retrouver un mot ou une liste à partir de différentes propriétés du mot : grammaire, sémantique, analogie, synonyme, hyponyme, rime, graphème, prononciation... Il est vrai que ce qui existe actuellement est très pauvre en la matière. Cela demandera effectivement une concertation sur la recherche. C’est un domaine plutôt complexe qu’on n’arrivera pas à traiter seulement à l’aide de catégories, à moins de les multiplier d’une manière assez excessive. Pour répondre à ce problème, j’ai déjà réfléchi à quelques systèmes, mais je ne pense pas que ce soit l’endroit pour en parler, ni le moment.
  • Points de détail : les catégories "convention internationales" et "caractère" sont vraisemblablement "hors langues" et nécessite une catégorie-1 particulière "supra" au qqchose comme ça (comme les codes-barre des livres comportent en tête le code 978 : "bookland").
    Ces catégories sont effectivement hors langue et seront classifiées uniquement [[Catégorie:Conventions internationales]] et [[Catégorie:Caractères]]. Par ailleurs, tu remarqueras que je n’ai pas mis "Symboles" qui, pour moi, sont inclus dans les conventions internationales.
  • Au-delà de la théorie, il ne faut pas négliger les aspects pratiques. Il est absurde de construire des catégories qui retournent 3 items ; mais il est tout aussi absurde qu'une catégorie en retoune 5000 (l'état restitué est inexploitable). Je me pose donc des questions sur des catégories telles que "français / Adjectifs indéfinis" qui sont satisfaisantes pour l'esprit mais n'ont aucun intérêt pratique. Peut-on approfondir à ce sujet ?
    Il est vrai que certaines catégories grammaticales vont se retrouver avec 4 mots (articles définis), voire 3 (articles indéfinis) ou 2 (articles partitifs), alors que d’autres en auront 12.000 (verbes en français), voire 50.000 (noms communs). On passe vraiment d’une extrême à l’autre, et dans les deux cas, on a quelque chose qui a peu de sens. Personnellement, je n’ai jamais compris à quoi pouvaient servir des lexiques grammaticaux. Jusqu’à présent, je ne les ai utilisés que parce que j’avais créé un nouveau modèle ne s’appliquant qu’à une classe grammaticale et ils m’ont permis de retrouver les mots plus vite. Maintenant, j’ignore totalement comment des lecteurs pourraient les utiliser, à l’inverse de lexiques sémantiques qui, eux, ont toute leur utilité. Pour l’instant, j’ai plus l’impression que ces listes satisfont à un besoin de catégoriser qu’à un besoin réel. Par contre, des listes comme celles de verbes du troisième groupe (en français) ou de verbes irréguliers (en allemand) me semblent plus utiles.
  • Concernant la structuration de la catégorie-2 "Grammaire" : la structuration que tu propose à la section "Grammaire" de ton papier est - je suppose - celle du français (adaptable sans trop de pb aux autres langues indo-européenne), mais il ne faut pas oublier que la structuration de la grammaire est contingente à la langue. C'est-à--dire que les listes de catégorie de niveau "Langue / Grammaire / catégorie-3" dépendent totalement de la langue et devront donc être établies, compilées et publiées par langue.
    Les modèles ont été créés d’abord pour le français. Lorsque les langues se sont rajoutées, il est apparu que ces modèles ne collaient pas toujours, parce qu’effectivement, la grammaire est intrinsèquement dépendante de la langue. J’ai pu rajouter quelques modèles en fonction des langues que je connais (russe, allemand) ou que j’arrive à aborder relativement facilement, comme la plupart des langues européennes ou slaves, mais mes connaissances sont beaucoup trop limitées pour pouvoir prendre en compte toutes les langues. Il faudra évidemment par la suite rajouter des modèles. Maintenant, quant à faire des compilations par langue, ce n’est pas le but de ce travail. Là encore, il s’agit d’un point qui sort du cadre des catégories elles-mêmes, et qui correspond à l’aide qui peut être apportée en fonction de chaque langue. C’est évident, y'a du boulot !!! Mais, bon, chaque chose en son temps.
  • Thésaurus. Un thésaurus est une structuration en champs sémantiques "pratique" qui répond à trois objectifs : tout le champ sémantique est couvert ; chaque catégorie sémantique du thésaurus comporte (à peu près) un nombre équivalent d'entrées ; le nombre de champs sémantiques est "raisonnable" (de l'ordre du millier) ; le nombre de termes dans chaque champ sémantique est "raisonnale" (de l'ordre de quelques centaines).
Suite à diverses discussions, il est apparu que l'objectif de construire un thésaurus pouvait s'appuyer sur le système des catégories. Noter que l'élaboration d'une structuration du corpus du Wiktionnaire en Thésaurus sur la base des catégories ne pose aucun problème de principe. Un "Thésaurus" n'est qu'une nature de segmentation supplémentaire - au niveau catégorie-2. Il suffit donc d'une catégorie-2 supplémentaire "Catégorie:français/Thésaurus" pouvue elle-même de ses sous-catégories.
L'observation précédent a pour objet de montrer que la structuration hiérarchique est très souple et permet de créer toutes les structurations que l'on désire.
  • Réponse concernant les étymologies : bien entendu, l'étymologie dépend de la langue cible. "Week-end" a une explication en anglais, mais pas à proprement parler d'étymologie ; en revanche, ce mot a une étymologie en français. Pour le mot chimie, les catégories "étymologie française du grec", "étymologie française de l'arabe" et ""étymologie française du latin" sont toutes trois vraies et doivent donc être toutes trois indiquées.
  • Les sigles, abréviations, locutions..." distinguent les entrées du dictionnaire par leur forme, qui constitue un classification à part entière (dont l'item le plus répandu est "mot simple" - mais il y a aussi "mot composé"...)
  • Sur ce que tu appelles les "catégories para-grammaticales" : c'est un fourre-tout qui mérite d'être analysé et éclairci. Par exemple la "néologisme" fait partie des propriétés d'usage d'un mot (comme "vieux", "désuet", mais aussi dans un autre registre, "argot", "familier", "soutenu" et aussi "par extension", "par métononymie"...) Ces diverses propriétés doivent être classifiées, hiérarchisées, catégoriées sans compliquer outre mesure le système. En revanche, je ne suis pas certain qu'il ne faille pas classer "Français du Camada" comme une langue en tant que telle, variante du Français (à voir). Sinon, c'est une propriété de plus, à intégrer dans la classification par propriétés.
  • Pour éviter de changer trop de choses, tu as réattribué des modèles actuels aux nouvelles catégories. Toutefois, je me demande si, à rapidement, l'hétérogénéité des dénominations (par exemple {{-nom-|fr}} pour "Catégorie:français/Grammaire/Noms communs" et {{C|fr|sigle}} pour "Catégorie:français/Autres/Sigles") ne sera pas un inconvénient bien plus lourd que de devoir changer les habitudes des quelques contributeurs actuels (qui ne sont guère plus d'une vingtaine...)
    Excuse-moi, mais je n’ai pas compris ce paragraphe. Tu veux dire quoi ?
  • Pour ce qui est des thématiques : c'est un gros travail de les établir. Toutefois, il faut vérifier que ce cadre de classification donne les résultats attendus : (tous les champs sémantiques sont couverts ; pas de catégories trop petites, pas de catégories trop grandes). L'examen de la liste que tu propose me suggère quelques remarques :
  • ta classification concerne les noms communs ; ni les verbes ni les adjectifs ni les adverbes ;
    Ce n’est pas vrai. Les verbes, adjectifs ou adverbes y trouvent aussi leur place (par exemple "diagnostiquer" en médecine, "primaire" en peinture, "inconsciemment" en psychologie...)
  • je serais bien en peine de classer l'adjectif "petit" dans cette thématique ;
    C’est la question que je pose au dépoart : est-on obligé de mettre TOUS les mots dans des catégories ? Le mot "petit" rentre dans un vocabulaire analogique, il peut aussi rentrer dans ce qu’on pourrait appeler les "mots de base", mais est-ce bien de l’ordre des catégories ?
  • ta classification est hétérogène : elle mêle des propriétés d'usage (argot, néologisme) avec des champs sémantiques (famille).
    C’est exact. Mais ce travail n’est qu’une ébauche. La discussion est ouverte maintenant.
Il existe une base de travail incontournable en ce domaine, c'est la liste des 873 catégories sémantiques du "Thésaurus Larousse", elle même reproduite des premiers thésaurus publiés en Angleterre à la fin du XIXe siècle. Pour information, je te donne la liste des douze premières catégories thématiques de ce thésaurus :
1 - Existence
2 - Inexistence
3 - Matérialité
4 - Immatérialité
5 - Substance
6 - Accident
7 - État
8 - Circonstance
9 - Présence
10 - Absence
11 - Apparition
12 - Disparition
Par exemple, pour la catégorie 7 - État, on trouve :
7-1 - État, modalité, mode. Forme, genre, situation. Attitude.
7-2 - État de choses, état de fait, conjoncture, situation. Cours des choses, degré, étape, point, stade...
7-3 - Fonction, métier, profession, travail.
7-4 - Condition, situation, place, fortune. Caste, classe, rang ; clergé, noblesse, tiers-état. Mode de vie, condition de vie.
etc...
Bref, je crois que la classification thématique mérite réflexion.
C'est tout pour ce premier jet.

Gilles MAIRET 2 aout 2006 à 03:27 (UTC)

Je vais faire un peu plus court que Gilles. Très bon travail.

  • Pour les catégories grammaticales : il me semble utile et important d'utiliser les modèles. Concernant la mise en catégorie, elle permettent sans doute de comparer les langues entre elles (il faut pour cela avoir accès à la taille des catégories, ce qui ne doit pas être complètement en dehors des capacités de mediawiki).
  • Maintenant, pour les classifications thématiques, cela me semble moins nécessaire d'utiliser des modèles.

Question étymologie[modifier le wikicode]

Je ne pense pas qu'il soit nécessaire de modifier le modèle, ou plutôt, je pense qu'en l'état le débat est un peu prématuré. C'est une bonne idée, mais elle ne peut pas facilement se faire de manière automatique.

Question Catégorie/Article[modifier le wikicode]

Ca va un peu avec les modèles, mais je pense qu'il ne faut pas faire en sorte de créer les catégories qui vont couvrir tous les mots du wiktionnaire.

Catégories administratives[modifier le wikicode]

Pour le moment, on a essayé de faire en sorte que toutes les catégories héritent Catégorie:Principale, cela n'est pas forcément nécessaire, mais ça permet d'avoir un arbre avec une racine... Il serait intéressant que ton ébauche en parle un peu.

Mise en place et travail des robots[modifier le wikicode]

Je pense que si on met en place l'utilisation des modèles qui catégorise tout cela, on peut le faire aussi en utilisant l'idée de Dakdada de modifier les structures. Les modèles ne proposerait plus le niveau hiérarchique, ce qui permettrait aux utilisateurs un peu plus de souplesse. On pourrait imaginer que sur un mot qui serait utilisé dans plusieurs langues, l'étymologie soit commune, et à l'inverse, un même mot pourrait avoir plusieurs étymologies dans une seule langue. Enfin, toujours est il que si on fait un travail sur tous les articles, autant qu'il soit bien coordonnée et qu'on modifie plusieurs choses en même temps...

Sinon, tu dis qu'un robot pourrait se charger de vérifier les nouvelles contributions, je pense qu'il faut privilégier le passage d'un autre contributeur. L'utilisation des modèles ou des catégories n'est pas simple et il est nécessaire d'avoir déjà contribué pour améliorer la qualité des articles...

Ce que ça m'inspire[modifier le wikicode]

  • Il est indispensable pour les contributeurs (et très utile pour les utilisateurs) d'avoir un endroit qui donne la liste de toutes les catégories, bien classées. C'est sans doute parce que ça manquait que les catégories étaient créées n'importe comment. On peut dire exactement la même chose des pages annexes sur un thème donné.
    Je suis totalement d'accord avec toi. JR disc
  • Ce serait utile de le faire pour ce qui existe actuellement, pour qu'on se rende bien compte de l'existant avant de changer
    Il me semble que c'est un peu ce qui est fait au début de la page Utilisateur:Thorgal/Catégories. Ce que je propose par contre c'est de prendre cette page pour modèle pour la nouvelle définition des catégories et de travailler dessus. JR disc
  • Il est à mon avis indispensable de définir des grands principes (pas trop stricts !) qui guident la création des catégories. Cela permettrait à chacun de créer des catégories de façon cohérente, à chaque fois qu'on en ressent le besoin. Il ne faut donc pas à mon avis limiter leur nombre, mais simplement que leur création soit structurée et obéisse à des règles claires.
    Sur ce point là, je ne partage pas complètement ton avis, je ne pense pas qu'il soit nécessaire de laisser au tout venant la liberté de créer ses catégories. S'il s'agit d'une catégorie à laquelle nous n'avions pas pensé, il faudrait qu'elle soit bien située pour être utile et correctement renseignée. Je ne dis pas que nous allons penser à tout et qu'il faut que le système soit figé, mais qu'il est important que l'on ait un système bien stable. Pour cela, la simple élaboration de règle ne suffit pas. Je pense que le wiktionnaire pourrait se doter d'un petit comité des catégories. Comité ouvert à tous bien entendu mais qui s'occuperait de la maintenance des catégories. JR disc
  • Il n'est à mon avis pas pensable d'avoir de tels noms à rallonge : en effet, le rôle de ces noms est d'apparaître en bas de l'affichage des pages, et d'être immédiatement compris par l'utilisateur. Sur certaines pages (avec beaucoup de langues) c'est déjà difficile de s'y retrouver, alors avec des noms comme ça, n'en parlons pas... Il faut donc conserver le style de nom actuel. C'est sûr qu'il est indispensable d'adopter du point de vue logique une structure de ce type, mais elle ne devrait apparaître que sur la page récapitulative des catégories.

Lmaltier 2 aout 2006 à 18:43 (UTC)

  • Tu as entièrement raison, je n’avais pas pensé à ça. Néanmoins, il serait peut-être possible que l’affichage se fasse autrement ? Question à débattre... Merci à toi. Thorgal 2 aout 2006 à 18:55 (UTC)
    L'utilisation des modèles doit permettre cela, on doit pouvoir préciser dans le monobook qu'on n'a pas besoin de l'affichage des catégories, et rajouter une section Catégories.JR disc 3 aout 2006 à 07:39 (UTC)

Stephane8888 (1)[modifier le wikicode]

Beau travail. Merci Thorgal. Je suis d'accord avec ta proposition: ne plus faire de distinction entre « Lexiques » et « Thématiques.

Chaque langue aurait une branche grammaticale, une branche sémantique (thésaurus et/ou thématique), une branche phonétique (rimes). Une branche étymologique est bien sur possible (permettant d'avoir la liste des mots français venant de l'italien, etc). Pour l'aspect Registre de langues et Variantes géographiques rien ne presse.

Au sujet du Thésaurus L'idée d'avoir un arbre (Français/Thésaurus/...) en récupérant la liste des catégories sémantiques d'un bon Thésaurus libre de droits, résout pour moi la "problématique" du Thésaurus. La mise en place, par nous même, de cette liste serait désastreuse (conflit, oubli, redondance, perte de temps, éternel chantier). La question est alors : redondance entre Catégories du Thésaurus et Catégories thématiques ? Probablement… L'avantage de la structure du Thésaurus est d'être exhaustive, et de tenir compte des choses immatérielles. Ainsi l'article petit doit y avoir sa place… Non pas que je veuille que tout article soit catégorisé… mais il doit pouvoir l'être d'un point de vue sémantique. Stephane8888 3 aout 2006 à 09:57 (UTC)

De cette arborescence nécessairement rigide des Thématiques, les portails prennent de l’interêt. Un portail Gastronomie centraliserait l’accés à des Catégories aussi "distantes" que Sciences/Botanique/Légumes et Culture/Cuisine/Aliments. Stephane8888 3 aout 2006 à 11:43 (UTC)