Aller au contenu

Wiktionnaire:Transferts/Free Vietnamese Dictionary Project

Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.

Discussion préliminaire[modifier le wikicode]

Salut !

Quelqu'un t'avait parlé d'un dictionnaire en espéranto sur le site de l'université de Liepzig, j'y vais depuis un moment pour un autre dictionnaire : celui-ci en vietnamien : [1]. Il est en license libre normalement, et vraiment très bien. Alors si ça te "bot"...

Amitiés,

NicoRay 27 mars 2006 à 09:33 (UTC)[répondre]

Nicolas, ce dictionnaire parait à la fois très riche et complet. J'y vois cependant deux problèmes:
  • Nous n'avons pas résolu la représentation de la prononciation des langages à tons. => le système utilisé aujourd'hui pour le chinois n'est pas transposable.
  • Le dictionnaire ne comprend pas d'information sur les catégories grammaticales auquels sont rattachés les mots.
Il nous faudrait trouver un locuteur natif du vietnamien avant de commencer à envisager un quelconque transfert. De plus, il faudrait aussi vérifier la licence ... LBO disc 27 mars 2006 à 10:28 (UTC)[répondre]
Des locuteurs vietnamiens, je dois pouvoir t'en trouver. Après, je comprends bien que l'intégration peut être compliquée, vu que cela correspond à un certain programme et à une certaine organisation/présentation.
Si tu veux t'y attaquer, fais moi signe. Je pense que je serai un peu plus libre dans trois semaines.
A plus,
NicoRay 27 mars 2006 à 11:41 (UTC)[répondre]
Ca peut être un bon timing. Je suis surtout dispo le week end en ce moment .LBO disc 27 mars 2006 à 11:50 (UTC)[répondre]
Pour la license, j'ai les informations suivantes :
(pour le dictionnaire)

Copyright Copyright © 1997-2004 Ho Ngoc Duc (software) and the Free Vietnamese Dictionary Project (databases). All Rights Reserved. Some dictionary databases have specific licenses, please lookup the entry 00-database-info for details. The dictionary program, its source code and the dictionary databases are distributed under GNU General Public License as published by the Free Software Foundation. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. Permission to use, copy, modify, and redistribute this software and its documentation for personal, non-commercial use is hereby granted provided that this copyright notice and appropriate documentation appears in all copies.

(Pour la base de données)

This is the Vietnamese-French dictionary database of the Free Vietnamese Dictionary Project. It contains more than 39.000 entries with definitions and illustrative examples. This database was compiled by Ho Ngoc Duc and other members of the Free Vietnamese Dictionary Project (http://www.informatik.uni-leipzig.de/~duc/Dict/) Copyright (C) 1997-2003 The Free Vietnamese Dictionary Project This program is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

Licence[modifier le wikicode]

Request for use under GFDL[modifier le wikicode]

Title: Từ điển tiếng Việt in fr.wiktionary.org 13/05/06 17:51 		
from: Laurent Bouvier		
to: Ho Ngoc Duc
spam:0

Hello,

I am one of the contributors of the French version of the Wiktionary, which is the Dictionary and Thesaurus of Wikipedia.

I have been asked to verify the potential integration of the work achieved by your project team into our standards and it is possible!

Now, before to perform any further action I want to ask you the permission to import a part of the work done by your project into ours.

I have noticed that you are currently granting the DB with a GNU GPL license. Our project is running under the GNU Free Documentation license [http://en.wikipedia.org/wiki/GNU_Free_Documentation_License] and your agreement would mean that you agree on the terms of this license.

Let me also plead for my American and German colleague who would certainly be interested by the great achievement of project.

Finally, if you are interested you can check

    *1 the discussion page of [http://fr.wiktionary.org/wiki/Wiktionnaire:Transferts/Free_Vietnamese_Dictionary_Project] (sorry be in French ...)
    *2 the first example pages: [http://fr.wiktionary.org/wiki/Wiktionnaire:Transferts/Free_Vietnamese_Dictionary_Project#Import]
    *3 or the work we are currently doing to have an API representation of Vietnamese: [http://fr.wiktionary.org/wiki/Wiktionnaire:Transferts/Free_Vietnamese_Dictionary_Project/Proposition_de_prononciation]


Your faithfully,

Laurent Bouvier.

Answer[modifier le wikicode]

Title :Transferonary  	19/05/06 14:57 		
from: Ho Ngoc Duc
to: Laurent Bouvier,
spam:-1.665000

Well, I have no objection.

Best regards / Mit freundlichen Grüßen,

Ho Ngoc Duc
http://come.to/duc

J'ai vérifié la faisabilité de l'import. Il s'avère qu'une partie est importable en combinant les informations disponibles dans la version vietnamien->anglais et vietnamien->français.

Voici quelques exemples de fichiers importés:

Il me reste cependant quelques points ouverts:

  • J'aurai besoin de l'aide de deux personnes pour travailler sur la prononciation:
    • Une personne avec une bonne connaissance de l'API et de la représentation SAMPA pour travailler sur la représentation des tons du vietnamien
    • Une personne avec une connaissance du vietnamien pour travailler sur la valeur phonétique des variantes nord et sud.
  • Les catégories gramaticales posent aussi problème. En effet, le même lemme vietnamien peut avoir valeur de nom et de verbe d'une part ou de nom et d'adjectif. Que convient-il de faire ?
    • De nouvelles catégories gramaticales {{-nom-adj-}} ?
    • Dupliquer systématiquement l'information
  • Faut-il supprimer des tons et les accents dans les catégories ?

LBO disc 12 mai 2006 à 09:56 (UTC)[répondre]

  • Pour la license est-ce que le GPL est compatible avec le GFDL? Sinon on peut toujours leur demander de faire une double license GPL/GFDL pour nous.
  • Pour le prononcition API/SAMPA les exemples me semblent correctes, ils correspondent avec les règles de l'API et une translitteration vers X-SAMPA.
  • Pour les lemmes ayant plusieurs catégories grammaticales on peut faire comme pour les adjectifs substantivés en français, tout simplement dupliquer l'info.
  • supprimer des tons et les accents dans les catégories : tu veux dire normalisé au forme non accentué pour l'index des catégories ? ---/moyogo/ ⁽ᵈⁱˢᶜᵘᵗᵉʳ⁾ 12 mai 2006 à 10:09 (UTC)[répondre]
    • C'est cela avec la question de la profondeur de transformation:
      • deux exemples: đai ốc « écrou » possède un accent tonique sur le ô qui lui-même peut être considéré comme un o avec un diacritique. La consonne đ peut aussi être vu comme un d avec une barre. On peut aussi le classer dans les catégories comme đai ốc, đai ôc, đai oc ou enfin dai oc
      • Second exemple: nương nhờ. Cette fois nous avons affaire à des voyelles possédant une corne. Doit-on les classer dans les catégories comme nương nhờ, nương nhơ ou comme nuong nho LBO disc 12 mai 2006 à 10:21 (UTC)[répondre]

Faisabilité[modifier le wikicode]

J'ai vérifié la faisabilité de l'import. Il s'avère qu'une partie est importable en combinant les informations disponibles dans la version vietnamien->anglais et vietnamien->français.

Voici quelques exemples de fichiers importés:

Points ouverts[modifier le wikicode]

Il me reste cependant quelques points ouverts pour lesquels j'aurais besoin de l'aide de deux personnes pour travailler sur la prononciation:

    • Une personne avec une bonne connaissance de l'API et de la représentation SAMPA pour travailler sur la représentation des tons du vietnamien
    • Une personne avec une connaissance du vietnamien pour travailler sur la valeur phonétique des variantes nord et sud. LBO disc 12 mai 2006 à 10:21 (UTC)[répondre]

Vérification de l´API[modifier le wikicode]

Vérification de la prononciation[modifier le wikicode]

  • Les tons sont-ils correctement représentés?
  • Les tons simplifiés du Sud sont-ils corrects?
  • Comment peut-on valider les valeurs phonétiques?
  • Quels phonèmes choisir lorsque les réalisations divergent entre le nord et le sud ? ( par ex. d: /d/ => [j] ou [z] ) LBO disc 12 mai 2006 à 10:21 (UTC)[répondre]

Voici un échantillon de proposition de prononciations à vérifier Proposition de prononciation. LBO disc 13 mai 2006 à 14:06 (UTC)[répondre]

Lemme ayant plusieurs valeurs grammaticales[modifier le wikicode]

  • Les catégories gramaticales posent aussi problème. En effet, le même lemme vietnamien peut avoir valeur de nom et de verbe d'une part ou de nom et d'adjectif. Que convient-il de faire ?
  • Faut-il supprimer des tons et les accents dans les catégories ?

LBO disc 12 mai 2006 à 09:56 (UTC)[répondre]

    • De nouvelles catégories gramaticales {{-nom-adj-}} ?
    • Dupliquer systématiquement l'information

Codification des articles dans les catégorie[modifier le wikicode]

  • supprimer des tons et les accents dans les catégories : tu veux dire normalisé au forme non accentué pour l'index des catégories ? :** C'est cela avec la question de la profondeur de transformation:
      • deux exemples: đai ốc « écrou » possède un accent tonique sur le ô qui lui-même peut être considéré comme un o avec un diacritique. La consonne đ peut aussi être vu comme un d avec une barre. On peut aussi le classer dans les catégories comme đai ốc, đai ôc, đai oc ou enfin dai oc
      • Second exemple: nương nhờ. Cette fois nous avons affaire à des voyelles possédant une corne. Doit-on les classer dans les catégories comme nương nhờ, nương nhơ ou comme nuong nho LBO disc 12 mai 2006 à 10:21 (UTC)[répondre]
Arg, si seulement Mediawiki était malin et comprenait les lettres accentués selon chaque langue. Vu que la pratique actuelle n'est qu'un hack, je pense qu'on l'utilise abusivement de toute façon, donc dai oc suivrait cette pratique. ---/moyogo/ ⁽ᵈⁱˢᶜᵘᵗᵉʳ⁾ 12 mai 2006 à 15:06 (UTC)[répondre]

Remarques diverses[modifier le wikicode]