Projet:Requêter le Wiktionnaire

Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire.
Sauter à la navigation Sauter à la recherche

L’objectif de cette page projet est de voir comment utiliser au mieux les outils existants pour faire des requêtes dans le Wiktionnaire, donner des suggestions d’amélioration ou indiquer les recherches intéressantes que l’on a construit avec ces outils. Cela dans une perspective de contribution et de vérification du contenu du Wiktionnaire d’une part, mais également de sortie de données pour d’autres usages ou de visualisation de données.

Cinq voies sont aujourd’hui ouvertes :

  • Recherche avancée sur les lettres et les prononciations grâce à l’outil Anagrimes.
  • Explorer tout le contenu d’une copie des données à l’aide du logiciel AutoWikiBrowser.
  • Requêtes sur les catégories et les modèles grâce à l’outil extérieur PetScan.
  • Requêtes sur les données et les relations via une conversion dans une base SPARQL.
  • Requêtes SQL grâce à l’outil Quarry

Anagrimes[modifier le wikicode]

Accessible depuis la page Wiktionnaire:Recherche avancée dont un lien est inclue dans la colonne latéral, il fonctionne aussi en externe. Il est développé par Darkdadaah et s’appuie sur les copies de sauvegarde mensuelles, les dumps pour en extraire les formes des mots, les classes de mots et les indications de prononciation. Il propose une copie de la base au format SQL.

Limites[modifier le wikicode]

  • L’outil nécessite JavaScript pour fonctionner, et de laisser cocher une case dans la liste des gadgets des utilisateurs.
  • L’outil ne permet pas de chercher des mots contenant à la fois des lettres données ET des sons donnés.
  • Le lien vers la page de recherche n’apparaît pas dans le menu latéral en consultation mobile.
  • Il utilise le dernier dump donc sa base peut avoir deux semaines de retard sur le Wiktionnaire.

Requêtes intéressantes[modifier le wikicode]

Cet outil permet de rechercher des anagrammes, des rimes ou bien des mots à partir d’une prononciation. Si vous utilisez cet outil pour contribuer, n’hésitez pas à détailler comment !

AutoWikiBrowser[modifier le wikicode]

Le logiciel AutoWikiBrowser, ou AWB, est un outil qui permet de modifier massivement les pages du Wiktionnaire. Une page de doc spécifique existe, Wiktionnaire:AutoWikiBrowser, mais elle est sommaire pour l’instant. Dommage, car l’outil permet de faire des requêtes à partir d’expressions régulières intéressantes grâce à son outil « Database Scanner ».

Limites[modifier le wikicode]

  • Il ne se lance que sur Windows.
  • Il est nécessaire de télécharger une copie des données, un dump, et le temps de calcul dépend de la puissance de la machine utilisée, ce qui peut s’avérer long.

Requêtes intéressantes[modifier le wikicode]

On peut les récupérer en .xml.

N’hésitez pas à lister des requêtes faites grâce à cet outil !


JavaScript Wiki Browser[modifier le wikicode]

Logiciel similaire à AWB qui fonctionne directement depuis le navigateur. Pour l’activer il faut copier la ligne suivante dans son common.js :
mw.loader.load('//en.wikipedia.org/w/index.php?title=User:Joeytje50/JWB.js/load.js&action=raw&ctype=text/javascript');
La documentation peut-être trouvée sur cette page mais elle est sommaire pour le moment.

Limites[modifier le wikicode]

  • Il nécessite JavaScript pour fonctionner.
  • Il n’est pas aussi complet qu’AWB.

Requêtes intéressantes[modifier le wikicode]

N’hésitez pas à lister des requêtes faites grâce à cet outil !

PetScan[modifier le wikicode]

PetScan permet de faire des requêtes dans le Wiktionnaire en cherchant toutes les pages qui sont dans une ou plusieurs catégories, ou qui contiennent un ou plusieurs modèles.

Limites[modifier le wikicode]

PetScan parcourt tout le contenu des pages, mais n’assure pas que l’information se trouve au bon endroit. La présence d’un modèle {{familier}} par exemple, pourra être en fait dans une autre section de langue, ou même comme indication dans une section de synonyme. Il peut donc y avoir de nombreux faux positifs.

L’outil est très demandé, et il est souvent indisponible.

Requêtes intéressantes[modifier le wikicode]

  • Termes du domaine de l’économie propres au Canada, donc incluant les modèles {{économie}} et {{Canada}}.

SPARQL avec Dbnary[modifier le wikicode]

Au sein de l’écosystème wikimédien, il n’existe pour l’instant aucun outil pour faire des requêtes SPARQL sur le contenu du Wiktionnaire. Il est possible de faire des requêtes sur le contenu de Wikidata, mais pas sur le contenu du Wiktionnaire. Deux projets extérieurs visent à permettre de le faire : Dbnary et le Dictionnaire des francophones. Ce dernier étant encore en cours de développement, nous ne parlerons ici que de Dbnary. Pour les requêtes sur des données lexicales dans Wikidata, voir Projet:Coopération/Wikidata.

Dbnary est le projet d’un chercheur français qui parse une vingtaine d’éditions du Wiktionnaire pour les mettre dans une base relationnelle. Un endpoint SPARQL est ouvert au public, utilisant Virtuoso. Il permet notamment de faire des requêtes sur les sections de traductions et les relations sémantiques (synonymes, antonymes, etc.).

Limites à Dbnary[modifier le wikicode]

  • Il faut comprendre le modèle de données utilisé, et formuler des requêtes complexes.
  • L’interface de requête de Virtuoso est austère et complexe. Même avec le moteur de recherche à facette associé, c’est galère.
  • Les caractères non-ASCII semblent être mal gérés.
  • Ne sont pas requêtables : étymologie, modèles de la ligne de forme, modèles de la ligne de définition, catégories.

Requêtes SPARQL intéressantes[modifier le wikicode]

C’est l’outil le plus puissant, à condition de réussir à formaliser de bonnes requêtes. Quelques unes sont proposées sur le site, mais si vous imaginez d’autres requêtes SPARQL qui vous intéresserait, n’hésitez pas à les lister ci-dessous.

Propositions de Noé[modifier le wikicode]

Je note des requêtes SPARQL qui me sembleraient utiles et que je sais rédiger (la plupart grâce à VIGNERON, encore merci !). Toutes ne sont pas possibles dans Dbnary, mais le seraient dans une base RDF qui parserait plus finement le Wiktionnaire.

  • Définitions trop longues (+ de 700 caractères par exemple)
  • Définitions sans aucun lien hypertexte
  • Définitions avec une indication géographique (pour une projection sur une carte)
  • Exemples contenant des liens
  • Exemples ne contenant pas de gras

Quarry[modifier le wikicode]

Quarry est un outil permettant d’exécuter des requêtes SQL sur les bases de données des projets de l’écosystème wikimédien. Il est accessible en suivant ce lien.

Limites de Quarry[modifier le wikicode]

  • Il faut comprendre le modèle de données utilisé, et formuler des requêtes complexes.
  • Le type de requête réalisable dépend de la structure de la base de données.

Autres outils à partir des données du Wiktionnaire[modifier le wikicode]

  • Corpus DiCo est un comparatif des nouvelles entrées dans le Robert, le Larousse, le dictionnaire Hachette, le dictionnaire de l’Académie française et le Wiktionnaire, qui permet d’identifier des mots manquants dans le Wiktionnaire.
  • GLAWI est un export du Wiktionnaire en XML. Les outils G-PeTo sont mis à disposition pour l’exploiter. Si des exploitations en sont faites, ne pas hésiter à créer une section de la page dédiée.

Recherche d’erreurs dans le Wiktionnaire par programmation[modifier le wikicode]

Avec les outils de programmation des bots, il est possible d’écrire rapidement de petits algorithmes pour détecter des erreurs dans les pages du Wiktionnaire.

Outils[modifier le wikicode]

Idées d’utilisation[modifier le wikicode]

  • faire la liste de tous les mots dans une langue donnée, permet par exemple :
    • de faire des recherches dans un fichier simple pour trouver les dérivés
    • de vérifier que tous les mots utilisés dans le Wiktionnaire sont dans le Wiktionnaire (pour trouver des mots non définis ou mal orthographiés)
    • de trouver des mots qui ont certaines caractéristiques (palindromes, le plus de voyelles, des lettres uniques…)
  • trouver des problèmes potentiels dans les pages du Wiktionnaire :
    • exemples sans mot en gras, ou avec le mot en gras qui n’est pas le bon
    • conventions non standards, comme les ... au lieu de …, ou (…) au lieu de […], un point final manquant, une espace avant une virgule
    • modèle source non utilisé (tirets et parenthèses ajoutés manuellement), ou année manquante dans la source
    • citations vides : #* , à remplacer par #* {{ébauche-exe|fr}}
    • mots définis en gras en début de section lemme qui est différent du nom de la page
    • plusieurs sections d’une même langue
  • lister les mots qui n’ont pas d’exemples et, pour chacun, lister les citations du Wiktionnaire qui le contiennent

Actions pour des bots :

  • réordonner les sections dans une page (synonymes avant dérivés)
  • ajouter la section traductions quand elle manque
  • dans les sources, mettre le chapitre ou la page à la fin

Principes[modifier le wikicode]

Il est facile de télécharger les dumps du Wiktionnaire (faits au moins une fois par mois) et de travailler sur son ordinateur. Ils sont téléchargeables ici (prendre frwiktionary-latest-pages-articles.xml.bz2 puis le décompresser).

Une fois la librairie installée, quelques lignes suffisent pour récupérer la liste des pages en français.

Par exemple en Perl avec MediaWiki::Bot :

use utf8;
binmode STDOUT, ":utf8";

use MediaWiki::DumpFile::FastPages;

my $pages = MediaWiki::DumpFile::FastPages->new('frwiktionary-latest-pages-articles.xml');
my $titre;
my $texte;
while (($titre, $texte) = $pages->next) {
	if ($texte =~ /\{\{langue\|fr\}\}/m) {
		print $titre, "\n";
	}
}