Utilisateur:Daahbot/Historique/2006

Janvier 2006[modifier le wikicode]

Correction des prononciations et conversion X-SAMPA[modifier le wikicode]

Quelques corrections simples (e.g. apostrophes) en API et SAMPA et conversion SAMPA vers X-SAMPA.

3283 articles

Février 2006[modifier le wikicode]

Correction des r français[modifier le wikicode]

5338 articles

Ébauche étymologies[modifier le wikicode]

Ajout d'une section étymologie avec un bandeau d'ébauche.

13882 articles

Import d'expression de Wikipédia[modifier le wikicode]

Liste formatée.

97 articles

Correction de prononciations[modifier le wikicode]

Initiale : 9138 articles
Correction ligatures API : 358

Mars 2006[modifier le wikicode]

Formatage des articles Commission terminologie et néologie[modifier le wikicode]

Créés automatiquement, ces articles n'étaient pas correctement formatés (certains ont d'ailleurs encore des erreurs).

2927 articles.

Arrangement DAF8[modifier le wikicode]

Formatage des articles importés depuis le DAF8.

24 039 articles

Avril 2006[modifier le wikicode]

Structure des articles[modifier le wikicode]

Réarrangement de la structure des articles (ordre des sections notamment).

139 297 articles

Mai 2006[modifier le wikicode]

Formulation étymologie[modifier le wikicode]

Reformulation de l'étymologie de certains articles.

916 articles

Juillet 2006[modifier le wikicode]

Tables d'accord[modifier le wikicode]

Ajout d'un modèle de table d'accord le cas échéant.

3201 articles

aout 2006[modifier le wikicode]

18 aout 2006[modifier le wikicode]

Déwikification des modèles de langues[modifier le wikicode]

Suite à vote sur la Wikidémie (lien).

liste : Wiktionnaire:Liste des langues
script : replace.py ; regex : ("[[", "") et ("]]", "")
Résumé : « Déwikification des langues »
Problèmes relevés :
1. quelques langues de la forme [[langue|nom de langue]] ; corrigées.

Numérotation des sections de type[modifier le wikicode]

Avec {{{num}}} (au lieu du paramètre {{{1}}}). Précède les modifications des modèles {{-def-}}, voir (lien).

liste : dump du 6 aout 2006
script : replace.py ; regex : ("(\{\{-.+?-\|)([0-9]\}\})", "\1num=\2")
Résumé : « Numérotation avec paramètre "num=" »
Problèmes relevés :
1. Le modèle {{-verb-pr-}} n'est pas déclaré : à discuter (réflexion sur les verbes pronominaux et autres) ;
2. Section seule mais numérotée ; corrigé (ĝi).

Remplacement de modèles[modifier le wikicode]

18 aout 2006 : {{-adjc-}} -> {{-adj-}} (modèle inutilisé et inutile)
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-adjc-}}", "{{-adj-}}")
18 aout 2006 : {{-dim-lex-}} -> {{dim-lex}} (les - sont réservés aux titres de section)
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-dim-lex-}}", "{{dim-lex}}")
18 aout 2006 : {{-sym-}} -> {{-symb-}} (symb est plus compréhensible et plus répandu)
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-sym-}}", "{{-symb-}}")
18 aout 2006 : {{-pré-}} -> {{-pref-}} (pref est plus compréhensible et plus répandu)
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-pré-}}", "{{-pref-}}")
18 aout 2006 : {{-prép-}} -> {{-prep-}} (prep est plus répandu, et plus simple à écrire)
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-prép-}}", "{{-prep-}}")
18 aout 2006 : {{-locution-|interjective}} -> {{-loc-interj-}}
- liste : dump du 6 aout 2006
- script : replace.py ; regex : ("\{\{-locution-\|(i|I)nterjective\}\}", "{{-loc-interj-}}")
18 aout 2006 : {{-loc-pron-}} -> {{-loc-pronom-}}
- liste : dump du 6 aout 2006
- script : replace.py ; ("{{-loc-pron-}}", "{{-loc-pronom-}}")

20 aout 2006[modifier le wikicode]

{{pron}} -> {{pron-audio}} (libération du modèle et unification du modèle pron-audio).

liste : dump du 6 aout 2006
script : replace.py ; ("{{pron|", "{{pron-audio|")

23 aout 2006[modifier le wikicode]

{{-adverbe-|...}} -> {{-adv-}} (précision mise sur la ligne de forme, ou au niveau des définitions).

liste : références à {{-adverbe-}}
script : replace.py ; regex : ("\{\{-adverbe-\|(.+?)\}\}\r\n'''(.+?)'''(.*?)", "{{-adv-}}\n'''\2'''\3 ''adverbe \1''")

24 aout 2006[modifier le wikicode]

Simplification du tableau des prononciations régionales.

liste : références à {{-tab-pron-}} (estimation : 9907 changements)
script : replace.py ; fix :

    'tab': {
        'regex' : True,
        'msg' : {
                'fr':u'Robot : Prononciations régionales dans des modèles simplifiés',
                },
        'replacements': [
            # Début et fin de tableau
            (u"\r\n\{\{-tab-pron-\}\}", r""),
            (u"(\{\{pron-audio\|(( |.)+?)\}\}\r\n\| ?\[( |.)*?\]\r\n\| ?\[?((.| )*?)\]?)\r\n\|\}", r"\1"),

            # Nettoyage avant
            (u"\{\{pron-audio\|(.+?)\|\}\}", r"{{pron-reg|\1}}"),
            (u"(\{\{pron-audio\|(.+?)\}\}\r\n\|) ?\?\r\n\| ?\?\r\n", r"\1 []\r\n| []\r\n"),
            (u"(\{\{pron-audio\|(.+?)\}\}\r\n\|) ?/(.*?)/\r\n\| ?/?(.*?)/?\r\n", r"\1 [\2]\r\n| [\3]\r\n"),

            # pron-audio
            (u"\{\{pron-audio\|(.+?)\|(.+?)\}\}\r\n\| ?\[\]\r\n\| ?\[\]", r"{{pron-reg|\1|audio=\2}}"),
            (u"\{\{pron-audio\|(.+?)\|(.+?)\}\}\r\n\| ?\[(.+?)\]\r\n\| ?\[.*?\]", r"{{pron-reg|\1|\3|audio=\2}}"),

            # pron sans audio
            (u"\{\{pron-audio\|(.+?)\}\}\r\n\| ?\[(.*?)\]\r\n\| ?\[?(.*?)\]?\r\n", r"{{pron-reg|\1|\2}}\r\n"),

            # Nettoyage : deux points, crédit superflu (déjà sur Commons), formulation
            (u"\{\{pron-reg\|(.+?) *?<!-- *?réalisé par .+? *?--> *?: *?\|", r"{{pron-reg|\1|"),
            (u"\{\{pron-reg\|(.+?) *?<!-- *?précisez svp la ville ou la régio ?n *?--> *?: *?\|", r"{{pron-reg|\1 ("+u"région ?)|"),
            
            (u"\{\{pron-reg\|(.+?) *?: *?\|", r"{{pron-reg|\1|"),
            (u"\{\{pron-reg\|Français standard \(Ouest de la France\)(.*?)\|", r"{{pron-reg|France (Ouest)|"),
            (u"\{\{pron-reg\|\?\|", r"{{pron-reg||"),
            ],
        },

Problèmes relevés :
1. Incompatibilité des modèles de type term contenant le modèle {{term}} quand affiché dans le nouveau modèle --> ne pas mettre de modèles dedans ;
2. Modèles à enlever car inadéquats : {{popu}} (et mettre sous {{term}}) - présents dans les descriptions --> remplacer par autre chose, mais prononciation populaire ne veut rien dire... ;
3. Quelques présentations qui en font trop, de type « Canada (Montréal) - profond », ---> à mettre en titre= (par défaut : nom de l'article).
4. Prononciations du vitenamien suivant un schéma inattendu (mais heureusement constant). Voir remplacement spécial ;
5. Tombé sur des articles charcutés par PiedBot (et erreurs consécutives). Son maitre a corrigé les articles, et j'ai pu repasser normalement dessus.

Vietnamien[modifier le wikicode]

Estimation : 6592 articles à corriger (soit 66% du total). Remplacement spécial à l'aide de replace.py -regex dans un fix :

(u"{{-tab-pron-}}\r\n\|-\r\n\|\r\n\|Hanoï \(Nord du Vietnam\)\r\n\| \[(.+?)\]\r\n\| \[.+?\]\r\n\|-\r\n\|-\r\n\|\r\n\|Ho Chi Minh-Ville \(Sud du Vietnam\)\r\n\| \[(.+?)\]\r\n\| \[.+?\]\r\n\|\}",
u"{{pron-reg|Nord du Vietnam (Hanoï)|"+r"\1"+u"}}\r\n{{pron-reg|Sud du Vietnam (Ho Chi Minh-Ville)|"+r"\2}}")

Pas de problèmes relevés pour le vietnamien.

26 aout 2006[modifier le wikicode]

Adjectifs au pluriel en -als[modifier le wikicode]

Mon bot est auparavant passé sur les articles importés du DAF8 pour nettoyer et mettre en forme. Une erreur de regex (trop large) à donné des tableaux donnant le pluriel d'adjectifs en -als au lieu de -aux. Ce processus corrige ces articles.

Estimation : 160 articles
script : replace.py ; fix :

    'tabal': {
        'regex' : True,
        'msg' : {
                'fr':u'Robot : Correction pluriels en als',
                },
        'replacements': [
            (r"\{\{fr-accord-mixte\|\r\n ?ms=(.+?)al\r\n\| ?mp=\1als\r\n\| ?fs=\1ale\r\n\| ?fp=\1ales\r\n\| ?pms=(.+?)al\r\n\| ?pmp=\2al\r\n\| ?pfs=\r\n\| ?pfp=\r\n\}\}", r"{{fr-accord-al|\1|\2}}"),
            (r"\{\{fr-accord-mixte\|\r\n ?ms=(.+?)al\r\n\| ?mp=\1als\r\n\| ?fs=\1ale\r\n\| ?fp=\1ales\r\n\| ?pms=(.+?)al\r\n\| ?pmp=\2al\r\n\| ?pfs=\2al\r\n\| ?pfp=\2al\r\n\}\}", r"{{fr-accord-al|\1|\2}}"),
            ],
        },

Catégorisation automatique[modifier le wikicode]

20 septembre 2006 et suivants[modifier le wikicode]

Catégories automatiques[modifier le wikicode]

Suite au vote et aux discussions sur l'ASCII, j'ai préparé un script spécial pour changer les articles afin qu'ils soient catégorisés automatiquement : catauto.py.

Articles concernés : tous (durée de changement importante).
Dans un premier temps, seuls les articles en alphabets latin ou grec sont gérés au niveau de l'ASCII (l'alphabet cyrillique est à faire, et les autres systèmes d'écriture devraient avoir des règles spéciales).

Les articles avec apostrophes et tirets sont évités, car la manière de les traiter n'a pas encore été décidée.

Problèmes rencontrés :

Certaines catégories vides et inutiles parasitent la catégorisation automatique des articles (exemple : [[Catégorie:français]]). J'ai modifié le script pour qu'il les enlève (à partir de la lettre K), mais un bot devra passer pour enlever les autres.
Les nums étaient mal pris en compte par les expressions rationnelles. Correction du script et relecture des logs pour vérification : 4 articles corrigés.
Erreur dans l'expression rationnelle "Ascii nécessaire, sans langue, sans ASCII" (un "\|" d'oublié :P). Les titres de ce type là n'ont pas été modifiés par le bot. J'ai corrigé le script, et je repasserais sur les articles oubliés en utilisant le log.
Erreur dans Listutiles/"types" : il manquait une virgule avant -prep-, ce qui fait que toutes les sections de préposition n'ont pas été modifiées. Une fois le parcours général terminé, je ferais de toute façon repasser le bot sur les mots sautés (cf ci-dessus).

Octobre 2006[modifier le wikicode]

3 octobre : les alphabets latin et grecs sont faits (mis à part les problèmes sus-décrits). Les alphabets suivants n'auront pas d'ASCII pour le moment car ils ne sont pas pris en compte par mon bot.

Problèmes renconcontrés :

Problèmes avec les caractères chinois. À voir...

Octobre 2006[modifier le wikicode]

31 octobre 2006[modifier le wikicode]

complétement -> complètement (orthographe)

liste : dump du 19 octobre 2006
script : replace.py ; ("complétement, complètement")

Novembre 2006[modifier le wikicode]

Sections prononciations[modifier le wikicode]

Élimination des sections de prononciation vides (trop lourdes) et transformation des sections non vides en remplaçant les API et SAMPA par le modèle {{pron}}.

script : replace.py ; fix :

    'pron_sec' : {
        'exceptions' : [''],
        'regex' : True,
        'msg' : {
                'fr':u'Robot : Élimination des sections prononciations inutiles, remplacement API/SAMPA par {{pron}}',
                },
        'replacements': [
          # Complet vide +ébauche
            (u"\r?\n?\r\n\{\{-pron-\}\}\r\n\{\{ébauche-pron\|.+?\}\}\r\n\*? ?\{\{API\}\} ?: ?(//|/x{2,}/)\r\n\*? ?\{\{SAMPA\}\} ?: ?(//|/x{2,}/)", r""),
          # API vide +ébauche
            (u"\r?\n?\r\n\{\{-pron-\}\}\r\n\{\{ébauche-pron\|.+?\}\}\r\n\*? ?\{\{API\}\} ?: ?(//|/x{2,}/)", r""),
          # Complet plein +ébauche
            (u"(\r?\n?\r\n\{\{-pron-\}\}\r\n)\{\{ébauche-pron\|.+?\}\}\r\n\*? ?\{\{API\}\} ?: ?/(.+?)/\r\n\*? ?\{\{SAMPA\}\} ?: ?/.*?/", r"\1* {{pron|\2}}"),
          # API plein +ébauche
            (u"(\r?\n?\r\n\{\{-pron-\}\}\r\n)\{\{ébauche-pron\|.+?\}\}\r\n\*? ?\{\{API\}\} ?: ?/(.+?)/", r"\1* {{pron|\2}}"),

          # Complet vide -ébauche
            (u"\r?\n?\r\n\{\{-pron-\}\}\r\n\*? ?\{\{API\}\} ?: ?(//|/x{2,}/)\r\n\*? ?\{\{SAMPA\}\} ?: ?(//|/x{2,}/)", r""),
          # API vide -ébauche
            (u"\r?\n?\r\n\{\{-pron-\}\}\r\n\*? ?\{\{API\}\} ?: ?(//|/x{2,}/)", r""),
          # Complet plein -ébauche
            (u"(\r?\n?\r\n\{\{-pron-\}\}\r\n)\*? ?\{\{API\}\} ?: ?/(.+?)/\r\n\*? ?\{\{SAMPA\}\} ?: ?/.*?/", r"\1* {{pron|\2}}"),
          # API plein -ébauche
            (u"(\r?\n?\r\n\{\{-pron-\}\}\r\n)\*? ?\{\{API\}\} ?: ?/(.+?)/", r"\1* {{pron|\2}}"),

          # Vide +ébauche
            (u"(\r?\n?\r\n\{\{-pron-\}\}\r\n)\{\{ébauche-pron\|.+?\}\}\r\n", r"\r\n"),
            ],
        },

Avancement : alphabet latin fini.

Problèmes rencontrés :
1. ligne oubliée pour "Vide +ébauche"
2. Plusieurs prononciations par ligne (mélangé ou pas entre API et SAMPA, bref c'est le bordel)
  - Repérage de ce genre d'articles en parcourant le dump et correction manuelle (effectuée, mais certains peuvent subsister).
Formats particuliers :
1. Hébreu, type מסע (import Piedot).

164459 articles