Utilisateur:Snawei/Dumps
Apparence
Dump incrémental
[modifier le wikicode]Dump complet
[modifier le wikicode]- https://dumps.wikimedia.org/frwiktionary/
- Articles, templates, media/file descriptions, and primary meta-pages.
- Exemple : frwiktionary-20221101-pages-articles.xml.bz2 484.6 MB (compressé), 4.9 GB (décompressé).
- Téléchargement : wget https://dumps.wikimedia.org/frwiktionary/20221101/frwiktionary-20221101-pages-articles.xml.bz2
- Extraction : bzip2 -dk *pages-articles.xml.bz2
- -d --decompress
- -k --keep (conserver le fichier compressé)
- Articles, templates, media/file descriptions, and primary meta-pages.
Grammalecte
[modifier le wikicode]- Interface en ligne de commande grammalecte-cli, testé avec une distribution Linux.
- https://grammalecte.net/index.html
- Téléchargement section CLI & Serveur
- python3 grammalecte-cli.py -owe -ff 20221103-def.txt
- -owe, --only_when_errors ; Afficher seulement les résultats avec des erreurs.
- -ff (Fichier entrant, 20221103-def.txt, UTF-8 requis) et crée un fichier de résultats (*.res.txt)
- 20221103-def.txt ; Extraction des définitions du Wiktionnaire (dump incrémental).
- Pour l'instant, recherche Accord de genre erroné dans *.res.txt.
Dumps complets - tests
[modifier le wikicode]2023-11-14
[modifier le wikicode]Genre en double
[modifier le wikicode]{{m}} {{m}} 2023-11-14 ; 3 corrections 2021-11-01 ; 1 correction
{{f}} {{f}} 2023-11-14 ; 5 corrections 2021-11-01 ; 1 correction
Wikilien vers flexion
[modifier le wikicode]- Habituellement vers le lemme
- Corrections : (plusieurs autres restent à faire)
- Exemple d'erreurs corrigées :
- achromatiques
- acronymes
- adversaires ; (2)
- atomes
- comédiens
- convulsions
- électrons ; (2)
- [[empreintes]] [[digitales]] > [[empreinte digitale|empreintes digitales]] ; (2)
- gonades ; (2)
- lentilles
- pulsations
Ligne avec [Catégorie: ne terminant pas par "]]"
[modifier le wikicode]grep "^\[\[Catégorie:" *.xml | sed 's#</text>$##g' | grep -v "]] *" | grep -v "]]$" | grep -v "</noinclude>$" 2023-11-14 ; 7 corrections (il en reste) 2021-11-01 ; 5 corrections
Ajout de la [[Catégorie:Noms multigenres en français]]
[modifier le wikicode]- Catégorie:Noms multigenres en français
- Résumé de modification : Ajout de la [[:Catégorie:Noms multigenres en français]]
- Exemple d'ajouts :
- acétate
- adi
- arénaire
- armadille
- brandebourg
- brie
- cagna
- camme
- câpre
- carnasse
- carnauba
- catin
- caustique
- chalcide
- champagne
- charleston
- chitte
- chlorite
- chnek
- transat
- tétragone
- vulnéraire
Parenthèses
[modifier le wikicode]Traductions avec des parenthèses (autres que relativement à la chimie) Nombre de résultats = Nombre d'entrées en français Total = 45
catalan (12 résultats) |
Dump du 2021-10-20
|
espagnol (2 résultats) |
Dump du 2021-10-20 |
italien (1 résultat) |
Dump du 2021-10-20 |
Pluriels 1
[modifier le wikicode]grep "\[\[[a-z][a-z]*s]]s " *.xml
2024-03-16 ; 1 correction
2021-10-20 ; erreurs corrigées 4/4
# [[adverbes]]s
# [[français]]s
# [[locutions]]s
# [[moyens]]s
Pluriels 2
[modifier le wikicode]grep -o "\[\[[a-z][a-z]*s]]s[a-z]*" *.xml | sort | uniq -c | sort -nr
2023-11-14 ; 0 résultat
2022-11-01
446 [[gras]]se
100 [[bas]]se
82 [[épais]]se
63 [[gros]]se
48 [[gros]]ses
20 [[épais]]ses
18 [[bas]]ses
8 [[gras]]ses
1 [[multimédias]]s = corrigé
1 [[métis]]ses
1 [[métis]]se
1 [[gros]]sière
1 [[bros]]ser -> Wiktionnaire:Questions_sur_les_mots ; exclure ces sections prochain dump
1 [[adjectifs]]s = déjà corrigé
Dates
[modifier le wikicode]grep -io "[0-9]* janvier [0-9]*" *.xml | sed 's/^ //g' | sort | uniq -c | sort -nr
20221101 ; 1 erreur corrigée
Erreurs corrigées après vérification de la source (anciens dumps) :
# janvier 19912
# 252 janvier 2017
# 4 avril 202
# 10 avril 20120
# 10 mai 20035
# 7 juin 20212
* (plusieurs dates restent à revoir)
Dump incrémental - tests
[modifier le wikicode]Mots en français absents du Wiktionnaire ; à ajouter peut-être
[modifier le wikicode]- acanthoptère
- anti-braconnage
- antibraconnage
- apraclonidine
- bronchopneumopathie chronique obstructive
- clonidine ; clonidine sur l’encyclopédie Wikipédia
- costiforme
- dicophile
- diosmétine ; diosmétine sur l’encyclopédie Wikipédia
- diplobacille
- embarroqué
- énergiculture
- galette pacaude
- inaniméité
- magnétoception
- mycobionte
- naphtolate
- pailletage
- pansémite
- radioélectronique
insource:// + dumps
[modifier le wikicode]3 apostrophes
[modifier le wikicode]insource:/’’’/ [1] 2021-10-30 ; 5 erreurs corrigées
aaa
[modifier le wikicode]bbb insource:/bbb/ [2] 2022-11-04 ; 14 résultats (tous faux positifs) 2021-11-01 ; 11 résultats (tous faux positifs)
ccc insource:/ccc/ -insource:/cccccc/ -insource:/\|ccc/ [3] 2021-11-01 ; 26 résultats (dont plusieurs faux positifs) * Corrigées : # acccessibilitat (catalan) # Acccusatif (x 4) # Bocccace # Éd. de Bocccard # racccordement # tocccata
ddd insource:/ddd/ -insource:/\|ddd/ -insource:/www.dddllf.com/ -insource:/\/ddd\// [4] 2022-11-04 ; 14 résultats (0 erreur) 2021-11-01 ; 22 résultats (dont plusieurs faux positifs) * Corrigées : # middden (néerlandais)
ggg insource:/ggg/ [5] 2022-11-04 ; 6 résultats (0 erreur) 2021-11-01 ; 7 résultats (1 erreur)
jjj insource:/jjj/ [6] 2022-11-04 ; 2 résultats (0 erreur) 2021-11-01 ; 3 résultats (1 erreur) * Corrigées : # hjjj (vandalisme)
kkk insource:/kkk/ -insource:/\|kkk/ [7] 2021-11-01 ; 7 résultats (à revoir - contient quelques erreurs)
nnn insource:/nnn/ [8] 2022-11-04 ; 77 résultats (5 corrections) (à revoir - contient quelques erreurs) 2021-11-01 ; 113 résultats
Orthographe
[modifier le wikicode]paage insource:/paage/ -insource:/paage\#fro/ -insource:/paage]]/ - insource:/ne paage/ 2024-03-16 ; 0
édtion insource:/édtion/ 2024-03-16 ; 0 résultat 2021-11-01 ; 41 résultats
mnt insource:/mnt/ -insource:/\|umnt/ [9] 2022-11-04 ; 34 résultats (à revoir - contient quelques erreurs) 2021-11-01 * Résultats : 37 * Corrections : 2 # maquerellemnt # Probableemnt
Genre (M/F)
[modifier le wikicode]un personne insource:/un personne/ -insource:/un personnel/ [10] 2022-11-04 ; 14 résultats (12 corrections, 1 à faire, 1 faux positif)
une homme insource:/ une homme/ [11] 2021-11-01 * Résultats : 2 * Corrections : 1
- À revoir :
- encombrant ; Avoir une homme dans les pieds (citation à vérifier)
Pluriels avec 'les'
[modifier le wikicode]Rechercher d'abord dans un dump puis avec insource:// Exemples d'erreurs trouvées : 1 résultat ; 1 correction insource:/ les câblage / insource:/ les combinaison / insource:/ les construction / insource:/ les croyance / insource:/ les dictionnaire / insource:/ les distance / insource:/ les district / insource:/ les établissement / insource:/ les zone /
Plus d'une correction : insource:/ les main / ; (2) insource:/ les service / ; (2)
Pluriels avec 'des'
[modifier le wikicode]Rechercher d'abord dans un dump puis avec insource:// Exemples d'erreurs trouvées : 1 résultat ; 1 correction insource:/ des adjectif / insource:/ des approvisionnement / insource:/ des armature / insource:/ des bosse / insource:/ des chariot / insource:/ des charrue / insource:/ des chorégraphie / insource:/ des mur /
Plus d'une correction : insource:/ des membre / ; (2)
Pluriels (autres)
[modifier le wikicode]Accents manquants
[modifier le wikicode]Corrections : n'etait
Accents en trop
[modifier le wikicode]Accents (autres)
[modifier le wikicode]Étymologie
[modifier le wikicode]insource:/latin \{\{étyl\|la/ du latin latin Du bas latin latin bas-latin latin 2024-10-08 ; 1 correction 2023-11-14 ; 1 résultat ; 1 correction 2022-11-04 ; 2 résultats ; 2 corrections 2021-11-02 ; 6 résultats ; 6 corrections
insource:/français \{\{étyl\|fr/ français français Résumé de modification : {{S|étymologie}} ; correction orthographique ; français français > français 2024-10-08 ; 1 correction 2022-11-04 ; 2 résultats (1 correction, 1 à corriger) 2021-11-03 ; 3 résultats ; 3 corrections
insource:/anglais \{\{étyl\|en/ anglais anglais Résumé de modification : {{S|étymologie}} ; correction orthographique ; anglais anglais > anglais 2021-11-03 ; 2 résultats ; 2 corrections
insource:/de l'\{\{étyl\|ang\|/ Résumé de modification : de l'vieil anglais > du vieil anglais 2022-11-04 ; 0 résultat
insource:/l'\{\{étyl\|enm\|/ Résumé de modification : de l'moyen anglais > du moyen anglais 2022-11-04 ; 0 résultat * À faire : autres langues
Apostrophe typo vers apostrophe droite ]]’' --> ]]''
[modifier le wikicode]insource:/]]’'/ -intitle:tester Résumé de modification : Apostrophe typo vers apostrophe droite ]]’' --> ]]'' 2024-03-16 ; 4 corrections 2022-11-04 * Résultats : 5, 4 corrigés, 1 faux positif 2022-07-21 * Résultats : 5, 4 corrigés, 1 faux positif 2021-11-04 * Résultats : 10
Titre de niveau 2 vers Titre de niveau 3
[modifier le wikicode]anagrammes
insource:/== \{\{S\|anagrammes}} ==/ -insource:/=== \{\{S\|anagrammes}} ===/ Résumé de modification : == {{S|anagrammes}} == -> === {{S|anagrammes}} === 2022-11-04 ; 1 résultat (1 corrigé) Note : Erreur = trop long 2021-11-06 ; 2 résultats (2 corrections)
==== ==== > ====
[modifier le wikicode]insource:/==== ====/ Résumé de modification : ==== (x 2) en fin de ligne 2023-11-14 ; 0 résultat 2021-11-06 ; 2 résultats (2 corrections)
insource:/=== ===/
[modifier le wikicode]insource:/=== ===/ 2023-11-14 ; 0 résultat 2022-07-21 ; 1 résultat (1 correction)
Erreur modèle exemple |source| plutôt que |source=
[modifier le wikicode]-intitle:source insource:/\|source\|/ -insource:/\{\{lien\|source\|/ -insource/{{composé de\|source\|/ 2023-11-14 ; 21 corrections
']' de trop
[modifier le wikicode]insource:/]]]/ -insource:/]]]]/ 2024-03-16 ; 1 correction 2023-11-14 ; 28 corrections
'[' de trop
[modifier le wikicode]insource:/\[\[\[/ -insource:/\[\[\[\[/ 2024-10-08 ; 8 corrections 2023-11-14 ; 9 corrections
checkwiki
[modifier le wikicode]2023-11-01
[modifier le wikicode]Petscan
[modifier le wikicode]Fréquence des caractères dans les entrées en italien
[modifier le wikicode]italien.txt Catégorie : italien sur petscan. 126 389 entrées (2023-05-11) petscan 126 048 entrées (2023-04-20) https://fr.wiktionary.org/wiki/Wiktionnaire:Statistiques
Ébauche du Module:anagrammes/it
[modifier le wikicode]-- List of characters to keep unchanged, empty for Italian keep = {}, -- Table of character transformations, meant for characters without diacritics (ligatures, etc.) mappings = { ["ʿ"] = "", ["ª"] = "a", ["α"] = "a", -- Alpha grec ["æ"] = "ae", ["β"] = "b", -- Bêta grec ["ə"] = "e", -- schwa, e culbuté ["ɜ"] = "e", ["γ"] = "g", -- Gamma grec ["ħ"] = "h", -- Lettre minuscule latine h barré horizontalement. ["º"] = "o", ["ø"] = "o", ["œ"] = "oe",
Avec notes (à conserver sur la page utilisateur) ["ʿ"] = "", (7 entrées) aš-Šammāʿiyah, al-ʿAyūn Sidi Mallūk... ["ª"] = "a", (2 entrées) 1ª, 2ª ["α"] = "a", -- Alpha grec (10 entrées) acido α-linolenico, raggio α ["æ"] = "ae", (4 entrées) Fær Øer, Ægir... ["β"] = "b", -- Bêta grec (10 entrées) decadimenti β, radiazioni β... ["ə"] = "e", -- e culbuté (10 entrées) ləi, benvenutə... ["ɜ"] = "e", (2 entrées) benvenutɜ, -ɜ... ["γ"] = "g", -- Gamma grec (13 entrées) particella γ, fotone γ... ["ħ"] = "h", -- h barré (2 entrées) għana, fil-Għoli (Catégorie:ħ_en_italien) ["º"] = "o", (10 entrées) 1º, 9º ["ø"] = "o" (3 entrées) Isole Fær Øer, Fær Øer ["œ"] = "oe", (1 entrée) trompe-l’œil
Caractères non convertis par le module en français : ª, ð, ħ, ə, ɜ, α
Cas à revoir : ["ð"] (Lettre minuscule latine ed) ; 1 entrée Angrboða
Avec A-Z a-z
[modifier le wikicode]grep -o . italien.txt | sort | uniq -c | sort -nr 160630 a 157566 i 132171 e 125680 o 106705 t 93895 r 88306 n 70203 s 65884 c 58578 l 42489 m 32889 p 31981 d 29571 g 28086 u 23848 b 22125 z 20484 17583 f 16622 v 8512 h 2024 à 1871 q 1809 S 1575 C 1339 A 1310 - 1203 M 1110 B 1082 k 984 P 877 ò 796 L 785 T 778 ’ 681 y 674 G 627 R 613 V 466 F 418 E 402 O 376 x 372 D 364 I 359 N 346 w 292 j 242 é 183 Z 166 è 159 K 150 H 116 U 107 J 87 ì 75 Q 73 ù 50 Y 47 ī 47 , 44 ā 43 W 43 1 25 ū 23 2 22 ï 19 š 18 É 18 â 18 0 15 Ò 14 4 13 γ 13 9 12 6 11 3 10 β 10 α 10 ö 10 º 10 č 10 5 9 ç 9 & 8 ü 8 á 7 ʿ 7 X 7 í 7 8 7 7 7 ̨ 6 ë 6 ä 6 ) 6 ( 5 û 5 ş 5 ô 5 ê 4 ţ 4 Š 4 ó 4 î 3 ú 3 ṣ 3 Ş 3 Ø 3 ñ 3 È 3 æ 3 / 3 . 2 ž 2 ṭ 2 Î 2 ẖ 2 ħ 2 ġ 2 ɜ 2 ə 2 ã 2  2 ª 2 ! 1 ż 1 Ţ 1 ř 1 œ 1 ō 1 ḥ 1 Ḥ 1 ḩ 1 ð 1 Č 1 ć 1 Æ 1 Ā 1 Á 1 ̱ 1 » 1 « 1 * 1 '
Sans A-Z a-z et 0-9 ; (incomplet - brouillon)
[modifier le wikicode]grep -o . italien | tr A-Z a-z | sed -e 's/[a-z0-9]//g' | sort | uniq -c | sort -nr 1336701 Lettres et chiffres 20484 Espaces 1310 - 778 ’ 47 , 18 É 15 Ò 13 γ 10 β 10 α 9 & 7 ʿ 7 ̨ 6 ) 6 ( 4 Š 3 Ş 3 Ø 3 È 3 / 3 . 2 ž 2 Î 2 Â 2 ! 1 ż 1 Ţ 1 Ḥ 1 Č 1 Æ 1 Ā 1 Á 1 ̱ 1 » 1 « 1 * 1 '
Traductions
[modifier le wikicode]Traductions
[modifier le wikicode]Wiktionnaire:Recherche avancée
[modifier le wikicode]Finale en -logue ; épicènes ou non
[modifier le wikicode]Liste à vérifier (avec masculin seulement à la ligne de forme)
- analogue
- anthologue
- apologue
- arétalogue
- astronome-astrologue
- audioblogue
- batalogue
- blogue
- cacologue
- catalogue
- chiantologue
- chronologue
- craniologue
- décalogue
- déclinologue
- dialogue
- dodécalogue
- épilogue
- euchologue
- eucologue
- éventrologue
- galactologue
- hydrologue
- hymnologue
- isotopologue
- jazzologue
- kafkologue
- karstologue
- lithologue
- magalogue
- malariologue
- métalogue
- microblogue
- micrologue
- mirologue
- monologue
- narratologue
- ohnologue
- onomatologue
- oryctologue
- ostéologue
- paludologue
- paradoxologue
- paralogue
- photoblogue
- phrénologue
- physiologue
- polylogue
- prologue
- protologue
- quasi-monologue
- rhodologue
- rudologue
- runologue
- sermologue
- somnologue
- symbologue
- théologue
- travelogue
- trialogue
- trilogue
- vidéoblogue
- vlogue
- webalogue
- weblogue