Discussion Wiktionnaire:Statistiques

Mise à jour

Peut-être serait-il (grand) temps de mettre à jour les stats qui datent de 10 mois ? Sans doute est-ce un peu fastidieux alors il serait bon que plusieurs personnes s'y collent tout à tour ? M'enfin, moi ce que j'en dis...

Le Zozo masqué 9 avril 2010

Mise à jour

Dernier commentaire : il y a 14 ans4 commentaires3 participants à la discussion

Après une longue absence, j’ai réussi à installer les outils nécessaires aux calculs de statistiques. LBO disc 11 avril 2010 à 09:54 (UTC)Répondre

Merci pour ton travail et ton retour. On va enfin avoir des stats digne de ce nom. Le problème c'est que cet outil qui fournit les stats ne dépend que d'une personne (toi) ce qui faait que si tu quittes le projet ou que tu as un problème informatique quelconque (perte de la connexion internet, d'un ordinateur, etc), les stats ne sont plus mises à jour. Est-il possible d'envisager que tu écrives un tuto expliquant pas à pas comment obtenir ses stats pour que n'importe qui puisse mettre à jour cette page ? Merci encore. Pamputt ^[Discuter] 11 avril 2010 à 18:09 (UTC)Répondre

Si tu veux. mais c'est du bricolage... 18 avril 2010 à 11:46 (UTC)

Tutoriel

Prendre le dernier fichier dump xml sur le site comprenant l'ensemble des articles.
Pour chacun des articles, découper l'article en sous-articles de premier niveau (= par langue ) grâce aux balises du modèle {{=xx=}} et les quelques exceptions éventuelles ({{caractère}} …)
Pour chacun des sous-articles:
- Mesurer la taille en octets (Je laisse les catégories dans le sous-article)
- Rechercher les balises de second niveau. Pour ce faire, le plus simple est d'extraire intégralement les balises du type {{-x*-}}
Ensuite, charger dans Excel le résultat produit sur deux fichiers XML et faire le ménage...
- Supprimer du décompte les balises sans intérêts pour les statistiques ( références, balises non gramaticales ...)
- Affecter les balises à des groupes. Par exemple, toutes les flexions dans le même groupe
- Faire un pivot dans Excel
- Ajouter de l'habillage
- Convertir dans un format wikipedia

Tu convertis avec quoi stp ?. JackPotte ($) 18 avril 2010 à 12:36 (UTC)Répondre

Très simplement, En fait, j'ai mes résultats dans une Worksheet et j'ai créé une autre pour le formattage et je formatte les données par correspondance. j'ai quatre formules de bases

les têtes de lignes	="\|- \|bgcolor='#EEEEEE' \|{{"&Tab!LC&"}}"
les têtes de colonnes	="\|\|bgcolor='#EEEEFF' \| <B>"&Tab!LC&"</B>"
les cellules colorées	="\|\| "&Couleur(Tab!LC;100000)&"\|"&SI(Tab!LC>1000;TEXTE(Tab!LC;"###.###.##0");SI(Tab!LC=0;" - ";Tab!LC))

La fonction couleur permet de générer des dégradés en fonction du nombre d'occurence et d'un seuil:

Function Hex2Dec(ByVal Hex As String) As Long
  Dim n As Long
  Dim i As Integer
  For i = 1 To Len(Hex)
    Dim CharHex As String
    CharHex = UCase(Mid(Hex, i, 1))
    If Asc(CharHex) >= 65 Then
      n = n + (Asc(CharHex) - 55) * (16 ^ (-i + Len(Hex)))
    Else
      n = n + CInt(CharHex) * (16 ^ (-i + Len(Hex)))
    End If
  Next i
  HexToDec = n
End Function

Function Dec2Hex(Dec) As String
    Dec2Hex = Hex(CInt(Dec))
End Function

Function Couleur(Evolution, NombreTotal) As String
Dim iEvo As Long
iEvo = CLng(Evolution)
    If iEvo = 0 Then
        Couleur = "bgcolor='grey'"
    ElseIf iEvo > 0 Then
        If Evolution < NombreTotal / 2 Then
            Rouge = Round(255 - 255 * 2 * Evolution / NombreTotal, 0)
            Vert = 255
            Bleu = Rouge
        Else
            Rouge = 0
            Vert = 255 - 255 * 2 * (Evolution - NombreTotal / 2) / NombreTotal
            Bleu = 0
        End If
        If Rouge < 0 Then
            Rouge = 0
        ElseIf Rouge > 255 Then
            Rouge = 255
        End If
        
        If Vert < 0 Then
            Vert = 0
        ElseIf Vert > 255 Then
            Vert = 255
        End If
        If Bleu < 0 Then
            Bleu = 0
        ElseIf Bleu > 255 Then
            Bleu = 255
        End If
        Couleur1 = "bgcolor='#" & Right("00" & Dec2Hex(Rouge), 2) & Right("00" & Dec2Hex(Vert), 2) & Right("00" & Dec2Hex(Bleu), 2) & "'"
        If Rouge = 0 Then
            Couleur = Couleur1 + " style='color:white;' "
        Else
            Couleur = Couleur1
        End If
        
    Else
        Couleur = "bgcolor='red'"
    End If
End Function

LBO disc 21 avril 2010 à 19:14 (UTC)Répondre

rohingya

Dernier commentaire : il y a 14 ans2 commentaires2 participants à la discussion

Bonjour, les dernières statistiques indiquent qu'il n'y a aucun article en rohingya. Or, il en existe au moins un. D'où vient le problème ? Pamputt ^[Discuter] 19 avril 2010 à 10:10 (UTC)Répondre

Euh?! J'en vois même 12. Cependant, il y en a 11 qui ont changé de codes de {{cit}} à {{rhg}} LBO disc 11 mai 2010 à 18:47 (UTC)Répondre

Format du tableau de statistiques

Dernier commentaire : il y a 14 ans1 commentaire1 participant à la discussion

Bonjour, Serait-il possible d'afficher également les totaux du tableau de statistiques juste en dessous des intitulés de colonnes. On doit actuellement aller tout en bas du tableau pour trouver ces totaux, et sans pouvoir voir les intitulés, on ne sait pas à quoi correspond chaque chiffre. Merci d'avance pour vos réponses. Blacksabbath4343 17 mai 2010 à 03:07 (UTC)Répondre

Existe-t-il une norme "internationale" pour le calcul des statistiques au sein du projet wiktionary ?

Dernier commentaire : il y a 14 ans2 commentaires2 participants à la discussion

Bonjour, Existe-t-il une norme "internationale" pour le calcul et la présentation des statistiques au sein du projet wiktionary ? Apparemment, ce n'est pas le cas. Le tableau en français est très lisible et bien conçu. Même si le total du bas de tableau ne semble pas correspondre au total affiché en début de page. Par contre, la version anglaise se passe de commentaires...Aucune couleur, classement alphabétique et confus, pas de total... Des réflexions ont-elle été entamées sur la définition de standards pour le traitement de ces statistiques ? Quid de la fiabilité des statistiques présentées par chaque pays ? Tiens, ça me rappelle d'ailleurs quelque chose cette histoire de statistiques truquées ! En tous cas, félicitations à ceux qui travaillent sur le sujet actuellement et qui ont créée cette belle page pleine d'esthétique ! Continuez comme ça. Blacksabbath4343 17 mai 2010 à 03:20 (UTC)Répondre

Non, il n'y a pas de discussions, c'est juste les projets qui peuvent s'inspirer les uns des autres. Il y a des améliorations à apporter : utiliser un critère de classement compréhensible (par exemple le nombre d'entrées), ajouter une colonne avec le rang... Lmaltier 17 mai 2010 à 05:25 (UTC)Répondre

inversion de 2 colonnes

Dernier commentaire : il y a 14 ans2 commentaires2 participants à la discussion

j'ai l'impression que les dates sont inversées entre les colonnes "Mots le 30 mars 2010" et "Mots le 23 juin 2010".Hector 25 août 2010 à 08:58 (UTC)Répondre

C'est vrai, je l'avais déjà signalé à l'auteur. JackPotte ($♠) 25 août 2010 à 11:54 (UTC)Répondre

nombre d'entrées sans les formes fléchies

Dernier commentaire : il y a 14 ans3 commentaires2 participants à la discussion

je verrais bien une colonne "nombre d'entrées sans forme fléchie", afin de pouvoir comparer facilement avec les dictionnaires qui souvent n'intègrent pas les formes fléchies. Merci Hector 25 août 2010 à 10:43 (UTC)Répondre

On appelle ça les lemmes. JackPotte ($♠) 25 août 2010 à 11:47 (UTC)Répondre

Bien vu, merci !Hector 26 août 2010 à 15:38 (UTC)Répondre

Collaboration

Dernier commentaire : il y a 13 ans2 commentaires2 participants à la discussion

Bonjour, suite au départ de Laurent Bouvier qui maintenait cette page, une collaboration s'est mise en place pour écrire du code qui permettra de mettre ces statistiques à jour. Si vous voulez participer, rendez vous ici. Pamputt ^[Discuter] 9 mars 2011 à 16:14 (UTC)Répondre

Nul n'est indispensable. Bravo pour ton initiative. LBO disc 30 avril 2011 à 12:53 (UTC)Répondre

russes

Dernier commentaire : il y a 12 ans6 commentaires3 participants à la discussion

Où sont passées les 150 000 mots russes ? (voir les colonnes de droite)Hector 15 mai 2011 à 23:30 (UTC)Répondre

Il me semble qu’une bonne partie des entrées en russe sont des noms de famille (voir Noms de famille en russe) qui compte plus de 17000 mots. Pour le reste je ne sais pas Pamputt ^[Discuter] 16 mai 2011 à 09:33 (UTC)Répondre

En fait il y a 17 000 noms de famille et 134 000 flexions de ces mêmes noms de famille ! Il ne reste ensuite que 4500 mots normaux (noms, verbes, adjectifs, noms propres). — Dakdada (discuter) 16 mai 2011 à 15:16 (UTC)Répondre

OK, merci pour ces précisions. Ça montre selon moi l'intérêt de ma proposition 2 paragraphes plus haut, de faire une colonne avec des lemmes uniquement, sans flexions & noms propres , pour qu'on ait une base de comparaison avec les dictionnaires classiques. Il est aujourd'hui très difficile de répondre à une question toute bête : "je pars en vacances en Russie, est-ce que le wiktionnaire saura me satisfaire ou aurai-je besoin d'un autre dictionnaire ?" Hector 20 mai 2011 à 08:16 (UTC)Répondre

La cellule "lemme russe" semble encore assez étrange, sans doute qu'on n'enlève pas les 17000 noms de famille. ça vous dirait d'enlever les noms de famille/noms propres à la colonne lemme ? Hector (discussion) 16 mai 2012 à 13:29 (UTC)Répondre

C'est techniquement possible mais je ne vois pas bien l'intérêt de le faire. Si une langue a plein de noms de famille alors c'est déjà pas mal même si ce n'est pas représentatif des mots communs mais bon. Les lemmes permettent d'avoir quand même une idée relativement exactes du vocabulaire « utile » d'une langue. Pamputt ^[Discuter] 16 mai 2012 à 13:53 (UTC)Répondre

Tableau triable

Dernier commentaire : il y a 13 ans6 commentaires4 participants à la discussion

Bonjour, j’ai essayé de rendre le tableau de stats triable (voir ceci). Cela dit ça ne semble pas fonctionner (le tableau reste statique, sans flèche). C’est normal ? Pamputt ^[Discuter] 11 octobre 2011 à 07:07 (UTC)Répondre

C’est parce que les titres de colonnes ne sont pas définis comme tel (il faut utiliser ! à la place de |). J’ai modifié. — Dakdada (discuter) 12 octobre 2011 à 09:06 (UTC)Répondre

Il faut aussi ajouter « class="sortbottom" » aux deux rangées devant rester en bas du tableau (total et rappel des titres de colonnes). J’ai aussi modifié. —C.P. 12 octobre 2011 à 09:23 (UTC)Répondre

Lettres
C
A
B
Fixe

La colonne Évolution ne fonctionne pas à cause des signes + et -.

Évolution	Sans '+'	Sans '+' ni espace	Sans espace
0	0	0	0
+ 1	1	1	+1
- 1	- 1	-1	-1
- 16	- 16	-16	-16
+ 15	15	15	+15

Il faudrait peut être retirer les "+" ou les espaces. --Moyogo (discuter) 12 octobre 2011 à 09:14 (UTC)Répondre

C’est effectivement les espaces (mais pas le signe « + ») qui empêche le tri correct et qu’il faudrait retirer. —C.P. 12 octobre 2011 à 09:31 (UTC)Répondre

Ok, Moyogo a supprimé les espaces et maintenant ça fonctionne. Je vais enlever l’espace dans le code pour éviter ce problème à l’avenir. Pamputt ^[Discuter] 12 octobre 2011 à 10:07 (UTC)Répondre

lien vers la langue concernée

Dernier commentaire : il y a 13 ans6 commentaires5 participants à la discussion

Bonjour, Un truc que je trouve super serait de remplacer dans la colonne langue le modèle langue (par exemple {{fr}}) par : [[:Catégorie:{{fr}}|{{fr}}]] ce qui permettrait de pointer en cliquant dessus directement vers la page d’accueil de la langue concernée. (Et si on pouvait aussi changer pour des couleurs moins flashy ….) Unsui Discuter 11 octobre 2011 à 08:19 (UTC)Répondre

Oui c’est tout à fait possible, je vais ajouter ça tout de suite. Pour les couleurs moins flashy par contre je ne sais pas trop par quoi les remplacer. Pamputt ^[Discuter] 12 octobre 2011 à 08:06 (UTC)Répondre

Pour les couleurs, laisse tomber car en effet c’est une question de goût. Pour le lien c’est par contre franchement intéressant et ça deviendra même la méthode la plus rapide pour aller voir plusieurs langues rapidement. Unsui Discuter 12 octobre 2011 à 08:26 (UTC)Répondre

~~De quelle "colonne langue" parlez-vous exactement ? — Dakdada (discuter) 12 octobre 2011 à 09:09 (UTC)~~ Euh non c’est bon en fait… et oui c’est une bonne idée, même si la page devient encore un peu plus lourde. — Dakdada (discuter) 12 octobre 2011 à 09:10 (UTC)Répondre

Rah la la, copier-coller, c’est trop compliqué :-) --Moyogo (discuter) 12 octobre 2011 à 09:11 (UTC)Répondre

Est-ce qu'il serait possible d'indiquer aussi le code de la langue ? Ça permettrait de réutiliser plus facilement les données dans un tableur. Moyg 9 novembre 2011 à 08:57 (UTC)Répondre

Doublons

Dernier commentaire : il y a 12 ans5 commentaires3 participants à la discussion

Bonjour et merci pour toutes ces stats.

Je viens de trouver des "doublons" dus aux redirections de modèles. Certaines langues sont indiquées plusieurs fois et je suppose qu'il faut additionner chacune de leurs apparitions :

~~cantonais~~
~~haïtien~~
minnan
occitan
~~vieux slave~~
~~võro~~
coréen (hanja) (mise à jour du 11 mai 2012)

Moyg 9 novembre 2011 à 09:03 (UTC)Répondre

Merci d’avoir signalé ceci. Je vais essayé d’uniformiser tout cela avant le prochain dump. Comment as-tu détecté ces doublons ? Pamputt ^[Discuter] 9 novembre 2011 à 09:20 (UTC)Répondre

Je cherchais des données sur les langues régionales et j'ai trouvé plusieurs occitans.

Techniquement : j'avais les données dans un tableur, je n'avais plus qu'à faire un tri alphabétique des langues et faire un test (par exemple si les langues sont en colonne A, tu fais =IF(A3=A2;1;0) en B3, tu copies ta formule jusqu'en bas et tu cherches les 1). Du coup il y a peut-être des doublons non détectés si l'orthographe varie légèrement (espace, accent...).

Moyg 9 novembre 2011 à 12:39 (UTC)Répondre

Pour le coréen (hanja), le problème devrait être résolu lors de la prochaine mise à jour. Le problème vient du fait qu’il semble que JackBot n’avait pas fini de tout harmoniser. Pamputt ^[Discuter] 15 mai 2012 à 11:06 (UTC)Répondre

Pour le coréen, c'est plus qu'un doublon, c'est un triplet ! Il y a le coréen et deux fois le « coréen (hanja) », c'est pourtant la même langue. Cdlt, VIGNERON * ^discut. 16 mai 2012 à 12:15 (UTC)Répondre

malgache

Dernier commentaire : il y a 13 ans2 commentaires2 participants à la discussion

d’après Catégorie:malgache, on a 24000 pages en malgache. Le chiffre dans le tableau quant à lui est ridiculement faible : il y a une explication rationnelle ? Merci Hector 3 janvier 2012 à 17:38 (UTC)Répondre

Oui, le tableau de stats a été mis à jour juste avant que Jagwar (d · c · b) ne lance son bot qui ajoute justement des entrées en malgache. Les chiffres du malgache seront plus proches de la réalité lors de la prochaine mise à jour. Pamputt ^[Discuter] 3 janvier 2012 à 17:47 (UTC)Répondre

ok, merci !

Adjectifs numéraux.

Dernier commentaire : il y a 12 ans4 commentaires3 participants à la discussion

Bonjour,

Je me pose une question. En comptant les adjectifs, compte-t-on également les variantes des adjectifs, comme les adjectifs numéraux. En roumain, le nombre d'adjectif a baissé et tout ce que j'ai fait c'est de passer quelques nombres mal classés de {{-adj-}} à {{-adj-num-}}. Fenkys (discussion) 14 mars 2012 à 06:29 (UTC)Répondre

Bonjour Fenksys, en effet d’après ce que je comprends du script de Jona (que j’utilise), seules les entrées qui ont explicitement {{-adj-}} (et pas {{-adj-num-}}, ...) sont comptabilisés. On pourrait peut-être revoir le script pour qu’il prenne en compte ta remarque. Pamputt ^[Discuter] 14 mars 2012 à 06:37 (UTC)Répondre

Je découvre l'existence de -adj-num-. Supprimer ce modèle serait aussi une possibilité. Lmaltier (discussion) 14 mars 2012 à 06:40 (UTC)Répondre

Les nombres sont si particuliers qu'ils mériteraient une place à part. Certains sont des adjectifs, d'autres des noms, d'autres encore existent sous les deux formes un adjectif et un nom. Sans compter la différence cardinal/ordinal.Fenkys (discussion) 14 mars 2012 à 09:51 (UTC)Répondre

Nombre d'articles

Dernier commentaire : il y a 12 ans3 commentaires2 participants à la discussion

Bonjour, En regardant les historiques, je m’aperçois que le nombre d’articles (dans le titre au début du tableau) n’évolue pas dans le temps quand on consulte les statistiques des mois passés. Il semble que c’est parce qu’il uitilise une variable donnant le nombre d’articles du moment même si l’on consulte l’historique de janvier par exemple. Ne pourrait-on pas le gérer autrement de façon à garder chaque mois la valeur du moment correspondante (en ce moment, le nombre d’articles est à 2 224 914 aussi bien pour le mois d’août que pour le mois de février dernier) ? Unsui Discuter 21 août 2012 à 13:58 (UTC)Répondre

Bonjour Unsui, si tu parles des chiffres dans la section « Progression actuelle », alors oui ils sont générés automatiquement. Pour avoir le nombre de mots à un moment donné il faut consulter le bas du tableau. Attention il s’agit du nombre de mot, pas d’article. C’est-à-dire que s’il y a plusieurs sections de langues dans un article ça comptera pour autant de mots. Pamputt ^[Discuter] 22 août 2012 à 05:52 (UTC)Répondre

Salut Pamputt, oui, je sais bien puisque j’avais écrit un programme temporaire à ce sujet. Mais je que j’aurais aimé, c’est en effet de connaître le nombre d’articles des mois passés. De toute façon ce n’est pas très normal d’afficher le nombre d’articles d’aujourdhui dans l(historique de février dernier par exemple. Bon, Ce n’est absolument pas important. Je peux en effet partir du nombres de mots qui lui, bien sûr, est correct à chaque fois. Je voulais juste le signaler et s’il y avait eu un truc simple pour avoir le nombre d’articles correct des mois passés (que le programme qui constitue ces stats fournirait à chaque fois à l’instar des autres nombres) j’étais preneur. T’en fais surtout pas c’est peanuts

. Unsui Discuter 22 août 2012 à 07:53 (UTC)Répondre

Erreurs

Dernier commentaire : il y a 12 ans4 commentaires2 participants à la discussion

Il y a les modèles inexistants grc= et eo= présent dans le tableau. Je n’ose pas les retirer, de peur de tout casser, mais ça fait plutôt moche. Quelqu’un serait d’où vient le problème et serait en mesure de le résoudre ? Sinon il y a aussi le problème de la langue « coréen (hanja) » qui apparait deux fois dans le tableau mais avec évidemment des valeurs différentes. V!v£ l@ Rosière ^{/Murmurer…/} 9 octobre 2012 à 07:21 (UTC)Répondre

Ah oui je n’avais pas vu grc= et eo=. Il faut que je regarde le code car il doit y avoir un bogue quelque part, hmmm. Pour le coréen hanja, c’est parcequ’il utilise deux codes différents ({{ko-Hani}} et {{ko-hanja}}). Il faudrait remplacer l’un des deux modèles par l’autre. Par ailleurs, je ne connais pas le coréen mais on pourrait s’interroger sur la présence de cette langue ; n’est ce pas tout simplement du coréen ? Pamputt ^[Discuter] 9 octobre 2012 à 07:37 (UTC)Répondre

Bah en gros si mais il semble que l’écriture hanja est dépréciée et soit devenue désuète (au moins en Corée du Sud) après en ce qui concerne le Nord on dirait que c’est encore utilisé. La fusion entrainerait les mêmes problèmes de classement que le japonais, vaut mieux donc avoir l’avis de Shinji. V!v£ l@ Rosière ^{/Murmurer…/} 9 octobre 2012 à 14:33 (UTC)Répondre

Pur info les codes eo= et grc= devraient avoir disparu dans la prochaine mise à jour. Pamputt ^[Discuter] 2 décembre 2012 à 10:08 (UTC)Répondre

Compte total présenté par le tableau

Dernier commentaire : il y a 11 ans3 commentaires2 participants à la discussion

Bonjour,

Le tableau indique 2 460 071 entrées récemment, mais la section Progression actuelle en indique 120 000 de moins. Est-ce normal ? Automatik (discussion) 16 avril 2013 à 16:49 (UTC)Répondre

Bonjour, la différence provient probablement du fait que « Progression actuelle » compte le nombre d’articles tandis que le compte donné dans le tableau compte chaque « section ». Par exemple, si un article compte deux sections « noms », une section « adjectif » et une section « flexion de verbe » alors il comptera pour 4 dans le tableau. Pamputt ^[Discuter] 16 avril 2013 à 17:21 (UTC)Répondre

Ça marche

Automatik (discussion) 16 avril 2013 à 17:31 (UTC)Répondre

Apparition de langues bizarres...

Dernier commentaire : il y a 11 ans4 commentaires3 participants à la discussion

…comme le Mickey Mouse, le Leeds, le Lucy, le Glagolitic, etc. Je suppose que c’est dû à du vandalisme, mais cachez où ? V!v£ l@ Rosière ^{/Murmurer…/} 26 avril 2013 à 08:38 (UTC)Répondre

Salut, ce n’était pas du vandalisme mais un bogue de JAckBot. Ces « langues » devraient donc disparaitre à la prochaine mise à jour. Pamputt ^[Discuter] 26 avril 2013 à 12:07 (UTC)Répondre

On peut trouver la liste complète dans Catégorie:Modèles de langue sans code (déjà vidée apparemment). — Dakdada 26 avril 2013 à 19:37 (UTC)Répondre

Dacodac. V!v£ l@ Rosière ^{/Murmurer…/} 26 avril 2013 à 21:16 (UTC)Répondre

Stats avec Lua

Dernier commentaire : il y a 11 ans4 commentaires2 participants à la discussion

Bonjour,

Apparemment, les langues ajoutées en Lua n’ont plus de modèle associé (logique), donc ça crée un mauvais lien dans la liste des langues (ex : [[:catégorie:Modèle:bzx|Modèle:bzx]]). Je ne sais pas si le bogue est facilement résolvable. Automatik (discussion) 18 juin 2013 à 19:06 (UTC)Répondre

Il suffit de remplacer {{nzx}} par {{nom langue|bzx}}. Il faut que le script qui créée la page soit mis à jour du coup. — Dakdada 18 juin 2013 à 19:16 (UTC)Répondre

Bon, la page est alourdie, forcément, mais il semble qu'on gagne quelques secondes (42s -> 30s, comparaison avec 1 échantillon de chaque :P). — Dakdada 18 juin 2013 à 19:34 (UTC)Répondre

C’est bon ça, les effets du Lua commencent à se faire voir

Automatik (discussion) 18 juin 2013 à 20:19 (UTC)Répondre

Nombre de pages contenant au moins une entrée en français

Dernier commentaire : il y a 11 ans5 commentaires3 participants à la discussion

Bonjour,

En lisant les en-têtes des colonnes du tableau des stats, je vois qu’il y a 237 263 lemmes (indiqué comme "total - flexions"). Quelqu’un pourrait-il me dire comment est fait ce calcul ? Mon analyse de dump m’a donné 260 000 pages pour le français (hors pages qui ne contiennent rien d’autre qu’une (ou des) flexion(s) en français), et il s’agit du dump du 1^er juillet (donc à peu près au même moment si ce n’est au même).

Au cas où, je pose ci-dessous le regex que j’ai utilisé pour lister les pages :

\{\{-(?:abr|adj(?:ectif|-dém|-excl|-indéf|-int|-num|-pos)?|adv(?:erbe|-int|-pron|-rel)?|aff
|art(?:icle|-déf|-indéf|-part|-pers)?|conj(?:-coord)?|dét|faux-prov|inf|interf|interj(?:ection)?|lettre
|nom(?:-fam|-pr|-propre|-sciences)?|num(?:ér|éral)?|onom(?:a|atopée)?|part(?:icule|-num)
|post(?:position)?|préf(?:ixe)?|prénom|prép|pronom(?:-adj|-dém|-indéf|-int|-pers|-personnel|-pos|-rel)?
|prov(?:erbe)?|radical|suf(?:fixe)?|symb(?:ole)?|verbe?|loc(?:-[^-]+)?)-\|fr\}\}

(Avec le regex \{\{-[a-zé-]+-\|fr\}\}(?<!\{\{-flex-[a-zé-]+-\|fr\}\}), j’en obtiens 1000 de plus, dues aux sections -var-ortho- et -erreur- non prises en compte précédemment.)

J’avoue na pas trop comprendre, pourquoi cette différence avec la page de stats (il devrait y en avoir moins, puisque je liste les pages et non les entrées) ? En vous remerciant par avance, Automatik (discussion) 10 juillet 2013 à 23:11 (UTC)Répondre

Bonjour Automatik, le nombre de « lemmes » correspond simplement au nombre total d’entrées moins le nombre de flexions. Donc tu as raison que tu devrais en trouver moins que le nombre actuellement indiqué dans le tableau. Je n’ai malheureusement pas le temps d’investiguer ça pour le moment mais le code utilisé pour faire les stats est dispo sur la page de Jona. Pamputt ^[Discuter] 11 juillet 2013 à 05:34 (UTC)Répondre

J’ai le sentiment que le script de Jona ne prend pas en compte un certain nombre de types de mots : tous les {{-adj-dém-}}, {{-adj-num-}}, {{-art-part-}}, {{-art-pers-}}, {{-abr-}}, etc. De plus, j’ai l’impression qu’il déduit le nombre de flexions à partir du nombre de ({{langue}} - modèle pris en compte), n’est-ce pas ?

D’ailleurs la ligne :

                        elif (s[0].find("loc") == 0):
                                        ltype.append([("loc",),currentLang])

est-elle censée récupérer les locutions ? J’ai l’impression qu’avec ce code seules les {{-loc-|…}} sont pris en compte, et non pas les {{-loc-adj-}}, etc. (donc l’essentiel).

Finalement, en enlevant de l’analyse les modèles non pris en compte par Jona, et les locutions, j’en arrive à un nombre similaire (ce qui n’est toujours pas très logique). Il y a d’autre part un type de mot dans le code qui ne me paraît pas avoir sa place ici :

                        elif s[0] == "pron":
                                        ltype.append([s,currentLang])

Avec plus loin :

                        elif s[0] == "pronom":
                                        ltype.append([("pron",),currentLang])

alors que {{-pron-}} n’est pas un type de mot (par contre {{-pronom-}} si). Automatik (discussion) 11 juillet 2013 à 18:16 (UTC)Répondre

Beau travail d’analyse de code Automatik. Pour ma part, j’avoue ne pas m’être penché plus que ça sur le code. Donc si tu penses pouvoir améliorer son script, n’hésites surtout pas à le modifier. Je m’en servirai pour générer les prochaines stats. Pamputt ^[Discuter] 11 juillet 2013 à 18:22 (UTC)Répondre

Après la rétro-ingénierie vient le refactoring. JackPotte ($♠) 11 juillet 2013 à 19:23 (UTC)Répondre

Colonne "classement" fixe

Dernier commentaire : il y a 11 ans6 commentaires3 participants à la discussion

Bonjour, que pensez-vous de ne pas rendre triable la colonne « Classement » ? L’intérêt c’est que les numéro ne bouge pas. Acutellement, si on veut regarder le classement d’une langue non pas en fonction du nombre d’entrée totale mais de son nombre de lemme (par exemple), on clique sur la flèche « Lemme » et toutes les colonnes bougent en même temps, y compris la colonne classement. Si on la rend fixe, ça permettrait de savoir directement quelle langue a le plus (ou le moins) de lemmes. Si ce n’est pas très parlant, j’ai fait un test sur Utilisateur:Pamputt/test. Ça mérite quelques améliorations. Par exemple, je ne sais pas comment spécifier la « hauteur » d’une cellule (pour le titre de la première colonne) ce qui explique que « Classement » ne soit pas centré. Pamputt ^[Discuter] 31 août 2013 à 16:48 (UTC)Répondre

C'est pas mal, pour la hauteur voir Aide:Tableau (aide détaillée)#width_et_height sur l’encyclopédie Wikipédia

. JackPotte ($♠) 31 août 2013 à 18:26 (UTC)Répondre

J’ai regardé mais je n’arrive pas à utilisé « height » avec le « ! » qui est utilisé pour le titre des colonnes. Du coup je ne sais pas comment modifier la hauteur d’une cellule de titre. Pamputt ^[Discuter] 5 septembre 2013 à 18:34 (UTC)Répondre

Cela me semble une bonne idée. Lmaltier (discussion) 5 septembre 2013 à 19:25 (UTC) À moi aussi ! Hector (discussion) 8 septembre 2013 à 10:08 (UTC)Répondre

Ça y est, je viens de faire le changement. Petit problème, les colonnes semblent maintenant beaucoup plus large ce qui fait que le tableau « déborde » de mon petit écran à présent. Est ce que quelqu’un saurait comment corriger ce soucis ? Pamputt ^[Discuter] 18 décembre 2013 à 21:01 (UTC)Répondre

En réduisant la police ? JackPotte ($♠) 18 décembre 2013 à 21:28 (UTC)Répondre

Éxactitude des nombres présentés

Dernier commentaire : il y a 11 ans4 commentaires2 participants à la discussion

Il y a comme un souci avec ces stats : pour les langues les plus renseignées, la somme des lemmes ( nom communs + noms propres + adjectifs + verbes + adverbes + loc) affichée est souvent supérieure au nombre de lemmes de la colonne "Lemmes" : Exemple en same du nord : 510 + 108 + 74 + 209 + 20 + 12 = 933. Or le nombre de lemmes indique seulement 602. Si par ailleurs on y ajoute les flexions, on obtient souvent un nombre supérieur au nombre d’entrées (1291680 pour le français alors que le nombre d’entrées indiqué est de 1257936). Il semble que le problème soit que le nombre d’entrées soit en fait le nombre de pages (qui peut contenir plusieurs types de mots pour une langue donnée). On ne peut donc pas calculer le nombre de lemmes comme étant le nombre d’entrées moins les flexions. Si cette hypothèse est la bonne, elle n’explique pas pourquoi le total des entrées en bas du tableau 2527231 est différent du nombre de page 2406000. Je reste perplexe… — Unsui Discuter 4 septembre 2013 à 08:25 (UTC)Répondre

Oui en fait, le nombre total 2527231 est différent du nombre de pages 2406000 à cause des pages qui contiennent plusieurs langues. Quand à ce qui concerne les lemmes, il faudrait, amha, supprimer la colonne "ébauches" dont l’utilité ici n’est pas évidente et qui de plus prête à confusion car les entrées correspondantes sont déjà comptabilisées ailleurs (par exemple dans les noms communs, verbes, etc.) et renseigner 2 colonnes supplémentaires : une "nombre total de définitions" et une "lemmes divers" et calculer le nombres de lemmes soit comme la somme des colonnes représentant les lemmes soit comme la différence entre le nombre total de définitions et les flexions (normalement cela devrait théoriquement donner la même chose). — Unsui Discuter 4 septembre 2013 à 09:03 (UTC)Répondre

Salut, je pense que ça rejoins la discussion du dessus. Malheureusement, je n’ai pas encore trouvé le courage pour me pencher sur le code python du script de Jona… Pamputt ^[Discuter] 4 septembre 2013 à 09:54 (UTC)Répondre

OK. Je ne pense pas qu’il y ait des tonnes de boulot mais je n’ai pas envie non plus de m’y coller, ne connaissant pas le python et ayant, comme tout le monde, des tas de casseroles sur le feu

. — Unsui Discuter 4 septembre 2013 à 10:44 (UTC)Répondre

problème du décompte de la colonne "lemmes"

Dernier commentaire : il y a 11 ans3 commentaires2 participants à la discussion

Il y a un souci dans le calcul du nombre de lemmes dans la version actuelle (maj du 22 janvier 2014). Par exemple en occitan les flexions sont actuellement fort peu nombreuses, et le nombre total de mots est proche du nombre de lemmes, hors le tableau indique actuellement environ 50% de flexions (comparer avec la version du 7 janvier). Même souci dans mes principales langues de travail (espagnol, catalan et ancien occitan). Xic667 27 janvier 2014 à 21:19 (UTC)Répondre

Bonsoir, le problème est connu. Le problème vient du fait que le code ne tient pas compte de la nouvelle syntaxe des articles (modèle {{S}}) (voir ma page de discussion). Unsui est en train de travailler dessus. Pamputt ^[Discuter] 27 janvier 2014 à 21:35 (UTC)Répondre

Tout simplement, merci de la réponse

Xic667 27 janvier 2014 à 21:40 (UTC)Répondre

Nouvelle version

Dernier commentaire : il y a 11 ans11 commentaires5 participants à la discussion

Bonjour,

J’ai mis en ligne une nouvelle version tenant compte de la migration en cours des modèles relatifs aux types de mots. Il manque encore l’évolution avec les données du dump précédent. Je vais l’ajouter normalement pour la prochaine fois. L’analyse du dump étant différente de celle utilisée précédemment, il y a de petites différences parfois dans les résultats. De plus, les nouveaux modèles {{S|type de mot|code langue}} catégorise automatiquement comme locution tout mot vedette comportant une espace. Ce qui est différent de ce qui était pratiqué auparavant (où des modèles spécifiques {{-loc-type de mot-|code langue}} étaient utilisés. Ce qui induit également des différences. N’hésitez pas à me faire part de vos remarques. Merci d’avance. — Unsui Discuter 28 janvier 2014 à 10:06 (UTC)Répondre

Beau boulot :) Remarquez, je me suis dit qu'on pourrait avoir une page qui utilise les mots magiques comme {{PAGESINCATEGORY:français}} qui donne 2 000 372, mais c’est une fonction coûteuse, ce qui veut dire qu’on ne peut en mettre que 500 par pages (on peut faire ce genre de statistiques sur un portail par contre, ou n’utiliser que certaines statistiques pour certaines langues). — Dakdada 28 janvier 2014 à 10:28 (UTC)Répondre

Pourquoi ne pas lancer le script d'Unsui toutes les nuits depuis un serveur de la fondation ?

Je pourrais le prendre sur mon profil si personne d'autres n'est en mesure de créer la cron. JackPotte ($♠) 28 janvier 2014 à 18:58 (UTC)Répondre

On peut lancer le script automatiquement tous les jours pour vérifier s’il y a un nouveau dump, mais c’est à peu près tout. Par contre avoir une copie des codes d’Unsui sur le Tool Labs serait pas mal (même juste archivé), histoire d’éviter le problème qu’à eu Lmaltier. — Dakdada 29 janvier 2014 à 09:10 (UTC)Répondre

Je mettrai une copie dès que les petits bugs que je suis en train de corriger auront disparu. Mais sinon, j’ai des copies de mes scripts un peu partout (y compris et surtout en cloud). Pour l’instant, je corrige les codes langues qu’a détectés le script, dans les modèles de types de mots quand ils ne correspondent pas à celui de la langue.. — Unsui Discuter 29 janvier 2014 à 09:35 (UTC)Répondre

En ce qui concerne les lemmes d'italien, on est passé de mémoire de ~20000 à 23000. Est-ce dû à l'inclusion des locutions ? Ou à une autre raison ? Merci... Hector (discussion) 29 janvier 2014 à 17:43 (UTC)Répondre

Euh non, les locutions sont décomptées à part (elles ne font pas doublon avec les nombres des autres colonnes). Par contre les lemmes incluent maintenant les noms propres, je ne suis pas sûr que c’était le cas avant. C’est bien sûr discutable. J’attends un peu le résultat de la discussion sur les lemmes qui a lieu justement en ce moment pour m’aligner ensuite sur ce qui sera retenu. (Amha, ce sera à prendre avec des pincettes, la notion de lemmes étant une notion grammaticale propre à chaque langue et qui résulte des processus de lexicalisation. Bref, ça ne recouvre pas les mêmes choses selon les langues. Par exemple, en français, si "chantons" est une flexion de "chanter", "amicalement" n’est pas une flexion de "amical". Ce qui n’est pas le cas de toutes les langues. Du coup, ça me parait difficile de généraliser et ce de plus automatiquement. Je vais faire une page de présentation pour expliquer ces stats et le mode opératoire. — Unsui Discuter 29 janvier 2014 à 22:34 (UTC)Répondre

OK, merci pour ta réponse. En fait, je viens de remarquer que la somme flexions+lemmes dépassait le total, tjs pour l'italien... Mais ça n'est pas bien grave ... Merci pour ton boulot ! Hector (discussion) 30 janvier 2014 à 17:33 (UTC)Répondre

J’ai vu que tu avais supprimé les proto-langues dans la dernière version. Je pense que c’est une bonne chose mais tu as oublié l’indo-européen commun

Pamputt ^[Discuter] 30 janvier 2014 à 16:49 (UTC)Répondre

Ah oui. OK je vais intégrer ça.

@Hector : là, par contre, c’est normalement correct (j’ai vérifié avec plusieurs langues) : le premier nombre est le nombre de pages; Mais dans une page en italien par exemple, tu peux avoir parfois pour un même mot par exemple un nom et un verbe, ou bien 2 noms (num=1 et num=2) etc. Du coup la somme des noms + verbes + etc dépasse alors le nombre de pages. Ça le fait pour toutes les langues pour lesquelles il y a beaucoup d’entrées. Je compte ajouter prochainement (après la migration) une colonne indiquant le nombre total de définitions par langue. On aura alors enfin : nombre de déf = nombre de lemmes + nombres de flexion + divers (style locutions). Pour l’italien, j’ai pensé depuis, qu’outre l’explication que je t’ai donnée, il y a aussi le fait que le nombre de lemmes était mal calculé dans les stats précédentes (c’était justement dû au problème que je viens d’exposer car on faisait : nombre de lemmes = nombre de pages (et non pas nombre de définitions) - nombre de flexions. Bref ça va finir par le faire comme on dit maintenant.

. — Unsui Discuter 30 janvier 2014 à 20:43 (UTC)Répondre

Une nouvelle version un peu plus détaillée est en ligne. Suite à une remarque de Lmaltier, j’ai modifié les intitulés de colonnes pour qu’ils correspondent un peu mieux à ce qu’ils sont censés représenter et ajouté deux colonnes pour les définitions en séparant celles concernant les flexions dont l’intérêt ne me parait pas très évident. — Unsui Discuter 17 février 2014 à 14:38 (UTC)Répondre

Gentilés

Dernier commentaire : il y a 11 ans7 commentaires5 participants à la discussion

En français on a importé énormément de gentilés (noms communs + adjectifs), si bien que leur nombre peut fausser les comparaisons avec les dictionnaires classiques qui n'en contiennent qu'une petite partie. Ce serait bien donc d'avoir une idée du nombre de ces gentilés. — Dakdada 17 février 2014 à 11:31 (UTC)Répondre

Les gentilés sont des noms communs (avec majuscule), donc un nombre donné. Les adjectifs (avec minuscule) dérivés des gentilés représentent un autre nombre. Lmaltier a rentré automatiquement et avec leur accord les gentilés de www.habitants.fr, des gentilés d'habitants de communes (30.095 au 17 février annoncés sur le site). Il a créé les féminins et les pluriels. Il a créé parallèlement les adjectifs dérivés de ces gentilés, en faisant référence par courtoisie au site précité, avec les féminins et les pluriels. Il faut rajouter tous les gentilés qui ont été mis occasionnellement pour des habitants de pays, de régions, de provinces... -- Béotien lambda ☏ 17 février 2014 à 12:29 (UTC)Répondre

On a 50k adjectifs, si on estime que 30k sont des gentilés, c'est énorme et loin d'être négligeable si on veut comparer avec d'autres dicos. — Dakdada 17 février 2014 à 14:00 (UTC)Répondre

Certes, mais les gentilés sont des noms et non pas des adjectifs (comme le fait remarquer Béo). Comment reconnait-on les gentilés et les adjectifs associés comme par exemple parisien ? — Unsui Discuter 17 février 2014 à 14:43 (UTC)Répondre

La catégorie Gentilés_en_français indique 78000 pages … Pamputt ^[Discuter] 17 février 2014 à 14:56 (UTC)Répondre

Elle rassemble aussi les flexions actuellement. Pour repérer les adjectifs associés à des gentilés comme parisien, je ne vois pas, pour autant il est possible de les cibler pour la majorité en cherchant {{mercihabitants}} dans la page. Une autre méthode pourrait être de chercher le terme capitalisé dans {{voir}} mais il y aura sans doute quelques faux-positifs (comme amateur/Amateur). Ce serait dans tous les cas une approximation du coup, sauf erreur. — Automatik (discussion) 17 février 2014 à 15:11 (UTC)Répondre

Je ne serais pas contre un modèle {{gentilé}} pour marquer les définitions correspondant, ce serait bien pratique pour les traquer. De mon côté, mes scripts détectent les gentilés avec un mélange note-gentilé, merci-habitant, et en cherchant les définitions du type « Habitant de... ». J'en compte 46661 comme ça (noms français), mais ça doit inclure masculin et féminin. — Dakdada 17 février 2014 à 15:54 (UTC)Répondre

Page lourde : réorganiser ?

Dernier commentaire : il y a 10 ans11 commentaires3 participants à la discussion

La page est particulièrement lourde à charger. Ce serait bien de trouver une solution pour alléger la page. Ce qu'on pourrait faire :

Ne garder que les langues avec plus de 1000/100/10 mots dans la page (soit 81, 223 ou 719 lignes sur 3574), et et mettre les autres dans une sous-page ;
Lister toutes les langues ici, mais détailler la composition dans une sous-page (en ne gardant que une ou deux colonnes, comme "total" et "lemmes").

Qu'en dites-vous ? — Dakdada 6 mars 2014 à 14:39 (UTC)Répondre

Oui, j’y ai déjà travaillé. Ce que j’ai fait (pas encore en ligne) : je regroupe toutes les langues qui ont une seule page sur une seule ligne (avec les totaux de chaque colonne correspondants) ce qui diminue la page de moitié. Quand on clique sur cette ligne on a soit le tableau inverse (toutes les langues qui n’ont qu’une seule page précédées d’une ligne pour regrouper toutes les autres) soit le tableau complet comme actuellement (je ne sais quelle est la solution préférable). Dans le 1er cas on ne peut plus faire une recherche de langue en une seule fois, dans le 2ème cas, si on a besoin de voir toutes langues la page reste bien évidemment lourde à charger. (Perso je préfère quand même la 1ère solution). Je vais présenter une maquette. — Unsui Discuter 6 mars 2014 à 15:02 (UTC)Répondre

J’ai divisé la page en deux pages : Utilisateur:Unsui/work d’où on peut se débrancher en cliquant sur "Langues n’ayant qu’une seule page" à Utilisateur:Unsui/work1 (et vice-versa). Merci de donner vos avis. — Unsui Discuter 7 mars 2014 à 14:17 (UTC)Répondre

Je verrais bien plutôt une limite à 10 ou 100 articles. — Dakdada 7 mars 2014 à 15:48 (UTC)Répondre

Les nouvelles statistiques sont super, et puisqu’il est question de long temps de chargement, je m’étais demandé si colorer toute une colonne dans la même couleur était utile. Je trouve qu’une distinction par couleur est compréhensible pour la ligne d’évolution, mais pour les autres, on pourrait alléger en laissant une ligne colorée sur deux si le but est de s’y retrouver en naviguant, par exemple. Ça me semblerait plus logique, mais je peux me tromper. Par contre, ça n’augmente peut-être pas tellement le temps de chargement… — Automatik (discussion) 7 mars 2014 à 17:13 (UTC)Répondre

C’est le temps de chargement qui te soucie (@ Dak) ou la longueur de la page. Car pour moi, sous chrome, les 2 pages se chargent en 4 secondes chacune, ce qui est somme toute acceptable. On pourrait, amha, par contre faire l’impasse sur la colonne "entrées précédentes" puisque l’on a la colonne "évolution". De plus ça réduirait la largeur de la page. Qu’en pensez-vous ; Pour l’alternance de la couleur, je ne suis pas sûr que ça réduise beaucoup le temps de chargement mais je vais la tester. — Unsui Discuter 7 mars 2014 à 21:27 (UTC)Répondre

Personnellement, je suis d’accord pour supprimer la colonne "entrée précédente" pour la raison que tu énonces en effet. Je me suis mal exprimé à propos de la couleur. En fait ce que je voulais dire c’est : est-ce utile d’avoir des colonnes colorées, à part la colonne « Évolution » ? Si c’est pour pouvoir s’y retrouver en utilisant l’ascenseur, alors je proposais l’alternance. Sinon, alors le mieux serait de supprimer simplement ces couleurs sauf pour la colonne « Évolution », et cela devrait faire gagner en même temps un peu de temps de chargement, même si certes pas beaucoup.

Pour le temps de chargement, la page WT:STAT prend actuellement 25 sec. à charger chez moi, Utilisateur:Unsui/work, 12 sec, Utilisateur:Unsui/work1 13 sec., sous Firefox. Déconnecté, les deux dernières prennent 8 sec. chacune à charger. Donc ça dépend beaucoup des configurations. — Automatik (discussion) 8 mars 2014 à 21:17 (UTC)Répondre

OK c’est intéressant. Je vais supprimer la colonne "entrée précédente", je vais enlever un peu de couleur (mais pas tout) et garder dans la première page que les langues ayant au moins 3 pages. Je comprends le désir de Dak mais je pense qu’il ne faut pas trop défavoriser la 2ème page. Si ça reste trop long à charger (je compte sur toi pour m’indiquer le gain obtenu) j’éleverai à nouveau le seuil. Merci à toi en tout cas. — Unsui Discuter 8 mars 2014 à 21:42 (UTC)Répondre

Bon, j’ai supprimé une colonne, enlevé des couleurs et gardé finalement que les langues ayant au moins 5 entrées sur la première page. Si tu pouvais me dire le gain obtenu ça serait super. — Unsui Discuter 8 mars 2014 à 22:41 (UTC)Répondre

Ça reste les résultats obtenus avec ma configuration : 8 secondes pour Utilisateur:Unsui/work et 15 pour l’autre. Ce devrait être un peu plus rapide avec quelqu’un qui a moins de gadgets. — Automatik (discussion) 9 mars 2014 à 12:54 (UTC)Répondre

Bon, j’ai mis les nouvelles stats en ligne en faisant 2 tableaux : langues ayant au moins 5 pages dans le premier et les autres dans le second. J’ai enlevé la colonne "entrées précédentes" puisqu’on a l’évolution et l’historique. J’ai supprimé les appels au module langue (mais le gain semble minime). On peut bien sûr changer également le nombre de pages par langues provoquant la rupture en 2 tableaux comme le suggère Dak. Et si vous avez d’autres suggestions, n’hésitez pas. Merci; — Unsui Discuter 15 mars 2014 à 21:24 (UTC)Répondre

Historique

Dernier commentaire : il y a 9 ans3 commentaires3 participants à la discussion

Y'a moyen qu'on obtienne des courbes au cours du temps ? Où sont archivé ces données ? --Lyokoï (discussion) 26 février 2015 à 17:36 (UTC)Répondre

Je pense qu’il faut se taper l’historique. Je crois qu’il existe des technologies wiki pour tracer directement des graphes mais je n’ai plus le nom en tête des balises. Pamputt ^[Discuter] 26 février 2015 à 18:31 (UTC)Répondre

J’ai ça pour mes courbes perso :

Date - nombre de pages total - nombre de pages en français

25/04/2012	2300682	1172974
11/05/2012	2309054	1176803
02/06/2012	2316559	1179604
21/06/2012	2320773	1180982
20/07/2012	2323038	1181440
29/07/2012	2332676	1186871
07/08/2012	2335885	1188578
27/08/2012	2341000	1190033
16/09/2012	2346990	1192808
07/10/2012	2354347	1195684
25/11/2012	2402125	1203435
05/12/2012	2406211	1205798
26/12/2012	2413686	1210743
14/02/2013	2439982	1231010
13/03/2013	2449519	1236252
08/04/2013	2460071	1240038
26/04/2013	2466008	1241369
15/05/2013	2475624	1243520
03/06/2013	2485487	1244862
16/06/2013	2490581	1246386
02/07/2013	2497078	1247746
18/07/2013	2507729	1252007
09/08/2013	2514106	1256025
19/08/2013	2516339	1257023
29/08/2013	2527231	1257936
12/09/2013	2535879	1262423
24/09/2013	2544040	1267153
10/10/2013	2560219	1280542
23/10/2013	2564529	1283011
07/11/2013	2569081	1284122
23/11/2013	2575528	1285419
07/12/2013	2586355	1287332
23/12/2014	2600149	1290089
07/01/2014	2615739	1293390
22/01/2014	2626126	1294307
10/02/2014	2634421	1297259
26/02/2014	2639911	1298894
15/03/2014	2646943	1300414
31/03/2014	2651482	1302134
18/04/2014	2657356	1303373
19/04/2014	2662798	1305605
13/06/2014	2671302	1309916
04/07/2014	2682088	1318777
30/07/2014	2698744	1331383
21/08/2014	2706283	1336209
01/09/2014	2713899	1339646
06/10/2014	2739160	1341930
02/11/2014	2746756	1343733
01/12/2014	2759180	1349384
05/01/2015	2777477	1362911
25/02/2015	2803516	1382278

Désolé, je ne garde rien d’autres. Pour ce qui manque, il faut, comme le dit Pamputt, reprendre les historiques; — Unsui Discuter 26 février 2015 à 18:58 (UTC)Répondre

Lignes de séparation

Dernier commentaire : il y a 9 ans8 commentaires5 participants à la discussion

Dans le tableau, la ligne de séparation entre langues manque parfois. J'imagine que c'est très facile à corriger. Lmaltier (discussion) 11 mars 2015 à 18:52 (UTC)Répondre

Je crois que c’est un bogue d’affichage. Mais je n’en suis pas absolument sûr. Entre quelle langue et quelle langue vois-tu qu’il manque une ligne de délimitation ? Pamputt ^[Discuter] 12 mars 2015 à 06:47 (UTC)Répondre

Entre les lignes 2 et 3, entre 14 et 15, entre 19 et 20, entre 33 et 34, par exemple. Ce n'est pas systématique, tout à l'heure c'était bon, maintenant c'est mauvais. Mais il semble que, quand il y a problème, ce soit souvent aux mêmes endroits, je suppose donc que, d'une façon ou d'une autre, il y aurait quelque chose à regarder dans le programme qui affiche. Lmaltier (discussion) 12 mars 2015 à 06:56 (UTC)Répondre

C’est bizarre en effet. Je n’ai jamais eu ce problème avec Firefox ni, de mémoire, avec Chrome. Par contre j’ai à certains endroits (en gros toutes les 6 lignes) une ligne de séparation plus épaisse. Mais ça me le fait ailleurs dans les autres tableaux (conjugaisons, etc.). Sinon j’utilise, comme on peut le voir en modificaton, le code standard wiki pour les tableaux. Peut-être que JackPotte ou Automatik aurait une idée à ce sujet. Avec quel navigateur travailles-tu ? — Unsui Discuter 12 mars 2015 à 09:14 (UTC)Répondre

Sur Firefox j'ai toujours vu cette ligne plus épaisse qui n'apparait pas dans le CSS. Ici je la vois toutes les quatre lignes mais ça change selon le zoom. Je croyais que c'était lié au navigateur. JackPotte ($♠) 12 mars 2015 à 09:43 (UTC)Répondre

Ça l’est, c’est une feature de Firefox pour améliorer la lecture de tableau comportant la même séparation un trop grand nombre de fois. (Ce n’est pas le cas si le CSS le fait naturellement). --Lyokoï (discussion) 12 mars 2015 à 11:32 (UTC)Répondre

J'utilise Firefox. Je n'ai pas de traits plus épais mais des traits qui sautent. C'est peut-être du navigateur que ça vient, mais dans ce cas, je considère que ce n'est absolument pas normal. Et je n'ai jamais vu ça ailleurs, alors que j'utilise Firefox à haute dose, y compris pour afficher des tableaux. Lmaltier (discussion) 12 mars 2015 à 21:51 (UTC)Répondre

J’ai aussi le même « problème ». J’ai des lignes de délimitation qui sautent parfois. J’utilise aussi firefox (version 31.5.0 sous GNU/Linux) Pamputt ^[Discuter] 12 mars 2015 à 22:20 (UTC)Répondre

Nombre de lemmes

Dernier commentaire : il y a 9 ans7 commentaires4 participants à la discussion

Je suggérerais de changer la formule, et d'y inclure toutes les entrées, sauf celles qui ne peuvent pas être considérées comme des lemmes, c'est-à-dire les flexions, et peut-être aussi les caractères (je n'ai pas la liste sous les yeux, j'oublie peut-être des cas). Par exemple, que les interjections ne figurent pas dans le chiffre me semble anormal. Lmaltier (discussion) 11 mars 2015 à 18:58 (UTC)Répondre

Je suis d’accord avec Lmaltier, sauf que je pense qu'on peut considérer les caractères comme étant des lemmes (difficile d’écrire autrement un « a » que par un « a » pour parler du « a »…). --Lyokoï (discussion) 11 mars 2015 à 23:53 (UTC)Répondre

Le titre pour les lettres est Lettre, pas Caractère. Pour la virgule, on utilise Symbole. Alors, ce serait peut-être Symbole qu'il faut exclure, si Caractère n'est jamais utilisé dans le cas des langues ? Je ne sais pas trop. Mais l'idée est de tout mettre, sauf certains, au lieu d'avoir une liste positive limitative. Lmaltier (discussion) 12 mars 2015 à 06:48 (UTC)Répondre

« Caractère » n’est effectivement jamais utilisé dans une section de langue, c’est un peu comme « conventions internationales ». — Automatik (discussion) 12 mars 2015 à 12:23 (UTC)Répondre

Ah, oh… mais du coup, « Lettre » c’est dans les lemmes ? --Lyokoï (discussion) 12 mars 2015 à 12:28 (UTC)Répondre

Comme il est écrit sous le tableau : le nombre de lemmes est la somme des noms communs + noms propres + adjectifs + verbes + adverbes. et rien d’autres pour le moment. Mais je veux bien inclure vos propositions. — Unsui Discuter 12 mars 2015 à 15:01 (UTC)Répondre

Je parlais des interjections, mail il y a aussi en français des mots comme un, le, de, que, pour, etc. Autrement des mots parmi les plus courants de la langue. Pourquoi avoir choisi de limiter ainsi ? Lmaltier (discussion) 12 décembre 2015 à 16:27 (UTC)Répondre

évolution

Dernier commentaire : il y a 9 ans3 commentaires2 participants à la discussion

Il y a une colonne évolution, mais évolution depuis quand, on ne sait pas. Il serait bien de l’indiquer. Lmaltier (discussion) 26 septembre 2015 à 15:46 (UTC)Répondre

— Unsui Discuter 26 septembre 2015 à 20:33 (UTC)Répondre

Merci. Lmaltier (discussion) 21 octobre 2015 à 20:44 (UTC)Répondre

Méthode de calcul ?

Dernier commentaire : il y a 9 ans8 commentaires2 participants à la discussion

Je vois pour le français 28704 verbes. Mais la catégorie Verbes en français en compte déjà nettement plus, et en ajoutant les locutions, encore beaucoup plus. Quelle est l’explication ? Comment le nombre indiqué est-il déterminé ? Lmaltier (discussion) 9 décembre 2015 à 22:57 (UTC)Répondre

C’est anormal en effet. Je regarde (ça peut prendre un peu de temps). Pour les locutions, là par contre, c’est voulu et expliqué dans le commentaire en dessous du tableau de stat. — Unsui Discuter 10 décembre 2015 à 10:43 (UTC)Répondre

Bon, ça vient du fait que mon script considère toute entrée (excepté les noms propres) comprenant une espace comme une locution. Ce qui fait que les verbes pronominaux ne sont pas dans les verbes mais dans les locutions. Je vais voir ce que je peux faire. — Unsui Discuter 10 décembre 2015 à 22:01 (UTC)Répondre

@Lmaltier : C’est corrigé pour le français. — Unsui Discuter 11 décembre 2015 à 14:55 (UTC)Répondre

@Unsui : Cette explication montre que le nombre des statistiques était en fait plus significatif que la taille de la catégorie, car les verbes pronominaux font normalement doublon. En ce qui concerne les locutions, il me semble que ce serait mieux de les regrouper avec les noms, verbes, etc. et de supprimer la colonne Locutions. Ce qu’est que mon avis. Un autre choix serait de donner les deux nombres dans la même colonne, ce serait peut-être raisonnable si on se limitait aux cas où il y a des locutions : par exemple, on pourrait avoir simplement, comme actuellement, 5, s’il n’y a pas de locutions ou 50 + 2 loc s’il a des locutions. La place prise en plus serait compensée par la suppression de la colonne Locutions. Lmaltier (discussion) 11 décembre 2015 à 18:26 (UTC)Répondre

@Lmaltier : Normalement, le nombre indiqué dans les statistiques est en effet meilleur que le nombre donné dans les catégories car il décompte précisément chaque appel à un type de mot. Par exemple {{S|verbe|fr|num=1}} suivi de {{S|verbe|fr|num=2}} compte pour 2 dans les stats mais pour 1 dans la catégorie ce qui explique que le nombre dans les stats pour un type de mot donné devrait toujours être supérieur ou égal au nombre indiqué dans sa catégorie. Pour les locutions, les inclure est évidemment très facile mais cela implique de comptabiliser comme verbes des trucs comme se mettre le doigt dans l’œil, se mettre le doigt dans l’œil jusqu’au coude, etc, etc. Perso, je suis contre et c’est pourquoi je ne l’ai pas fait. Si on veut, un tant soit peu, comparer le wiktionnaire avec d’autres dictionnaires, ce n’est évidemment pas la meilleure solution. Pour ta 2ème proposition, je ne sais pas trop et surtout je ne comprend pas bien. 50 + 2 loc, tu veux dire dans la colonne verbe par exemple. (Et aussi, je suppose alors, dans toutes les colonnes puisqu’il y a des locutions pour tous les types de mots). Du coup, ça augmente singulièrement la taille du tableau, même en tenant compte de la suppression de la colonne "locution". Mais peut-être n’ai je pas compris ce que tu veux dire.— Unsui Discuter 11 décembre 2015 à 20:36 (UTC)Répondre

Oui, c’est bien ce que je voulais dire. C’est vrai que ça augmenterait la taille du tableau, mais il faut tenir compte du fait que des locutions, nous n’en avons pas pour toutes les langues, très loin de là, et qu'on pourrait éventuellement mettre un saut de ligne avant le nombre de locutions si ça semble mieux. Lmaltier (discussion) 11 décembre 2015 à 20:45 (UTC)Répondre

Nous n’avons pas de locutions actuellement pour beaucoup de langues car elles ne figurent pas souvent dans les dictionnaires (surtout ceux en ligne) et qu’il faut donc parler la langue pour les connaitre. Sinon, je pense qu’il y en a dans toutes les langues (en tout cas dans toutes celles que je connais, même en inuktitut, langue pourtant hyper agglutinante, on arrive a en avoir quelques unes). Ce qu’il faut considérer, amha, c’est que déjà, je ne connais pas d’autres dictionnaires qui donnent autant de d’infos sur son contenu. (et il n’y a pas photo). Certes, on peut toujours faire mieux. Mais dans un premier temps je pense que c’est déjà assez significatif. Malgré tout je reste disponible si un consensus se fait sur des points précis à améliorer. — Unsui Discuter 11 décembre 2015 à 21:03 (UTC)Répondre

Nombre d'entrées ayant une traduction par langue

Dernier commentaire : il y a 9 ans7 commentaires3 participants à la discussion

Bonjour, Je pense qu'il serait intéressant d'ajouter une colonne sur le nombre d'entrées ayant une catégorie:Traductions en... par langue afin de se rendre compte de la différence entre le nombre d'entrée par langue et le nombre de traductions ajoutés. EN effet bien souvent les articles ne sont pas liés et je pense qu'avec cette stat on pourrait avoir des surprises. Otourly (discussion) 12 décembre 2015 à 08:44 (UTC)Répondre

@Otourly : Désolé, je ne comprends pas très bien ce que tu souhaites. La colonne "nombre de traductions total" donne déjà une idée du nombre présent dans catégorie:Traductions en... . la différence éventuelle est expliquée en bas du tableau de stat. Ce que tu souhaiterais serait-il d’ajouter le nombre d’entrées pour chaque langue (que l’on trouve dans le tableau de stat générale) ? Peut-être pourrais-tu me donner un exemple, sur une langue avec peu d’entrées, de ce que tu veux, que je puisse me faire une idée. Merci d’avance. — Unsui Discuter 12 décembre 2015 à 13:37 (UTC)Répondre

Comme je le comprends, ce qui est demandé est, pour chaque langue étrangère, le nombre (ou mieux, le pourcentage) d'entrées (hors flexions évidemment) non référencées par les traductions. C'est l'autre statistique évidente qu'on peut tirer des relations traductions-entrées, et qui peut effectivement être utile. --Nicasser (discussion) 17 janvier 2016 à 07:04 (UTC)Répondre

C’est un peu délicat tel que c’est écrit pour l’instant. On peut toutefois croiser les stats générales avec celles sur les traductions et obtenir un chiffre approximatif en faisant :
(Nb entrées - Flexions - liens bleus) / (Nb entrées - Flexions). Exemple pour l’anglais : (131159 - 90021 - 31941) / (131159 - 90021) = 22,3 % — Unsui Discuter 17 janvier 2016 à 15:21 (UTC)Répondre

@Otourly : J’ai modifié le tableau en conséquence (du moins je l’espère). — Unsui Discuter 26 janvier 2016 à 14:15 (UTC)Répondre

@Unsui : Je dois pas regarder au bon endroit, mais en tout cas j'ai fait de mon coté une petite stat basée sur les catégories : Portail:Italien/statistiques. Otourly (discussion) 26 janvier 2016 à 16:11 (UTC)Répondre

@Otourly : Normalement, c’est là

. — Unsui Discuter 26 janvier 2016 à 16:28 (UTC)Répondre

Traductions : question et autres stats

Dernier commentaire : il y a 9 ans5 commentaires3 participants à la discussion

Bonjour. La question que je me pose depuis que j'ai vu le tableau est de savoir si un lien est considéré comme "bleu" non seulement s'il pointe vers une page existant ici, mais aussi si cette page contient réellement une section pour la langue en question. La remarque "On trouve 640980 traductions dont 520477 distinctes. Pour celles-ci, il est vérifié l’existence de la page dans la langue concernée (hors flexions)" est un peu floue : cela veut-il dire qu'il est vérifié l'existence d'une section pour la langue concernée sur la page liée, ce qui donne des stats plus correctes ?

J'aimerais également faire trois suggestions concernant les stats sur les traductions :

Ajouter un pourcentage "liens bleus"/total, beaucoup plus parlant qu'un couple de nombres et surtout triable dans le tableau.
Ajouter une stat "liens bleus"/"liens rouges" pour les liens vers les autres wiktionnaires (pourcentage de "trad+").
Pourquoi pas une stat qui combine liens "internes"/"externes", ç-à-d quel est le pourcentage de traductions dont l'entrée n'existe ni ici ni sur l'autre wiktionnaire ? Et un listing de ce vocabulaire en langues étrangères non décrit sur aucun Wiktionnaire, pour détecter éventuellement erreurs et vandalismes et déterminer du travail à faire en priorité ?

Merci. --Nicasser (discussion) 17 janvier 2016 à 07:39 (UTC)Répondre

Oui, évidemment, il est vérifié pour une traduction dans une langue donnée que, pour qu’un lien soit bleu, la page existe avec une section de langue correspondante. Pour le reste, mis à part le pourcentage "liens bleus"/total, je n’ai malheureusement pas le temps de me pencher sur de nouveaux développements, surtout que cette stat, qui n’existe sur aucun autre wiki, demande de nombreuses heures pour être constituée. Je ne la fais d’ailleurs pas systématiquement. Comme la patrouille me prend déjà une grande partie de la journée, mes contributions persos pourtant réduites à une seule langue en ce moment faute de temps, le reste de la journée, il m’est difficile d’envisager un surcroit de travail pour l’instant. — Unsui Discuter 17 janvier 2016 à 14:40 (UTC)Répondre

@Nicasser : J’ai ajouté deux colonnes tenant compte de vos remarques. — Unsui Discuter 26 janvier 2016 à 14:16 (UTC)Répondre

C’est super intéressant ! Est-ce que tu aurais cinq minutes pour mettre en valeur ton travail pour le prochain numéro d’Actualité, le journal d’information sur le Wiktionnaire. Je veux bien essayer de m’en occuper, puisque j’ai déjà ajouté récemment tes statistiques sur les citations, et essayé un nouveau truc sur les thésaurus avec Benoît, mais je pense que tu as une vision plus claire des résultats et de ce qu’il serait intéressant de proposer. Si tu as du temps d’ici la fin du mois, ça serait super, sinon pour un autre mois, il n’y a pas d’urgence ! Si tu n’as pas envie du tout, n’hésite pas à me le dire, je ne le prendrai pas mal

Noé/Eölen 26 janvier 2016 à 15:30 (UTC)Répondre

Et il l’a fais ! Un joli paragraphe à retrouver dans l’Actualités n°10 de janvier 2016

Noé/Eölen 1 février 2016 à 21:39 (UTC)Répondre

Bargraphe

Dernier commentaire : il y a 8 ans28 commentaires6 participants à la discussion

Bonjour, je me suis essayé de faire un bargraphe des dix premières langues (voir ci-après). Par contre je diviserais bien l'échelle pour montrer davantage les écarts, et je ne comprends pas pourquoi l'espéranto me joue ainsi des tours... Si quelqu'un veut bien jeter un œil et l'améliorer; merci ! Otourly (discussion) 31 janvier 2016 à 18:29 (UTC)Répondre

Titre

0

75

français (2000372)

30.6

18.5

russe (205514)

3.1

bulgare (155923)

2.4

anglais (175934)

2.7

espagnol (210197)

3.2

latin (98079)

1.5

slovène (81225)

1.2

espéranto (151213)

2.3

same du Nord (720742)

11

italien (1192031)

18.2

Actuellement il n’y a aucune échelle mise en place, puisque la largeur des cases dépend uniquement de leur contenu (voir l’espagnol qui fait la même taille que la ligne précédente, pas seulement l’espéranto). La première chose à faire àma, c’est peut-être expliquer que signifie {{PAGESINCATEGORY:italien:R}}, je n’ai pas trouvé où cette notation est documentée (le :R, d’où vient-il ?). — Automatik (discussion) 31 janvier 2016 à 19:22 (UTC)Répondre

PAGESINCATEGORY est un MagicWord et le « :R » semble nécessaire pour que l'expression fonctionne... Otourly (discussion) 1 février 2016 à 06:31 (UTC)Répondre

Testons :

{{#expr:{{PAGESINCATEGORY:russe|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}

5

{{#expr:{{PAGESINCATEGORY:espéranto|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}

3

{{#expr:{{PAGESINCATEGORY:italien|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}

27

{{#expr:{{PAGESINCATEGORY:slovène|R}}*150/{{NUMBEROFARTICLES:R}} round 0}}

2

Hum Otourly (discussion) 1 février 2016 à 11:09 (UTC)Répondre

Il y a donc bien une erreur de syntaxe pour commencer, c’est

{{#expr: {{PAGESINCATEGORY:italien|R}} }}

et non {{#expr: {{PAGESINCATEGORY:italien:R}} }}, avec le pipe. — Automatik (discussion) 1 février 2016 à 13:38 (UTC)Répondre

Pour le R c'est expliqué là : mw:Help:Magic_words/fr même on peut pas dire que c'est très clair... Otourly (discussion) 1 février 2016 à 16:19 (UTC)Répondre

Merci, c’était bien caché. Le problème de la présentation ci-dessus est que les noms de langues, les nombres d’entrées, sont inscrits directement dans la barre, l’obligeant à avoir une longueur minimum (au-dessous de laquelle plus aucune distinction n’est faite entre les différentes barres). Pourquoi ne pas sortir ces informations en dehors de la barre, voire même utiliser l’extension ad hoc pour créer des histogrammes (on en parlait dans Wiktionnaire:Questions techniques/juin 2015#Tracer un graph) :

— Automatik (discussion) 1 février 2016 à 21:56 (UTC)Répondre

(NB : le nombre d’entrées est censé s’afficher au survol de la souris, mais perso je n’arrive à le voir qu’en prévisualisation — Automatik (discussion) 1 février 2016 à 21:58 (UTC))Répondre

Pareil pour moi, je ne vois le nombre d’entrées qu’en mode de prévisualisation. Dommage car j’aime beaucoup les graphiques que vous essayez de produire ! Ils agrémenteront très bien le prochain numéro des Actualités ! Une fois la forme trouvée, est-ce que vous pensez qu’il serait possible de faire la même opération sur le projet anglophone afin d’observer les différences de comportements entre eux et nous ? Je crains qu’il ne soit pas à notre avantage, mais je n’en sais trop rien, et je suis curieux de voir ce que ça pourrait donner

Noé/Eölen 1 février 2016 à 22:27 (UTC)Répondre

Il ne serait pas possible de mettre une échelle logarithmique ? Certes ça fausse les proportions mais on y gagnerait en lisibilité. Dommage qu'on ne puisse pas ajouter les fonctions parser PAGESINCATEGORY car du coup ce n'est pas automatique...

@Noé : on peut bien évidement faire le même traitement pour la version anglophone, malgache et cie. Otourly (discussion) 2 février 2016 à 05:25 (UTC)Répondre

Bon le premier ressemble enfin à quelque chose ! Otourly (discussion) 2 février 2016 à 16:30 (UTC)Répondre

Ah ouais ! C’est bien ! Et pour continuer à demander des trucs sans apporter du tout mon aide au développement (mais je fais d’autres trucs alors je culpabilise pas trop), est-ce que tu crois qu’il serait possible de diviser chaque barre en deux couleurs, en distinguant les bases lexicales des flexions ? C’est à dire les mots de sens plein des formes fléchies qui ne sont que des formes différentes pour une racine (le pluriel, les formes conjuguées, les déclinaisons, etc.) Merci d’avance

Noé/Eölen 2 février 2016 à 16:43 (UTC)Répondre

@Noé : un petit test sur le français et uniquement la catégorie:Formes de verbes en français en effet il n'y a pas de catégorie contenant toutes les flexions.

Par contre, si on fait la somme de toutes les catégories de flexions séparément on pourrait les compter plusieurs fois et ainsi faire des double-compte (triple et plus) et probablement le pourcentage ne signifie pas grand chose. De plus PAGESINCATEGORY compte aussi les sous-catégories (certes y'en a pas non plus des masses et ça donne un bon apperçu...

En fait pour avoir de bonnes statistiques, il faudrait compter toutes les sections grammaticales des entrées... Otourly (discussion) 2 février 2016 à 17:09 (UTC)Répondre

Oui oui, mais c’est déjà ce que fait Unsui dans le tableau des statistiques générales, donc ces informations là sont déjà disponible, non ?

Noé/Eölen 2 février 2016 à 17:18 (UTC)Répondre

En effet,

@Unsui : peut utiliser ça pour mettre en graphique les données de la page d'à coté mais on aura pas l'actualisation automatique ;) Otourly (discussion) 2 février 2016 à 17:30 (UTC)Répondre

Oui, mais qui a vraiment besoin de ce genre de graphique en temps réel ? Déjà qu’aucun wiki n’a autant de stats qu’ici. Prendre garde également de bien comprendre de quoi on parle : PAGESINCATEGORY renvoie, je suppose, un nombre de pages (qui était souvent faux auparavant, mais ça a l’air d’être corrigé maintenant), les stats géné un nombre d’entrées. Une page peut contenir pour une langue donnée plusieurs lemmes et/ou plusieurs flexions. Sinon, je signale que je mets à disposition un fichier texte des nombres des stats géné ici, normalement chaque mois (quand je n’oublie pas

). On peut donc l’intégrer dans un tableur et en tirer une pelleté de graphiques. — Unsui Discuter 2 février 2016 à 18:14 (UTC) En plus, il y a les historiques qui permettent de remonter dans le temps. — Unsui Discuter 2 février 2016 à 18:35 (UTC)Répondre

J’ai modifié les histogrammes ci-dessus pour qu’ils affichent le nombre d’entrées sur demande. Et pour répondre à Dommage qu'on ne puisse pas ajouter les fonctions parser PAGESINCATEGORY car du coup ce n'est pas automatique, oui, on peut utiliser ces fonctions (fait ci-dessus). — Automatik (discussion) 2 février 2016 à 22:14 (UTC)Répondre

@Automatik : Excellent ! j'ai fait une petite modification comme indiquée sur la page d'aide de MediaWiki pour exclure les sous-catégories. et ainsi renvoyer un résultat juste (enfin plus juste à voir si ça correspond aux critères de Unsui). On ne peut pas changer l'échelle de linéaire à logarythmique ? On verrait mieux les différences entre les autres langues que le français. En tout cas c'est bien réussi ! Otourly (discussion) 3 février 2016 à 05:15 (UTC)Répondre

@Otourly : Pour l’échelle logarithmique, ça semble possible en remplaçant « linear » par « log » dans ce diff mais quand je fais ça, je perd les barres ... Pamputt ^[Discuter] 5 février 2016 à 17:00 (UTC)Répondre

@Pamputt : en effet Automatik a essayé aussi et a obtenu le même résultat un peu plus tôt peut-être qu'en combinant les méthodes ? Otourly (discussion) 5 février 2016 à 17:02 (UTC)Répondre

@Otourly et @Automatik : Grâce à Drongou sur Wikipédia, il est possible d’avoir une échelle log en forçant l’axe des ordonnées à être plus grand que 0. Pamputt ^[Discuter] 5 février 2016 à 20:31 (UTC)Répondre

@Pamputt : Super ! Otourly (discussion) 6 février 2016 à 07:57 (UTC)Répondre

@Automatik : As-tu une idée pourquoi tout est cassé ? Otourly (discussion) 6 mars 2016 à 16:07 (UTC)Répondre

@Otourly : en effet, le graphe ne s’affiche plus à cause des fonctions comme {{PAGESINCATEGORY}} (qui ne gênaient pas avant pourtant). J’ai remarqué ça tout à l’heure et ai déjà laissé un message sur mediawiki.org. — Automatik (discussion) 6 mars 2016 à 16:28 (UTC)Répondre

Ça a été corrigé . Merci à lui/elle. — Automatik (discussion) 6 mars 2016 à 17:11 (UTC)Répondre

sorry, forgot to login. I fixed the graph above. Also, take a look at meta:User:Yurik/Site_stats. --Yurik (discussion) 6 mars 2016 à 17:50 (UTC)Répondre

@Yurik : it works fine ! Thanks a lot ! Otourly (discussion) 6 mars 2016 à 18:28 (UTC)Répondre

A-t'on un équivalent de meta:Template:Graph:PageViews ici ? Comme ça on pourrait mettre le nombre de visiteurs directement dans nos statistiques. Qu'en pensez-vous ? Otourly (discussion) 6 mars 2016 à 18:35 (UTC)Répondre

Mise à jour du 2 février 2016

Dernier commentaire : il y a 9 ans6 commentaires2 participants à la discussion

Bonjour, il semble qu’il y ait un bogue dans les nouvelles stats. En effet entre la précédent mise à jour et celle-ci, le nombre de langues est passé de 3958 à 3969. Or lorsque je trie par « Dernières entrées », je ne vois aucune langue qui avait 0 entrée. Au passage, félicitations Unsui pour l’ajout de presque 2500 entrées en same du Nord. Pamputt ^[Discuter] 7 février 2016 à 12:03 (UTC)Répondre

Je vais regarder ça. — Unsui Discuter 7 février 2016 à 12:07 (UTC)Répondre

@Pamputt : Salut. Euh, je ne comprends pas bien comment tu repères les nouvelles langues. La seule méthode, avec ce tableau, est de repérer celles qui ont le même nombre dans les colonnes "dernières entrées" et "évolution". On trouve ainsi : sisuali (+8), luwo (+3), luang (+2), mbembe Cross River (+1), bakhtari (+1), makah (+1) salish wenatchi-columbian (+1) atsugewi (+1), sérère (+1) mashco piro (+1) et dazaga (+1) ce qui fait bien onze langues supplémentaires. Oui ? — Unsui Discuter 7 février 2016 à 12:28 (UTC)Répondre

@Unsui : Euh oui en effet, mea culpa. Je ne devais pas être bien réveillé quand j’ai écrit ça … Pamputt ^[Discuter] 7 février 2016 à 14:27 (UTC)Répondre

@Pamputt : No problem. Je pourrais par contre faire la liste des nouvelles langues automatiquement en fin de tableau. Ça serait plus pratique. ? — Unsui Discuter 7 février 2016 à 14:33 (UTC)Répondre

Oui vraisemblablement. Merci d’avance. Pamputt ^[Discuter] 7 février 2016 à 14:59 (UTC)Répondre

Accès aux liens rouges

Dernier commentaire : il y a 5 ans28 commentaires5 participants à la discussion

Je serais assez intéressé par une liste des 8287 liens rouges en italien, ou plus précisément des 8287 liens bleus de mots français contenant un lien rouge vers la traduction italienne (pour quand je me remettrai sérieusement à l'italien...) : pensez-vous que ça serait envisageable d'une façon ou d'une autre ? Merci beaucoup ! Hector (discussion) 6 mars 2016 à 15:03 (UTC)Répondre

Oui, bien sûr. Ils sont ici : Utilisateur:Unsui/it_ntf. Mais d’autres contributeurs comme par exemple Otourly ont dû commencer à le traiter. Il faudrait peut-être voir avec lui s’il a un tableau à jour. Sinon j’en produirai un quand le prochain dump du wiktionnaire sera disponible. — Unsui Discuter 6 mars 2016 à 15:17 (UTC)Répondre

D’ailleurs, il est disponible depuis le début d’aprèm. Je ne vais donc pas tarder à m’en occuper. — Unsui Discuter 6 mars 2016 à 15:19 (UTC)Répondre

@Unsui : À vrai dire je pense que nous sommes plusieurs à penser que tu écraseras les listes que tu as créées à chaque mise à jour... C'est vrai qu'on n'a pas formalisé la demande, mais si ça te dérange pas, pourrais-tu le faire ? Merci ! Otourly (discussion) 6 mars 2016 à 16:06 (UTC)Répondre

OK, pas de problème. — Unsui Discuter 6 mars 2016 à 16:08 (UTC)Répondre

Excellent, merci ! juste une remarque, mais je ne veux pas abuser : ça pourrait être pratique d'avoir à côté un lien du mot français correspondant (possibilité d'utiliser le très pratique gadget créer-trad, etc)... Hector (discussion) 6 mars 2016 à 17:12 (UTC)Répondre

Désolé, tel que c’est écrit actuellement, ce n’est pas possible. D’ailleurs, est-ce vraiment souhaitable ? Dans le cas d’un mot monosémique, cela serait certes pratique. Mais dans les autres cas, il faudra bien préciser dans la définition de quoi il s’agit (par exemple "remise" c’est un rabais ou une cabane à outils). Mais je regarderai à l’occasion. — Unsui Discuter 6 mars 2016 à 19:13 (UTC)Répondre

Pour moi, ta remarque concerne plus globalement le gadget créer trad. Et, oui, il faut parfois compléter à la main, mais il n'en reste pas moins qu'il fait bigrement gagner du temps. D'ailleurs, si il ne fallait point parfois compléter à la main, je pense que depuis longtemps un robot aurait créé ces pages...Merci pour ton retour et bonne fin de week end ! Hector (discussion) 6 mars 2016 à 19:46 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. Si d’autres sont intéressés par certaines langues, ça ne me pose aucun problème (j’ai un fichier pour chacune des 755 langues concernées). — Unsui Discuter 7 mars 2016 à 16:15 (UTC)Répondre

Merci. V!v£ l@ Rosière ^{/Murmurer…/} 14 mars 2016 à 08:49 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. — Unsui Discuter 11 avril 2016 à 15:02 (UTC)Répondre

@Unsui : Super ! merci du boulot ! POur la prochaine fois pourrais-tu ajouter un croisillon pour en faire une liste à puce numérotée ? Merci encore ! Otourly (discussion) 11 avril 2016 à 15:41 (UTC)Répondre

@Otourly : Sans problème, j’ai modifié le fichier de cette fois ci (si c’est bien cela que tu souhaitais). — Unsui Discuter 11 avril 2016 à 15:48 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf — Unsui Discuter 6 mai 2016 à 17:30 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf — Unsui Discuter 5 juin 2016 à 16:00 (UTC)Répondre

@Unsui : Pourrais-tu s'il te plaît faire une petite mise à jour ? Merci ! Otourly (discussion) 23 mars 2017 à 07:44 (UTC)Répondre

OK, je m’en occupe, à partir du dernier dump. — Unsui Discuter 23 mars 2017 à 08:48 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf — Unsui Discuter 23 mars 2017 à 17:32 (UTC)Répondre

@Unsui : Coucou ! Tu peux faire la mise à jour semestrielle de ces listes ? Merci beaucoup ! Otourly (discussion) 22 septembre 2017 à 08:59 (UTC)Répondre

OK, je vais voir ça. — Unsui Discuter 22 septembre 2017 à 14:10 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. — Unsui Discuter 23 septembre 2017 à 14:12 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. — Unsui Discuter 29 décembre 2017 à 21:40 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière et @Hector : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. — Unsui Discuter 27 septembre 2018 à 07:55 (UTC) @Otourly, @Pom445, @Vive la Rosière, @Hector et @Lepticed7 : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf, Utilisateur:Unsui/ko_ntf et Utilisateur:Unsui/eo_ntf. — Unsui Discuter 3 janvier 2019 à 09:42 (UTC)Répondre

Merci. Petite question, je peux mettre à jour la liste en espéranto si je crée les entrées ? Lepticed7 (Viens tcharer ! :D) 4 janvier 2019 à 13:15 (UTC)Répondre

Oui, tu peux bien sûr. Mais pense qu’elle sera remplacée par une nouvelle dans 3 mois. Ça peut ne pas être gênant mais sinon, tu peux aussi la dupliquer dans une de tes pages perso pour y apporter tes mises à jour. — Unsui Discuter 4 janvier 2019 à 13:23 (UTC)Répondre

On est d'accord que la page liste les entrées manquantes et demandées par une autre page en espéranto ? Du coup, si j'ajoute des entrées, elles disparaîtront à la prochaine màj ? Lepticed7 (Viens tcharer ! :D) 4 janvier 2019 à 13:33 (UTC)Répondre

Oui, c’est exactement ça. C’est pour ça qu’il n’est pas forcément nécessaire de sauvegarder cette page ailleurs. Cette page ne contient que les traductions manquantes en espéranto. Si elle contient des entrées déjà bleuies, cela signifie juste que le mot existe déjà dans une autre langue mais manque en espéranto. Bonne continuation et n’hésite pas à me solliciter si besoin. — Unsui Discuter 4 janvier 2019 à 13:50 (UTC)Répondre

@Otourly, @Pom445, @Vive la Rosière, @Hector et @Pamputt : Les derniers fichiers des entrées manquantes sont dispos Utilisateur:Unsui/it_ntf, Utilisateur:Unsui/ru_ntf, Utilisateur:Unsui/ja_ntf et Utilisateur:Unsui/ko_ntf. J’ai ajouté Utilisateur:Unsui/vi_ntf pour le vietnamien, des fois que… — Unsui Discuter 6 avril 2019 à 09:34 (UTC)Répondre

Statistique au premier juin 2016

Dernier commentaire : il y a 8 ans10 commentaires3 participants à la discussion

@Unsui : Euh… Y'a un truc qui cloche… Si je trie par ordre décroissant les ajouts par langue, je trouve que le coréen en a perdu 37 mais en même temps qu'il en a gagné 41. Il y a un problème quelque part, non ? --— Lyokoï (Parlons ) 2 juin 2016 à 15:45 (UTC)Répondre

Je regarde. Mais j’ai vu auparavant que Shinji avait créé des pages avec ko-Hani comme code langue dans la section langue suivi de ko comme code langue dans les sections type de mots. Je n’y connais rien en coréen. Il faut que je vois ça avec lui. — Unsui Discuter 2 juin 2016 à 16:06 (UTC)Répondre

Oui, alors en fait, ça vient de ce qu’il existe deux codes langues pour le coréen ko-Hani et ko, les deux pointant vers la même catégorie:coréen. Selon les changements d’un code pour un autre, le nombre de pages fluctue. Le premier dans la liste (qui perd 31 pages) est le ko-Hani. Le deuxième (qui gagne 41 pages) est le ko. Je ne sais pas pourquoi il y a deux codes. — Unsui Discuter 2 juin 2016 à 16:14 (UTC)Répondre

Il a oublié de faire un renvoi ? --— Lyokoï (Parlons

) 2 juin 2016 à 16:34 (UTC)Répondre

Je lui ai laissé un mot sur sa PDD. — Unsui Discuter 2 juin 2016 à 17:36 (UTC)Répondre

Le code ko-Hani est un reliquat d’un vieux choix de différencier le coréen écrit en hangeul et le coréen écrit en hanja. On s’étaient concertés dans Discussion module:langues/data#Code ko-hanja pour fusionner les codes ko-Hani, ko-hanja (ancien alias de ko-Hani) et ko qui ne concernent en fait qu’une seule langue avec deux écritures différentes. — Automatik (discussion) 2 juin 2016 à 17:56 (UTC)Répondre

Ah, merci Automatik. J’avais zappé cette décision. Du coup j’ai mal corrigé deux entrées concernées. Je vais revoir ça. On pourrait passer un bot, non ? — Unsui Discuter 2 juin 2016 à 18:02 (UTC)Répondre

Oui bien sûr, mais normalement ça a déjà été fait, il ne devrait pas rester grand-chose (je vais chercher). — Automatik (discussion) 2 juin 2016 à 18:21 (UTC)Répondre

Non en fait ça n’a jamais été fait, il faudrait peut-être le faire effectivement (je doutais à l’époque qu’en le faisant, on perdrait l’information que c’était une autre écriture, et qu'il faudrait peut-être remettre cette information ailleurs, d’où le pourquoi je ne l’avais pas fait). — Automatik (discussion) 2 juin 2016 à 19:38 (UTC)Répondre

Ok. On peut voir avec Shinji si on peut opérer la chose . — Unsui Discuter 2 juin 2016 à 19:43 (UTC)Répondre

Définition des colonnes du tableau de statistiques

Dernier commentaire : il y a 8 ans4 commentaires3 participants à la discussion

Merci de rendre cliquables les termes :

Noms communs
Noms propres
Adjectifs
Verbes
Div. lemmes
Locutions
Lemmes
Flexions
Divers

des colonnes du tableau de statistiques, afin de donner les définitions de ces termes linguistiques. — Pso (discussion) 26 décembre 2016 à 15:02 (UTC)Répondre

Le mieux serait peut-être une légende, notamment pour les en-têtes spéciaux, comme Div. lemmes (?). — Automatik (discussion) 26 décembre 2016 à 15:41 (UTC)Répondre

Oui, cette option est pas mal aussi ... — Pso (discussion) 26 décembre 2016 à 16:01 (UTC)Répondre

J’ai ajouté des liens comme demandé. Par ailleurs, Lemmes et Divers lemmes, sont des notions expliquées déjà dans les remarques situées à la suite du tableau. — Unsui Discuter 27 décembre 2016 à 20:11 (UTC)Répondre

3000 définitions de moins

Dernier commentaire : il y a 7 ans2 commentaires2 participants à la discussion

Salut Unsui et merci pour la dernière mise à jour. Dans cette mise à jour, on compte désormais 527 416 définitions alors qu’il y en avait 530 718 le mois dernier, soit environ 3000 de moins. Tuas changé quelque chose dans ton script ? Pamputt ^[Discuter] 27 octobre 2017 à 19:11 (UTC)Répondre

Salut Pamputt, oui, maintenant que tu le signales, j’ai changé quelque chose et je n’y pensais plus : j’ai exclu des espaces qui, avant, étaient traités comme faisant partie de l’espace principal. De mémoire, étaient exclus les espaces Wiktionnaire, Aide, Annexe, Modèle et Thésaurus. Maintenant, sont exclus en plus de ces derniers les espaces Catégorie, MediaWiki, Projet, Portail, Transwiki, Module, Translations et Fichier. Je l’ai fait surtout pour gagner du temps dans le traitement. Je n’ai pas pensé une seconde qu’il pût y avoir des définitions dans ces espaces. Toujours est-il qu’il ne faut pas les comptabiliser. Aussi, les chiffres actuels sont-ils normalement meilleurs que les anciens. Je suis désolé de ce flottement imprévu. Mais bon, comme chacun sait, une stat est toujours fausse sinon on appellerait ça un décompte…

Quand on compte les jambes et qu’on divise par 2, il y a toujours des culs-de-jatte pour mettre le souk ! (je blague mais je prends ça au sérieux). En tout cas, bravo pour ta vigilance, moi je n’avais rien vu. D’autant que j’ai eu d’autres problèmes cette fois-ci, le proxy de médiawiki n’acceptant plus d’accéder en direct aux pages des wikis à partir d’un windows XP sous internet explorer. Autohotkey que j’utilise ne me laisse pas la possibilité de passer par firefox pour cette fonction. J’ai donc dû copier-coller la page des codes langues au lieu de la charger comme habituellement. — Unsui Discuter 27 octobre 2017 à 19:51 (UTC)Répondre

Graphiques d'évolution

Dernier commentaire : il y a 7 ans4 commentaires3 participants à la discussion

Bonjour,

Les collègues anglophones viennent de fêter (sans grande pompe) la création de la définition du ~~600 000ème~~500 000ème lemme, et à cette occasion, ils ont partagé quelques graphiques dans le Beer Parlour ! J’en ai repris un pour les Actualités, mais si ça intéresse des gens (j’pense à Otourly et Automatik notamment, en revoyant la discussion plus haut), je pense que Wyang serait sans doute d’accord pour expliquer sa façon de procéder Noé 21 février 2018 à 13:15 (UTC)Répondre

Tu veux dire : 500 000ème lemme je suppose. — Unsui Discuter 21 février 2018 à 14:05 (UTC)Répondre

Oui oui tout à fait, tu fais bien de me corriger ! Je me perds vite quand ce sont des chiffres aussi haut

Noé 21 février 2018 à 15:12 (UTC)Répondre

Intéressant, par contre pour les graphiques je ne sais pas si ils apporteraient beaucoup puisque le tableau des stats a déjà une colonne Lemmes qui peut être utilisée comme base pour le tri. PS : le ping n’a pas marché car il me semble en effet que ça ne marche que si on signe un message en même temps que l’on ping. — Automatik (discussion) 21 février 2018 à 21:40 (UTC)Répondre

Problème avec le gaulois

Dernier commentaire : il y a 5 ans5 commentaires3 participants à la discussion

Salut Unsui (d · c · b), Tout d'abord, merci pour l'entretien de cette liste.

Je viens juste de remarquer qu'il y a deux fois l'entrée "gaulois" (60 et 337) dans la liste, dont l'une (337) est en décalage complet avec l'état actuel du vocabulaire gaulois sur Wikipédia (61 contre un total de 2522 sur le wiktionnaire). Je ne sais pas d'où cela vient, mais je pense qu'il doit y avoir un petit problème sur ce point. Bonne journée, Treehill (discussion) 22 mars 2019 à 14:45 (UTC)Répondre

Je vais regarder ça. — Unsui Discuter 22 mars 2019 à 15:11 (UTC)Répondre

@Treehill : C’est parce qu’il y a des entrées avec gaul comme code langue et certaines avec gaulois. Il pourrait même y en avoir avec xtg comme code langue, mais ce n’est pas le cas. Les stats ne tiennent compte que du code langue et ne font pas ce genre de regroupement. De plus, je ne trouve pas normal d’accepter plusieurs codes langue pour une même langue. Cela n’a conduit jusqu’ici qu’à créer des confusions (le gaulois n’est pas la seule langue concernée, voir liste des codes langues autorisés). Une solution serait bien sûr de changer le code langue gaulois par gaul dans les 61 entrées concernées. Bonne journées. — Unsui Discuter 22 mars 2019 à 15:30 (UTC)Répondre

En fait, il fautdrait plutôt remplacer tous les « gaul » par « gaulois » car on a plus ou moins décidé que si une langue ne dispose pas de code ISO 639-3 alors on utilise comme code le nom de la langue en toute lettre. Il faudrait faire une demande pour qu’un bot s’en charge. Une fois fait, on pourra supprimer la redirection de gaul vers gaulois pour rendre se code invalide. Pamputt ^[Discuter] 22 mars 2019 à 16:40 (UTC)Répondre

@Unsui et @Pamputt : merci pour vos réponses. En effet, il faudrait faire le passage vers gaulois. J'ai fait une demande pour des bots hier, je vais ajouter ça à la demande. Encore merci, Treehill (discussion) 22 mars 2019 à 17:28 (UTC)Répondre

minnan

Dernier commentaire : il y a 5 ans8 commentaires5 participants à la discussion

On en parle ci-dessus, mais le cas du minnan est vraiment bizarre : il est cité 2 fois, une fois avec 261 pages, une fois avec 4 pages, et quand on clique sur la catégorie, on voit 311 pages, soit 46 de plus que le total des deux nombres. Comment expliquer ça ? Lmaltier (discussion) 31 octobre 2019 à 21:07 (UTC)Répondre

Peut-être que Assassas77 (d · c · b) a une idée. — Lyokoï (Discutons

) 31 octobre 2019 à 22:02 (UTC)Répondre

J'ai cru voir la même chose avec le poitevin-saintongeais, mais je n'ai pas vérifié depuis j'avouerai. Treehill (discussion) 31 octobre 2019 à 22:08 (UTC)Répondre

@Lmaltier : c’est que deux codes sont utilisés. Probablement « nan » et « zh-min-nan ». Unsui pourra confirmer. Il faut remplacer tous les codes de langues utilisant « zh-min-nan » par « nan » Pamputt ^[Discuter] 31 octobre 2019 à 22:44 (UTC)Répondre

Concernant la différence entre le chiffre indiqué dans les stats et celui indiqué dans la catégorie, ça doit venir des pages tel que 算 pour laquelle il n’y a pas de section en minnan mais la catégorie « minnan » et quand même présente dans l’article. Pamputt ^[Discuter] 31 octobre 2019 à 23:36 (UTC)Répondre

Donc suite à cette discussion et celle d’avant, j’en déduis que le script d’Unsui (d · c · b) ne prend pas en compte les alias.

@Unsui : Est-ce que tu envisages de faire cette modification ou bien il vaut mieux qu’on passe par des bots pour régler le problème ? — Lyokoï (Discutons

) 1 novembre 2019 à 09:55 (UTC)Répondre

Je vais regarder. J’étais absent jusqu’à hier soir. Dans tous les cas, pour ce style de remarque, il vaut mieux me pinguer. J’ai vu cette conversation quasiment par hasard. — Unsui Discuter 4 novembre 2019 à 08:39 (UTC)Répondre

Donc, oui c’est bien parce qu’il y a deux codes langues pour la même langue qu’il y a deux lignes dans le tableau. Je n’envisage pas de faire le regroupement des alias avec leur code langue de référence. Aussi il vaudrait en effet mieux passer un bot pour cela. Sinon, Pamputt a bien indiqué d’où venait la différence entre le nombre d’entrées et le nombre donné dans la catégorie. (On remarque au passage qu’il n’y a pas 311 entrées comme l’indique le wix mais 309 (200+109). J’avais déjà fait remarquer que cela se produisait assez souvent sans que je m’en explique la raison et que le nombre donné par le wix était dans ces cas là toujours faux. — Unsui Discuter 4 novembre 2019 à 09:50 (UTC)Répondre

Patch pour prendre en compte les alias de codes langue

Dernier commentaire : il y a 5 ans5 commentaires2 participants à la discussion

J’ai appliqué une modification pour fusionner les codes langues se référant à une même langue ce qui n’était pas le cas jusqu’ici. Les codes langues concernés sont :

be-x-old regroupé sous be-tarask
chu regroupé sous cu
gaul regroupé sous gaulois
hau regroupé sous ha
ko-Hani regroupé sous ko
kur regroupé sous ku
nob regroupé sous nb
prv regroupé sous oc
poitevin regroupé sous poitevin-saintongeais
zahrar sproche regroupé sous saurano
zh-classical regroupé sous lzh
zh-min-nan regroupé sous nan
zh-yue regroupé sous yue

Pour des questions de performances, seuls les codes langues présents à ce jour dans le dump ont été pris en compte.
Le choix du code langue retenu est arbitraire et correspond, excepté pour saurano, au code le plus utilisé dans le wix.

Merci pour toute remarque à ce sujet. — Unsui Discuter 23 janvier 2020 à 18:14 (UTC)Répondre

@Unsui : Je vois l’apparition du provençal dans le résultat du mois. Mais c’est un autre nom de l’occitan. Il n’y a pas de redirection de code (il me semble), mais la catégorie renvoi bien vers celle de l’occitan. Il n’est présent que sur un mot, mais je n’arrive pas à l’identifier pour corriger ça. — Lyokoï (Discutons

) 26 janvier 2020 à 12:43 (UTC)Répondre

C’est justement l’objet du patch : divers alias (dont le provençal) sont maintenant regroupés avec leur langue de base. Comme tu peux le voir dans les codes ci-dessus, le provençal (prv ) est considéré comme étant de l’occitan (oc). Regarde les stats qui ont été regénérées suite à cette mise à jour. — Unsui Discuter 26 janvier 2020 à 12:50 (UTC)Répondre

@Lyokoï : Je ferai d’ailleurs une mise au point à ce sujet dans les actualités du mois.— Unsui Discuter 26 janvier 2020 à 12:57 (UTC)Répondre

En effet, j’avais pas vu le code « prv ». Et merci pour le message sur les actus ! ;) — Lyokoï (Discutons

) 26 janvier 2020 à 15:06 (UTC)Répondre

Équivalent pour le Wiktionary (en)

Dernier commentaire : il y a 2 ans3 commentaires2 participants à la discussion

Bonjour, J'aimerais générer des statistiques équivalentes pour le Wiktionary en anglais. Il y a déjà celles-ci mais elles ne sont plus mises à jour et je trouve le format du Wiktionaire plus utile. Comment puis-je faire ? Y a-t-il un algo que je peux faire tourner pour générer ces stats simplement ? A455bcd9 (discussion) 30 mars 2022 à 13:56 (UTC)Répondre

@A455bcd9 : Bonjour,
Les différentes statistiques du wiktionnaire français (Wiktionnaire:Statistiques, Wiktionnaire:Statistiques-cita et Wiktionnaire:Statistiques-trad) sont générées à partir de scripts écrits en autohotkey. Outre le fait qu'il faille installer ce langage sous une machine, il y a surtout le fait que l'analyse du dump wiki est très dépendante du langage du wiktionnaire concerné. Il faut, par exemple, tenir compte des modèles utilisés, des façons d'indiquer les sections d'une entrée, des liens entre les synonymes d'une même langue, être d'accord avec le reste de la communauté sur divers points plus ou moins importants (que considère-t-on comme un lemme, quelles évolutions du nombre d'entrées fait-on apparaître de mois en mois, etc). Personnellement, je ne pourrai pas assurer les traitements (comme je le fais déjà ici et, sporadiquement, sur le wiktionnaire occitan). Dans l'éventualité où quelqu'un se lancerai à le faire sur le wiktionnaire anglais, je pourrais éventuellement aider à mettre en place l'application. À voir donc. — Unsui Discuter 31 mars 2022 à 12:42 (UTC)Répondre

Merci pour ces précisions ! On verra si on arrive à récupérer le code qui génère les stats sur le wiktionnaire anglais... A455bcd9 (discussion) 2 avril 2022 à 07:53 (UTC)Répondre

Mise à jour

Dernier commentaire : il y a 2 ans6 commentaires2 participants à la discussion

Bonjour @Unsui : j'ai mis à jour cette statistique, probablement avec une logique un peu différente de la votre parce que la croissance en chiffres me paraît un peu optimiste. --DE8AH (discussion) 24 novembre 2022 à 16:12 (UTC)Répondre

@DE8AH : Bonjour, je ne comprends pas : je ne vois pas de mise à jour à votre nom dans l'historique des statistiques. Pouvez-vous me donner le lien svp ? — Unsui Discuter 24 novembre 2022 à 16:24 (UTC)Répondre

@Unsui : Je m'excuse, il s'agit de la statistique des traductions.--DE8AH (discussion) 24 novembre 2022 à 16:30 (UTC)Répondre

@DE8AH : OK. Je vois que vous avez mis à jour cette statistique. Je ne peux comparer les chiffres avec les miens pour l'instant. Je vais donc faire tourner mon bot pour que l'on puisse comparer. Par ailleurs, mon bot fourni une liste des traductions en rouge pour chaque langue (à la demande), voici par exemple une qui m'a été demandée la dernière fois Utilisateur:Unsui/ru ntf pour le russe. On constate que la liste comprend autant d'entrées que le nombre indiqué en rouge pour le russe à l'époque. Je ne sais pas si votre bot peut fournir de telles listes. — Unsui Discuter 24 novembre 2022 à 17:17 (UTC)Répondre

@Unsui : La raison pourquoi je ai crée mon bot est que je m'étais intéressé aux liens rouges pour l'allemand. Je vois que en comparaison avec votre liste pour le russe, la mienne contient des entrées doubles si la même traduction apparaît plusieurs fois, ça peut expliquer des différences entre vos chiffres et les miennes.

Mon "bot", c'est que quelques lignes en Python, rien de particulier. -- DE8AH (discussion) 24 novembre 2022 à 17:29 (UTC)Répondre

@DE8AH : Bien, je vais faire tourner mon bot et je vous tiens au courant. — Unsui Discuter 24 novembre 2022 à 18:03 (UTC)Répondre

Langue à ajouter

Dernier commentaire : il y a 8 mois3 commentaires2 participants à la discussion

Il manque une langue ! Il s'agit du bourguignon-morvandiau - plutôt d'une langue d'oil, et donc d'un dialecte dans l'Est de la France. MukiNuki (discussion) 25 mai 2024 à 23:53 (UTC)Répondre

Aussi, il y a plusieurs variantes : le dijonnais, le beaunois, le verduno-chalonnais, le valsaônois, le morvandiau, l'auxerrois, le langrois. MukiNuki (discussion) 25 mai 2024 à 23:58 (UTC)Répondre

Bonjour MukiNuki,

Plusieurs points pour information.

Le Wiktionnaire a Catégorie:bourguignon. Le morvandiau est un des dialectes de la langue bourguignonne il me semble et doit donc être considéré (et traité) de manière similaire. Voir les catégorie "Categorie:LANGUE régional" (genre : Catégorie:flamand occidental régional) pour les dialectes.

Le tableau ici ne présente pas toutes les langues du Wiktionnaire, elles sont présentées dans Module:langues/data. Les demandes d'ajout de langues doivent se faire en page de discussion de ce module. Ces demandes concerne principalement le slangues disposant d'un code ISO à deux ou trois lettres. Les autres langues non encore dotées d'un tel code doivent être justifiées et argumentées. Treehill (discussion) 26 mai 2024 à 08:48 (UTC)Répondre

Vietnamien

Dernier commentaire : il y a 4 mois3 commentaires2 participants à la discussion

@Unsui Salut, pourquoi y a deux fois le vietnamien ? ÀNCILU ^{(Lu sìculu)} 21 octobre 2024 à 15:27 (UTC)Répondre

@Àncilu : Bonsoir Àncilu, oui, il y a parfois deux fois une langue (cette fois-ci, il y a aussi deux fois arabe). Cela vient du fait d'un problème dans la gestion des alias. Par exemple, il existe des alias vi-chunho, vi-chunom, vi-Hani pour le vietnamien. Jusqu'à maintenant, je modifiais les entrées concernées mais je vais essayer de corriger le problème, encore que je suis absent à nouveau prochainement. Comme ce sont des stats et que cela concerne chaque fois que deux ou trois entrées, ce n'est pas, à mon avis, trop important. Par ailleurs, l'utilité des alias m'échappe quelque peu... — Unsui Discuter 21 octobre 2024 à 17:02 (UTC)Répondre

@Unsui : ah c'est pour ça qu'une a perdu 400 entrées et l'autre en a gagné ! En effet j'avais fait tourner mon bot ce mois grâce à une requête de @Richaringan dans le but de corriger tous les alias. ÀNCILU ^{(Lu sìculu)} 21 octobre 2024 à 17:43 (UTC)Répondre