Utilisateur:VIGNERON/Lexèmes
Les données lexicographiques de Wikidata (dans l’espace de nom Lexeme:) existent depuis fin mai 2018. Voici un rapide état des lieux à 5 ans.
Pour tout les détails de fonctionnement et d’organisation, voir la page Wikidata:Données lexicographiques. Le point important à retenir est que les informations sont structurées différemment, une entrée du Wiktionnaire (basée sur une chaîne de caractères) peut correspondre à plusieurs entrées Lexèmes (basée sur l’unité lexicale) et vice-versa. Par exemple :
- tour correspond à d:L:L2330, d:L:L2331, d:L:L2332, d:L:L6103, d:L:L6104, d:L:L42376 (qui correspondent en fait au sous-partie de tour, respectivement : tour#Nom_commun_1, tour#Nom_commun_2, tour#Nom_commun_3, tour#Verbe, tour#Nom_commun, tour#Nom_commun_4)
- inversement d:L:L2330 comprend plusieurs sens et surtout plusieurs formes, d:L:L2330-F1 correspondant à tour et d:L:L2330#F2 correspondant à tours.
<à faire: créer un schéma visuellement parlant ?>
Quelques chiffres clés au 1er septembre 2023 :
- côté Wiktionnaire en français « 4 747 783 pages décrivent en français les mots de plus de 5 000 langues » (selon Wiktionnaire:Page_d’accueil)
- côté Lexèmes, 1 130 623 pages (https://w.wiki/7NdU) en 1127 langues (https://w.wiki/7NdW)
Je ne sais pas compter le nombre de sous-parties distinctes côtés Wiktionnaire (je sais juste que le nombre est strictement supérieur à 1 et sans doute inférieur à 2, si on fait l’hypothèse que la majorité des pages - typiquement les flexions - n’ont qu’une seule partie).
Côté Lexèmes, les 1 130 623 pages (https://w.wiki/7NdU) contiennent 12 536 537 de formes (https://w.wiki/7Ndc) et 384 826 sens (https://w.wiki/7Ndf).
- Plusieurs formes pouvant être représenter par la même chaine de caractères, il faut compter les chaînes distinctes (qui serait donc une seule et même page côté Wiktionnaire), on tombe à 9 282 807 (https://qlever.cs.uni-freiburg.de/wikidata/C1EKEl). Ce qui fait en théorie et au minimum, 4,5 millions de pages à créer côte Wiktionnaire.
- Par contre, les sens sont clairement le point faible des Lexèmes (en théorie chaque lexème devrait avoir au moins un sens, or il n’y en a qu’un tiers environ actuellement), surtout qu'il y a une forte disparité entre langues (l’estonien a plus de 83000 lexèmes et quasiment aucun sens ! même situation pour le grec moderne avec 43 000 lexèmes presque tout sans sens ; inversement le bokmål, le basque ou l’anglais font partie des rares langues avec plus de 10 000 de lexèmes et avec plus de sens que de lexèmes).
Voir https://ordia.toolforge.org/language/ pour une comparaison détaillée entre nombres de lexèmes, de sens et de formes.
En se concentrant uniquement sur le français :
- le Wiktionnaire possède 1 941 840 pages en français selon Catégorie:français
- Wikidata compte 19 373 lexèmes comptant 325 378 formes (https://w.wiki/7Ne8) dont 249 244 chaînes distinctes (https://w.wiki/7NeB).
<à faire : ces 249 244 chaînes ont-elles toutes une page dans le Wix ? une exploration manuelle montre que le nombre semble assez faible et pour des variations comme Afrique sub-saharienne (d:L30625#F2) au lieu de Afrique subsaharienne. Voir aussi un essai un peu brut sur Utilisateur:VIGNERON/Lexèmes/a >
En se concentrant uniquement sur le basque :
- le Wiktionnaire possède 8 785 pages en français selon Catégorie:basque
- Wikidata compte 19 373 lexèmes comptant 1 257 139 formes (https://w.wiki/7Ned) dont 1 002 654 chaînes distinctes (https://w.wiki/7Nec).
<à faire : même question mais là, la majorité est absente du Wix ; sans doute majoritairement des flexions>