Wiktionnaire:Actualités/043-octobre-2018/en
Wiktionnaire:Actualités is a monthly periodical about French Wiktionary, dictionaries and words, published online since April 2015. Everyone is welcome to contribute to it. You can sign in to be noticed of future issues, read old issues and participate to the draft of the next edition. You can also have a look at Regards sur l’actualité de la Wikimedia. If you have any comments, critics or suggestions, our talk page is open!
Highlights
- À Strasbourg, la médiathèque André Malraux propose un rendez-vous mensuel pour contribuer aux projets collaboratifs et cette année, le Wiktionnaire s’ajoute à la liste ! La première date était le 13 octobre, la prochaine est le 10 novembre et ensuite ce sera les 8 décembre, 12 janvier, 9 février, 9 mars, 18 mai et 8 juin !
- À Lyon, outre la rencontre mensuelle habituelle, le 8 novembre, il y aura un atelier contributif le 15 novembre à la bibliothèque municipale de la Part-Dieu, sur l’argot des poilus
- Le laboratoire de recherche en informatique pluridisciplinaire du CNRS, le LIMSI, a fait traduire puis enregistrer une fable d’Ésope en 303 variations des langues régionales de France. Toutes ces versions sont rassemblées dans un atlas sonore interactif ajoutant en plus le latin, l’espéranto ou encore la langue des signes française.
- Les entreprises Quantmetry et DeepL ont annoncé avoir traduit un ouvrage de 800 pages en à peine une dizaine d'heures grâce à un outil de traduction automatisé. C’est sans compter le temps de développement de l’outil, bien sûr. Le livre traduit avait été publié en 2016, et le vocabulaire qu’il contenait était donc facilement identifiable grâce à des corpus récents. Il est probable que l’efficacité de l’outil ne soit pas aussi bonne sur des textes anciens, ou intégrant des champs de vocabulaires plus variés.
- Le français passe de la sixième à la cinquième position de la langue la plus parlée dans le monde. La francophonie a en effet gagné 10 % de locuteurs depuis 2014, grâce à l’Afrique qui en apporte 90 %. Ce serait aussi la quatrième langue la plus utilisée sur internet et la troisième en termes de trafic. Le français est aussi la deuxième langue étrangère la plus apprise au niveau collège dans l’Union européenne, avec 26 % des élèves.
- Le Monde propose un quiz sur le vocabulaire de l’informatique créé par la commission de terminologie française et recommandé par l’Académie française.
- Le linguiste Frédéric Landragin et l’astrophysicien Roland Lehoucq étaient les invités de La Méthode scientifique du 19 octobre pour parler, dans la deuxième partie de l’émission (à partir de 24 min 40 s), de xénolinguistique, ou Comment parler à un alien ?.
- Dans le dernier numéro de la revue Language Documentation & Conservation, un article présente deux outils de visualisations de données sur les langues parlées dans le monde, GlottoScope (par les personnes qui font Glottolog, présenté dans les Actualités en juin 2017) et GlottoVis. Ces deux outils permettent d’observer la diversité linguistique en s’intéressant spécifiquement au risque de voir chaque langue disparaître et à l’état de documentation de ces langues. Selon les données utilisées, à peine 20 % des langues disposent d’une étude grammaticale détaillée et 12 % disposent d’un dictionnaire (davantage qu’une liste de mots).
Un travail de bot
Les bots sont des programmes informatiques exécutant des tâches décrites par les personnes qui les utilisent. Ils permettent de systématiser des tâches rébarbatives, sans être pour autant autonomes. Les consignes et le contenu demeurent rédigés par des êtres humains.
En juillet 2014, une discussion sur les bots avait conduit au développement d’un programme permettant d’identifier toutes les pages faites avec l’aide d’un ou plusieurs bots sans relecture ultérieure directe. À l’époque, 185,454 pages avaient cette caractéristique, en excluant les flexions (pluriels réguliers et conjugaison).
Pour obtenir ce chiffre le programme analyse le fichier d’historique du Wiktionnaire (toutes les versions des différentes pages) qui pèse plus de 50 Gio. Il recherche plus spécifiquement le nom des contributeurs de chaque version. Si le nom de l’utilisateur contient « bot » ou « Bot » alors le programme considère que la contribution a été faite à l’aide d’un bot. Si la page n’a été modifiée que par des bots alors elle est ajoutée à la liste.
Une nouvelle analyse sur les données du Wiktionnaire publiée au début du mois d’octobre 2018 donne un total de 170,389 pages (la liste complète est disponible en plusieurs parties : 1, 2, 3, 4), soit un peu plus de 15,000 pages qui ont été modifiées depuis par au moins un compte « humain ». Si l’on rapporte ce chiffre au nombre total de lemmes, toutes langues confondues, on peut calculer que 14 % des pages sont dans ce cas.
Suite à la discussion de 2014, des bandeaux d’information ont été ajoutés en haut des pages créées par PiedBot et modifiées uniquement par des bots afin d’inviter à leur relecture et à leur « validation » humaine. Ce bot a importé beaucoup de contenu, dans différentes langues, en 2006 mais avec pas mal d’erreurs. Toutes les pages en attente de relecture sont classées par langue dans la catégorie Pages à vérifier car créées automatiquement.
Une autre liste a été générée à partir des entrées provenant d’imports d’anciens dictionnaires – le Dictionnaire de l’Académie française de 1935 et le Littré de 1877 – de listes de noms de villages et de termes recommandés par la commission de terminologie française et publiés sous licence libre dans FranceTerme. Cette liste comprend 95,000 pages en français (1 et 2) qui n’ont pas été modifiées depuis leurs importations, soit 22 % des pages décrivant des mots de français. Certaines pages présentent très probablement des informations suffisantes, voire de bonne qualité selon l’information ajoutée, et ne nécessitent donc pas de vérifications, mais toutes pourraient être enrichies par l’ajout d’attestations d’usage et d’illustrations.
Statistics
- September 20th to October 20th, 2018
+ 18,410 entrées et 146 langues modifiées pour atteindre 3,557,137 entrées et 1,083 langues avec au moins cinq entrées.
+ 2,095 entrées en français pour atteindre 367,168 lemmes et 545,724 définitions.
+ 3,937 citations ou exemples en français pour atteindre 362,472.
+ 2,718 prononciations (dont 1,842 pour le français) pour atteindre, au 27 octobre, 104,168 prononciations audios pour 100 langues (dont 25,202 pour le français).
+ 294 médias d’illustrations (images et vidéos) dans les articles du Wiktionnaire, pour atteindre 39,228.
+ 10 thésaurus pour atteindre 529 thésaurus dans 55 langues dont 353 thésaurus en langue française ! Les nouveaux thésaurus sont sur la rencontre (par Noé, Lyokoï, Cbyd, Jpgibert, Pamputt et Automatik), la vache (par Noé et DaraDaraDara), la grève en italien (par Noé), la pause, le dimanche, le peuple, le neuf, le cube, le six, l’érosion (les sept par Stephane8888).
+ 41 nouvelles langues pour un total de 4,543 langues : le pongu (+3), le lonwolwol (+2), le pini (+2), le kwang (+1), le koiwat (+1), le mae (+1), le kir-balar (+1), le nonuya (+1), le nyigina (+1), le e’ñepa (+1), le pana (Burkina Faso) (+1), le pa’a (+1), le larike-wakasihu (+1), le phai (+1), le poyanáwa (+1), le quechua de Santiago del Estero (+1), le riang (Inde) (+1), le ritarungo (+1), le sos kundi (+1), le seke (Népal) (+1), le simte (+1), le sokoro (+1), le sepa (Indonésie) (+1), le sengo (+1), le sawknah (+1), le tagdal (+1), le tiranige diga (+1), le taruma (+1), le temiar (+1), le tayart tamajeq (+1), le tilung (+1), le boikin (+1), le telefon (+1), le teluti (+1), le temoq (+1), le temuan (+1), le tasawaq (+1), l’usui (+1), le burui (+1), le chimakum (+1), le yoy (+1)
Les trois langues qui ont le plus avancé après le français sont le suédois (+ 10,141 entrées), le same du Nord (+ 2,579 entrées) et le gallo (+ 519 entrées).
- Consultation et contribution
Les outils de statistiques externes donnent chaque mois la liste des pages les plus consultées et des pages modifiées par le plus de personnes.
La rubrique Wiktionnaire:Questions sur les mots (WT:QM) a enregistré en octobre 60 questions, contre 40 questions en septembre et en août.
Le vocabulaire spécialisé de la cartographie est toujours en relecture et 71 % des pages ont été relues ! Votre aide est la bienvenue pour venir à bout de cette tâche !
Who reads the news?
L’outil d’analyse des pages vues permet en quelques clics de savoir combien de personnes lisent chaque numéro des Actualités du Wiktionnaire. Sur les 18 derniers mois, la moyenne est à 286 personnes, contre 616 pour les Regards sur l’actualité de la Wikimedia. De belles moyennes pour de la wikipresse qui n’est diffusée que par le bouche à oreille !
Le Wiktionnaire a été bien représenté à la WikiConvention francophone qui était du 5 au 7 octobre 2018 !
Une conférence, un atelier d’initiation, une rencontre et de nombreuses discussions pour parler d’un futur MOOC pour Wiktionnaire, de Lingua Libre, des contenus de Wikipédia qui seraient mieux dans le Wiktionnaire et de la wikipresse (dont les Actualités du Wiktionnaire).
Un long compte-rendu a été proposé par Noé et pour résumer en quelques mots : c’était dense et enrichissant.
LexiSession about meeting
Impulsées par le Fantastique groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions proposent des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion. La LexiSession de septembre était sur le thème de la rencontre qui a donné lieu à la création d’un thésaurus dédié.
Pour le mois de novembre, le thème proposé est celui des jeux traditionnels asiatiques !
En vidéo
Cette rubrique vous propose de faire une revue de vidéos sur la lexicographie, la linguistique et la langue française sorties ou découvertes ce mois-ci.
- Lyokoï continue sa série de vidéos de contribution en direct avec une soirée dédiée aux couleurs.
- Elles comme Linguistes se demandent si la langue des signes se parle avec les mains et nous parlent du lexique d’Halloween.
- Code Mu analyse les paroles de la chanson enfantine À la pêche aux moules et plaisante autour du mot facteur.
- Monte de la chaîne Linguisticae nous propose une vidéo sur les hypothèses concernant la naissance du langage.
Consultation des souhaits de la communauté pour 2019
Pour la quatrième année, l’équipe technique de la Wikimedia Foundation propose une grande foire aux idées sous la forme d’une Consultation des souhaits de la communauté. Pendant quinze jours, du 29 octobre au 11 novembre, tout le monde peut suggérer un problème qu’il serait bon de résoudre, et du 16 au 30 novembre, tout le monde peut voter pour soutenir les problèmes qui paraissent les plus urgents à traiter. Le 3 décembre, les dix premiers résultats seront choisis pour constituer la feuille de route pour l’année à venir. Et s’il reste du temps lorsque les dix problèmes sont résolus, l’équipe technique s’engage à s’intéresser aux petits projets.
L’année dernière, les Actualités de décembre avaient rapportés les résultats, et aucune des huit propositions ne figuraient dans le top 10, mais elles avaient bénéficié ainsi d’une bonne diffusion et montré la vitalité du Wiktionnaire. Il est probable que cette année encore, aucune proposition ne soit sélectionnée, mais c’est l'occasion de clarifier nos idées et d’intéresser les développeurs éventuels, salariés ou bénévoles, sur les enjeux et possibilités du Wiktionnaire.
Contraints par ce calendrier, le prochain numéro des Actualités sera peut-être légèrement décalé pour sortir avant la clôture des votes ou bien après l’annonce des résultats, selon le temps dont disposera l’équipe pour boucler le numéro à ce moment là du mois.
Colloque Dictionnaires et culture numérique dans l’espace francophone
Les 16 et 17 octobre, un colloque de deux jours s’est tenu à Milan sur le sujet de la lexicographie électronique francophone, sur les nouvelles formes de dictionnaires et notamment sur le Wiktionnaire ! Nos deux reporteurs vedettes, Lyokoï et Noé se sont rendus sur place ! Une occasion en or pour rencontrer des personnes qui s’intéressent au Wiktionnaire, travaillent sur d’autres formes de dictionnaires collaboratifs ou s’interrogent sur les évolutions techniques qui changent la nature même du dictionnaire. C’est un nouveau champ de recherche académique qui s’ouvre et qui ne s’intéresse pas seulement aux aspects électroniques mais aussi à l’impact sur le lectorat et sur la lexicographie, la pratique qui consiste à fabriquer des dictionnaires. Un tournant est en cours avec le changement des usages vers davantage d’écran et une évolution du statut de l’expert vers la contribution horizontale. Si vous voulez en savoir davantage, vous pouvez lire le compte-rendu détaillé du colloque. Nous en reparlerons lors de la publication des actes du colloque, d’ici un an ou deux.
Dictionnaire du mois
- Les Extraits optimisés par Google ?
Avez-vous déjà recherché une définition dans le moteur de recherche Google ? Vous aurez parfois le plaisir de voir un extrait de la définition donnée dans le Wiktionnaire, parfois un extrait de Wikipédia et parfois des Extraits optimisés par Google. Mais d’où viennent-ils ? À l’occasion du colloque Dictionnaires et culture numérique dans l’espace francophone, Nathalie Gasiglia, de l’Université de Lille 3, a présenté sa recherche afin de découvrir d’où venaient ces informations. Pour cela, elle a tenté d’identifier la structure des entrées, la façon dont étaient données les informations grammaticales et sur l’usage des mots. L’usage des listes numérotées et des listes à point n’est pas uniforme et on sent qu’une simplification a été faite depuis le matériau d’origine. Sa recherche l’a amenée à identifier l’origine comme étant le dictionnaire Dixel édité par Le Robert. Cependant, certaines listes de synonymes proviendraient plutôt du Robert illustré coédité avec Diagonal.
Ces deux ouvrages sont repris mais la numérotation en chiffre romain est gommée, ce qui entraîne des décalages bizarres dans les numérotations et la source n’en est mentionnée nulle part. Ces informations ne font donc pas une très bonne publicité pour un ouvrage dont la consultation en ligne est payante. Situation curieuse donc que celle d’une maison d’édition qui permet à une entreprise de diffuser secrètement au grand public une information qui est par ailleurs vendue. On imagine que l’accord commercial entre les deux entreprises est suffisamment attrayant pour que les éditions Dictionnaires Le Robert s’y retrouvent.
Anciens numéros
- 2015 : avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2016 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2017 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2018 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2019 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2020 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2021 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2022 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2023 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2024 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, brouillon du prochain numéro