Discussion module:clé de tri2
Ajouter un sujetTest
[modifier le wikicode]Cliquez sur « Clé » pour trier :
Mot | Clé | Clé manuelle |
---|---|---|
eau | eau - uae - eau | |
EAU | eau - UAE - EAU | |
éau | eau - ua�� - éau | |
ÉAU | eau - UA�� - ÉAU | |
champ | champ - pmahc - champ | |
champs | champs - spmahc - champs | |
Champs-Élysées | champs elysees - se��syl�� spmahC - Champs Élysées | |
hum | hum - muh - hum | |
hûmer | humer - rem��h - hûmer | |
humeur | humeur - ruemuh - humeur | |
hem | hem - meh - hem | |
hém | hem - m��h - hém | |
hêm | hem - m��h - hêm | |
hëm | hem - m��h - hëm | |
hème | heme - em��h - hème | |
entra | entra - artne - entra | |
entreaccorder | entreaccorder - redroccaertne - entreaccorder | |
entr’accorder | entraccorder - redrocca���rtne - entr’accorder | |
entr'accorder | entraccorder - redrocca'rtne - entr'accorder | |
paris | paris - sirap - paris | |
Paris | paris - siraP - Paris | |
Pâris | paris - sir��P - Pâris | |
cote | cote - etoc - cote | cote - etoc - cote |
coté | cote - ��toc - coté | cote - étoc - coté |
côte | cote - et��c - côte | cote - etôc - cote |
côté | cote - ��t��c - côté | cote - étôc - côté |
Côte | cote - et��C - Côte | cote - etôC - Côte |
Coté | cote - ��toC - Coté | cote - étoC - Coté |
Côté | cote - ��t��C - Côté | cote - étôC - Côté |
pêche | peche - ehc��p - pêche | peche - echêp - pêche |
pêché | peche - ��hc��p - pêché | peche - échêp - pêché |
péché | peche - ��hc��p - péché | peche - échép - péché |
pèche | peche - ehc��p - pèche | peche - echèp - péche |
relève | releve - ev��ler - relève | releve - evèler - relève |
relevé | releve - ��veler - relevé | releve - éveler - relevé |
révèle | revele - el��v��r - révèle | |
révélé | revele - ��l��v��r - révélé | |
ебать | - �тѰбе� - ебать | ебать - ёбарь - евангелие |
ёбарь | - �рѰбБ� - ёбарь | ебать - ёбарь - евангелие |
евангелие | - �илегнаве� - евангелие | ебать - ёбарь - евангелие |
ё | - �� - ё | е |
ё | - �� - ё | е€ |
a | aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa - �åî��Ǟǭ��ȦȂȀȺǍDŽĂĀąÄÂÀå�⤺�ɧȃȁȻǎDžăāĤâáÁà� - àÁáâäāăąǎǻȁȃȧɑạảấẤⱥÀÂÄÅĀĂĄǍǺȀȂȦȺⱭǞǠắẮåÅ | |
ae | - �ǢdžýǣǦ� - æǣǽÆǢǼ | |
b | - �ɂƁƃƀ� - ƀƃƁƂɃ | |
c | ccccccccc - �ȇƌĊĈĆćüȈƍċćħ� - çćċčƈȼÇĆĈĊČƇȻ | |
ĉ | c - �� - ĉ | |
ďđƌȡĎĐƉƊƋȸdždzDŽDžDZDz | dd - �DZDžDŽdzdžǸȋƊƉƐĎġȌƑď� - ďđƌȡĎĐƉƊƋȸdždzDŽDžDZDz | |
èÈéÉêÊëËēĕėęěǝɛȅȇȩɇếẾĒĔĖĘĚƎƐȄȆȨɆệỆ | eeeeeeeeeeeeeeeeeeeeeeeeeeee - ��ᇻ�ɨȆȄȐƎƚĘĖĔĒľ�Ὼ�ɩȇȅțɝǛęėĕēċëÊêÉéÈè� - èÈéÉêÊëËēĕėęěǝɛȅȇȩɇếẾĒĔĖĘĚƎƐȄȆȨɆệỆ | |
ƒƑ | - �ƒ� - ƒƑ | |
ĝ | g - �� - ĝ | |
ğġģǥǧǵĜĞĠĢƓǤǦǴ | ggggggggggg - �ǦǤǓƢĠĞĜĵǧǥǣġğ� - ğġģǥǧǵĜĞĠĢƓǤǦǴ | |
ĥ | h - �� - ĥ | |
ħȟĤĦȞ | hhh - �ȦĤğȧ� - ħȟĤĦȞ | |
ıîĩīĭįǐȉȋÎĨĪĬĮİƗǏȈȊijIJìÌïÏ | iiiiiiiiiiiiiiiiiiiii - �ïÌìòijĊȈȏǗưĮĬĪĨĎËȉȐǯĭīĩĮñ� - ıîĩīĭįǐȉȋÎĨĪĬĮİƗǏȈȊijIJìÌïÏ | |
ĵ | j - �� - ĵ | |
ǰȷɉĴɈ | jj - �ɴĉɷȰ� - ǰȷɉĴɈ | |
ķƙǩĶƘǨ | kkkk - �ǘƶĩǙƷ� - ķƙǩĶƘǨ | |
ĺļľŀłƚȴɫⱢĹĻĽĿŁȽljLJLjịỊíÍ | lllllliiii - �íÊ�ዻ�LJljǽȁſĽĻĹĢ��ɴȚƂŀžļĺ� - ĺļľŀłƚȴɫⱢĹĻĽĿŁȽljLJLjịỊíÍ | |
Ɯ | - �� - Ɯ | |
ńņňŋǹƞȵŃŅŇŊƝǸȠnjNJNjɲṉṈñÑ | nnnnnnnnnnnn - �ñÈ�ቹ�ɋNJnjǠȸǝƊŇŅŃŵȞƹNjňņń� - ńņňŋǹƞȵŃŅŇŊƝǸȠnjNJNjɲṉṈñÑ | |
ôÔøōŏőơǒǫǭǿȍȏȫȭȯȱØŌŎŐƆƟɵƠǑǪǬǾȌȎȪȬȮȰɔởỞợỢòó | oooooooooooooooooooooooooooooooooo - �òâ�ុ�ɰȮȬȪȎȌȾǬǪǑǠƵɟƆƐŎŌŘñȯȭȫȏȍȿǭǫǒǡƑŏōŸÔô� - ôÔøōŏőơǒǫǭǿȍȏȫȭȯȱØŌŎŐƆƟɵƠǑǪǬǾȌȎȪȬȮȰɔởỞợỢòó | |
œŒ | - �œ� - œŒ | |
ƥƤ | - �ƥ� - ƥƤ | |
ɋɊȹ | - �Ȋɋ� - ɋɊȹ | |
ŕŗřȑȓɍŔŖŘȐȒɌ | rrrrrrrrrr - �ɒȐȘŖŔōɓȑșŗŕ� - ŕŗřȑȓɍŔŖŘȐȒɌ | |
ŝ | s - �� - ŝ | |
ſśşšƪșȿŚŜŞŠƩȘß | sssssssss - �ØȩƠŞŜŚſșȪơşśſ� - ſśşšƪșȿŚŜŞŠƩȘß | |
ţťŧƫƭțȶŢŤŦƬƮȚȾⱦ | tttttt - ���ȚȮƬƦŤŢŶțȭƫƧťţ� - ţťŧƫƭțȶŢŤŦƬƮȚȾⱦ | |
ŭ | u - �� - ŭ | |
ûũūůűųưǔǖǘǚǜǟǡȕȗʉÛŨŪŬŮŰŲƯǓǕǗǙǛȔȖɄủỦúÚùÙüÜ | uuuuuuuuuuuuaauuuuuuuuuuuuuuuuuuuuuuuuu - �üÙùÚúæ�᧻�ɖȔțǙǗǕǓǯƲŰŮŬŪŨśÉʗȕȡǟǜǚǘǖǔǰƳűůūũŻ� - ûũūůűųưǔǖǘǚǜǟǡȕȗʉÛŨŪŬŮŰŲƯǓǕǗǙǛȔȖɄủỦúÚùÙüÜ | |
ʋƲɅʌ | - �ʅɲƋ� - ʋƲɅʌ | |
ŵŴ | ww - �ŵ� - ŵŴ | |
ŷƴȳɏŶŸƳȲɎ | yyyyy - �ɲȳƸŶŏɳȴƷ� - ŷƴȳɏŶŸƳȲɎ | |
źżžƶƹƺǯȥɀŹŻŽƵƷƸǮȤ | zzzzzz - �ȮǸƷƵƽŻŹŀɥȯǺƹƶƾżź� - źżžƶƹƺǯȥɀŹŻŽƵƷƸǮȤ |
Ordre des diacritiques selon [1] — cliquer sur « Clé » pour trier :
Mot | Clé |
---|---|
cote | cote - etoc - cote |
coté | cote - étoc - coté |
côte | cote - etôc - cote |
côté | cote - étôc - côté |
Côte | cote - etôC - Côte |
Coté | cote - étoC - Coté |
Côté | cote - étôC - Côté |
Mot | Clé |
---|---|
pêche | peche - echêp - pêche |
pêché | peche - échêp - pêché |
péché | peche - échép - péché |
pèche | peche - echèp - péche |
Mot | Clé |
---|---|
relève | releve - evèler - relève |
relevé | releve - éveler - relevé |
Discussion
[modifier le wikicode]Le module est clairement dans le champ. Voir ici pour les règles correctes du classement alphabétique français (la page donne même un algorithme).
Le module donne « cote, coté, côte, côté » au lieu de « cote, côte, coté, côté ». Les accents ne sont pas dans le bon ordre non plus. Urhixidur (discussion) 23 septembre 2013 à 14:12 (UTC)
- J’ai ajouté des tableaux qui présentent le tri qui respecte l’ordre des diacritiques du document cité par Urhixidur. Est-ce que cela convient mieux ? — Automatik (discussion) 19 décembre 2013 à 20:18 (UTC)
- J’ai modifié l’algo pour qu’il inverse la deuxième clé. Lua ne peut pas inverser le texte Unicode correctement (pas de fonction mw.ustring disponible), mais la clé semble trier correctement les mots. — Dakdada 20 décembre 2013 à 09:14 (UTC)
- Pourquoi doit-on inverser la deuxième clé ? — TAKASUGI Shinji (d) 7 janvier 2014 à 02:24 (UTC)
- Pour pouvoir suivre l’algorithme proposé ici. Nous pourrions aussi nous baser sur d’autres algorithmes, mais ces règles sur les diacritiques (en particulier "côte" avant "coté") semblent suivies par la majorité des dictionnaires classiques de langue française, d’après ce document. — Automatik (discussion) 7 janvier 2014 à 13:59 (UTC)
- Pourquoi doit-on inverser la deuxième clé ? — TAKASUGI Shinji (d) 7 janvier 2014 à 02:24 (UTC)
- J’ai modifié l’algo pour qu’il inverse la deuxième clé. Lua ne peut pas inverser le texte Unicode correctement (pas de fonction mw.ustring disponible), mais la clé semble trier correctement les mots. — Dakdada 20 décembre 2013 à 09:14 (UTC)
Cyrillique
[modifier le wikicode]- Comment on fait pour le cyrillique, il faudrait publier un consensus là-dessus. JackPotte ($♠) 19 décembre 2013 à 20:24 (UTC)
- Les anglophones remplacent ё par е suivi d’un caractère invisible, qui a la valeur Unicode la plus élevée, soit U+10FFFF — cf. en:Module:languages/data2. Pour l’ossète, ils ne remplacent pas les diacritiques par contre. Que devrait-on faire ?
- Chaque langue qui gère les diacritiques de façon singulière doit être gérée à part dans le module de toute façon, donc pour chaque langue où il y a un doute il faudrait que ce soit validé par les contributeurs qui s’y intéressent. — Automatik (discussion) 19 décembre 2013 à 21:06 (UTC)
- En attendant je remets le 'jo' russe d'équerre. JackPotte ($♠) 17 janvier 2014 à 22:13 (UTC)
- Sur ce point, Unicode dit (libraire C.L.D.R.) :
- que, selon le tri français (et standard), ё (io) doit être considérée comme : е (ié) + ¨ (c’est-à-dire qu’on doit le traiter comme on traite les accents en français : différence secondaire) ;
- que les tris français, bulgare et russe sont identiques ;
- rien sur le tri ossète (pas de fichier xml). Chris06 ✍ 28 juillet 2014 à 20:11 (UTC)
- Note : dans le cadre du développement de ce nouveau module, pour en savoir plus sur les principes du tri alphabétique à la lumière des normes internationales, vous pouvez consulter la page personnelle Utilisateur:Chris06/Bac_à_sable/Wiktionnaire:Tri_alphabétique, et sa page de discussion qui explicite les options à choisir. Je pensais ouvrir une discussion publique là-dessus (on n’a pas d’homogénéité et de clarté des règles sur le Wiktionnaire), mais cela est au-dessus de mes forces. Chris06 ✍ 6 septembre 2014 à 23:05 (UTC)
- Je précise que la lettre cyrillique concernée n'existe ni en français (bien sûr), ni en bulgare... Parler des tris français et bulgare est donc à éviter si on ne veut pas créer de confusion. Pour le russe, il faut effectivement (pour cette lettre) faire comme pour les accents en français (nos index de catégories en russe regroupent bien les deux lettres, ils ont raison). Si en.wikt fait autrement, ils ont tort. L'ordre alphabétique est peut-être différent pour l'ossète, je n'en sais rien. Lmaltier (discussion) 20 novembre 2014 à 20:46 (UTC)
- Comment on fait pour le cyrillique, il faudrait publier un consensus là-dessus. JackPotte ($♠) 19 décembre 2013 à 20:24 (UTC)
Préparation des clés de tri
[modifier le wikicode]Il est possible de lire le contenu wiki d'un article sans surcoût : du coup j'ai testé un parseur (!) pour extraire les langues qui ont une section (et pour lesquelles on a besoin de clés de tri), et ça marche bien : Discussion module:bac à sable/get content. Ce qu'on va pouvoir faire c'est donc ça : un module de clés de tris générées et mises en cache. En pratique, la première fois qu'un module ou une fonction demande une clé de tri dans un article, le module lit tout l'article, récupère tous les codes langues, crée une clé de tri pour chacune et les renvoie dans un tableau en cache. Du coup toutes les clés de tri sont créées en une seule fois et chaque fois qu'il y en a besoin il suffit de récupérer la clé de tri mise en cache pour la langue donnée.
Au final, on n'aura plus aucune trace des clés de tri dans les articles, et les clés seront générées une seule fois par langue (=coût négligeable) ! Bien entendu cela suppose qu'on ait des règles de tri pour toutes les langues, mais on peut avoir des tris par défaut (toutes les langues n'ont pas nécessairement des règles de tri). — Dakdada 30 mars 2014 à 12:46 (UTC)
- Et certaines ont deux alphabets donc il faudrait les séparer en deux codes langues ? (je ne pense pas qu'il y ait des caractères communs aux deux alphabets mais on ne sait jamais). JackPotte ($♠) 30 mars 2014 à 12:56 (UTC)
- S'ils sont mélangés on en prend compte dans la description des règles. S'il y a deux alphabets différents, alors les caractères sont forcément différents. — Dakdada 30 mars 2014 à 13:48 (UTC)
- Cela dit je serais pour séparer les codes langues s'il y a plusieurs scripts. — Dakdada 30 mars 2014 à 13:49 (UTC)
- Je propose en fait de définir une clé de tri pour toutes les langues (car la plupart des règles sont communes), puis d'ajouter plus haut les quelques exceptions que j'ai commencé à inventorier sur Module:clé de tri pour chacune, identifiée grâce au code langue de {{langue}} et {{S}} qui invoqueront ce module à chaque catégorisation. JackPotte ($♠) 6 novembre 2014 à 21:39 (UTC)
- Ok. Pour distribuer les clés, je recommande d'utiliser Module:passe-partout come intermédiaire qui précalcule toutes les clés d'une page (avec le module de clé de tri) en fonction des langues présentes. — Dakdada 7 novembre 2014 à 10:49 (UTC)
- Très bien, il ne restera que les catégories "en dur" pour lesquelles nous aurons un appel direct au module (ex : [[Catégorie:Lexique en français de la famille|{{clef}}]]). JackPotte ($♠) 7 novembre 2014 à 11:45 (UTC)
- Ok. Pour distribuer les clés, je recommande d'utiliser Module:passe-partout come intermédiaire qui précalcule toutes les clés d'une page (avec le module de clé de tri) en fonction des langues présentes. — Dakdada 7 novembre 2014 à 10:49 (UTC)
- Je propose en fait de définir une clé de tri pour toutes les langues (car la plupart des règles sont communes), puis d'ajouter plus haut les quelques exceptions que j'ai commencé à inventorier sur Module:clé de tri pour chacune, identifiée grâce au code langue de {{langue}} et {{S}} qui invoqueront ce module à chaque catégorisation. JackPotte ($♠) 6 novembre 2014 à 21:39 (UTC)
- Personnellement, je serais fortement contre séparer les scripts différents au moyen de codes langue différents. C'est toujours la même langue quelle que soit la façon dont elle est écrite. Il suffit d'avoir des index adaptés dans les catégories pour que ça ne pose aucun problème au lecteur. Lmaltier (discussion) 20 novembre 2014 à 20:27 (UTC)
Corrections à apporter au module
[modifier le wikicode]La clé de tri en français de σ-additivité avec ce module ignore actuellement le sigma : additivite - ��tivitidda �� - σ additivité. Est-ce voulu ? Voir aussi d’autres cas similaires en français [2]. — Automatik (discussion) 6 novembre 2014 à 21:44 (UTC)
- Toutes les lettres non latines sont retirées par la formule actuelle, mais si vous êtes d'accord elle évoluera vers celle de Module:clé de tri3 qui affiche le sigma (à la fin). JackPotte ($♠) 7 novembre 2014 à 11:48 (UTC)
- Plutôt Pour : ça m’a l’air d’être une amélioration du 2. Il manque la prise en compte de quelques alphabets apparemment ; on peut les ajouter à notre guise ? — Automatik (discussion) 7 novembre 2014 à 13:45 (UTC)