Utilisateur:Bécarre/Bac à sable/Wiktionnaire:Tri alphabétique

Avertissement sur l’existence et le contenu de cette page en préparation

Cette page traitant du tri alphabétique sur le Wiktionnaire fait suite à la discussion commencée sur Discussion_modèle:voir/Documentation. Son objectif est double.

Dès lors que Lua va permettre de générer des clés de tri complètes, elle pourra être un support de discussion des règles qui vont aller avec ; elle explique les fondements du tri alphabétique sur la base des normes internationales existantes, et en indique par là-même les options associées : en l’état, 6 items prêtant à un choix sont recensés. La première mouture de la page adopte les options qui, à la fois apparaitront les plus naturelles pour un lecteur ou contributeur français au regard du classement opéré par les dictionnaires usuels, et qui se trouvent être les plus simples (ce sont les options par défaut de la norme ISO, ce qui n’est qu’à moitié étonnant, puisque cette norme trouve sa source dans un document de 1988 édité par le gouvernement du Québec). Le Wiktionnaire n’a jusqu’à maintenant pas de classement alphabétique générique bien déterminé (les modèles {{voir}} et {{clé de tri}} définissent chacun leurs règles) mais il est important de noter que cette première mouture ne correspond pas, au premier niveau du tri, aux règles qui avaient été débattues en 2006 et qui ont cours dans le modèle clé de tri (au regard desquelles deux signes de ponctuation, l’espace et le tiret, sont considérés comme des lettres).
La page pourra servir de référence (tout en évoluant si les règles changent), tant pour les tris automatiques que pour les tris manuels.

Cette page est encore en construction et reste à compléter.

Tenez-en compte en considérant son contenu. Si vous voulez ressusciter cette page, merci d’en parler sur Wiktionnaire:Wikidémie afin d’avoir du soutien.

Cette page est une ébauche et devra être discutée et modifiée en conséquence (voir avertissement). En attendant, elle ne représente pas le tri en usage aujourd’hui sur le Wiktionnaire.

Cette page décrit le tri alphabétique en usage sur le Wiktionnaire francophone.

Ci-dessous se trouve un guide synthétique (cliquer sur Dérouler) à destination des contributeurs qui cherchent à trier une liste de mots mettant en jeu des caractères suffisamment communs, notamment une liste de mots français. La méthode de tri complète est décrite dans le reste du document.

Guide synthétique presque toujours suffisant pour effectuer un tri manuel

Pour trier des mots dans des listes, on fait comme dans un dictionnaire :

On compare d’abord les mots sans espaces, tirets, apostrophes, etc., sans majuscules, sans accents :
- Apollinaire (apollinaire)
- à priori (apriori)
S’ils sont identiques, on prend en compte les accents pour les départager (e < é < è < ê < ë) :
- alaise (alaise)
- à l’aise (àlaise)
- péché (péché)
- pêche (pêche)
S’ils sont encore identiques, on prend en compte les majuscules (minuscule < majuscule) :
- c. q. f. d. (cqfd)
- CQFD (CQFD)
S’ils sont toujours identiques, on prend en compte les signes de ponctuation (espace < tiret < point < apostrophe < lettre) :
- A.G.E.
- AGE
- c-à-d
- c.-à-d.
- pro
- pro-
- -re
- re

Présentation

Domaine d’applicabilité

Le tri alphabétique décrit dans les règles de tri est recommandé à chaque fois qu’une liste d’articles du Wiktionnaire (sous forme de liste à puces ou d’énumération) est présentée dans un article, et qu’aucun autre ordonnancement particulier ne prévaut. Les cas recensés sont :

les listes à puces dans les sous-sections, comme les synonymes, dérivés… (tri manuel) ;
les listes à puces dans les catégories, basées sur la clé de tri de chaque article (tri en cours d’automatisation) ;
les énumérations dans les sous-pages de {{voir}} (tri actuellement manuel, pouvant être automatisé par robot).

Objectif

L’application des règles de tri alphabétique vise à faciliter la recherche d’un mot au sein d’une liste à un utilisateur du Wiktionnaire francophone.

En conséquence :

Le tri des mots du lexique français doit être comparable à celui effectué par les dictionnaires francophones usuels.
Le tri d’une liste regroupant des mots de plusieurs langues sera effectué selon le tri français.
Doit-on trier les mots d’une langue étrangère suivant le tri français ou suivant le tri en usage chez les locuteurs de la langue concernée ?

Introduction au tri alphabétique

Une approche naïve du tri alphabétique consisterait à penser qu’il suffit d’attribuer à chaque caractère Unicode un poids simple (un entier naturel, différent pour chaque caractère), et de comparer les mots à trier caractère par caractère sur la base de ces poids, pour trouver lequel vient avant l’autre. Cette approche permet en effet d’établir une relation d’ordre complète sur l’ensemble des mots (c’est-à-dire qu’on saura à coup sûr classer deux mots différents), mais son résultat ne peut, quels que soient les poids choisis, refléter l’ordre alphabétique usuel qui nous permet de trouver un mot dans un dictionnaire. La table ci-dessous illustre cela dans le cas où l’on donne à la lettre é un poids supérieur à la lettre e.

Tri naïf	Tri du dictionnaire
beau < béat	béat < beau

Le tri naïf, considérant la lettre é comme lettre à part entière, présenterait tous les mots commençant par be- avant tous les mots commençant par bé-, ce qui n’est pas ce que nous observons dans les dictionnaires. Sur cet exemple, nous voyons donc que l’ordre alphabétique des dictionnaires usuels, qui s’est imposé par l’usage, est plus subtil et considère un caractère non comme un tout, mais comme un composite, une sorte d’édifice à plusieurs étages :

Étage	lettre e	lettre é
2		´
1	e	e

L’étage 1 est l’étage de base (la lettre nue), l’étage 2 coiffe la lettre de ses accents, etc. Les mots sont d’abord comparés suivant l’étage 1 (la comparaison entre béat et beau suivant l’étage 1 compare beat avec beau, ce qui donne directement le résultat), et s’ils sont égaux au premier étage, on monte au deuxième étage pour effectuer une deuxième comparaison.

Étage	mot bêche	mot bêché
2	`^`	`^ ´`
1	`beche`	`beche`

Ici, on obtient la différence lors de la comparaison du 2^e étage, sur le dernier caractère : l’accent aigu a un poids supérieur à aucun accent, donc bêche < bêché.

Formalisation de la méthode de tri par des normes internationales

Deux organisations internationales, l’ISO/C.E.I. et Unicode, ont défini chacune une norme qui formalise la méthode de tri alphabétique. Ces normes sont équivalentes, si ce n’est que la norme Unicode offre un choix plus large de traitement du niveau 4. Les deux organisations travaillent conjointement et maintiennent notamment leur fichier de poids standard synchronisés. Le formalisme est cependant différent. Voici les liens vers ces deux normes :

ISO/C.E.I. 14651 : http://standards.iso.org/ittf/PubliclyAvailableStandards/c057976_ISO_IEC_14651_2011_F.zip (table-modèle commune : http://www.iso.org/ittf/ISO14651_2012_TABLE1_fr.txt) ;
U.C.A. : http://www.unicode.org/reports/tr10 (Default Unicode Collation Element Table : http://www.unicode.org/Public/UCA/latest/allkeys.txt).

D’autre part, les règles de tri édictées par Unicode sont incorporées à leur librairie de localisation C.L.D.R..

Synthèse des principes de tri

Il est à noter que si chacune des deux normes diffère par sa formalisation, notamment en matière de génération des clés, leurs principes sont identiques, et tout algorithme implémentant la norme peut utiliser le format de clé qu’il désire, pourvu que le résultat du tri soit conforme.

Note (car ça ne va pas forcément de soi) : si A un poids plus faible que B, cela signifie que A sera rangé avant B.

Niveaux de tri

Comme vu dans l’introduction au tri alphabétique, il existe des « étages » de tri, fondamentaux pour l’algorithmique du tri, que nous nommerons dorénavant niveaux, pour être plus fidèle au standard. Plus le niveau est élevé, moindre est son importance dans le tri.

Niveaux obligatoires 1, 2 et 3

Le niveau 1 représente le caractère de base. Par exemple, pour le tri français, les lettres utilisées pour former tant des mots français qu’espagnols ont, au niveau 1, 26 poids distincts (en correspondance avec les lettres a..z). Pour le tri espagnol, le niveau 1 pour ces mêmes lettres comporte 27 poids distincts, car la lettre ñ est considérée comme une lettre à part entière (et jusqu’en 1994, il y en avait 29, les digrammes ch et ll étant alors considérés eux aussi comme lettre à part entière).

Le niveau 2 représente les diacritiques (accents, cédilles…). Chaque diacritique a un poids unique, permettant de les ordonner. Il y a également un poids (le plus faible des poids de niveau 2) pour les caractères dénués de diacritique, afin qu’ils fassent bien partie de la comparaison de niveau 2, pour que la position des diacritiques dans le mot soit bien prise en compte aux fins du tri. Les diacritiques multiples (par exemple ᾠ) sont formellement décomposés en leur suite avec un ordre préétabli (qui correspond à la forme normalisée D d’Unicode) : le tri est alors effectué sur cette base ; voir ci-dessous Diacritiques multiples.

Le niveau 3 représente la casse (minuscule, majuscule, exposant, variante en fin de mot…). Chaque type de casse a un poids distinct ; par défaut, la casse minuscule a un poids moindre que la casse majuscule.

Niveau optionnel 4 : signes de ponctuation

Certains mots et, par définition, toutes les locutions comportent des signes de ponctuation : espace, tiret, apostrophe, point, pour ne citer que les plus fréquents.

La tradition des dictionnaires est d’ignorer ces signes aux niveaux 1, 2 et 3, et de n’en tenir compte que si les mots sont identiques aux niveaux 1, 2 et 3 (l’autre option, décrite par l’U.C.A., est de les considérer comme caractères à part entière dès le niveau 1). Si l’on ignore la ponctuation, alors :

soit on l’introduit au quatrième niveau afin de départager, par exemple : TGV et T.G.V. (U.C.A. préconise alors d’affecter un poids maximum aux autres caractères, ce qui résulte en T.G.V. < TGV) ;
soit on ne l’introduit pas au quatrième niveau, ce qui résulte en un ordre indéterminé entre TGV et T.G.V.

D’autre part, il est loisible d’adapter la liste des signes que l’on considère comme caractères à part entière (présents au niveau 1) et celle des signes que l’on souhaite ignorer ou rejeter au niveau 4.

Ligatures

Pour le tri français (et le tri standard), la ligature æ est considérée comme un a avec un diacritique (d’un poids supérieur à tous les autres diacritiques), suivi d’un e. Les ligatures sont donc considérées comme deux lettres séparées pour le niveau 1.

Diacritiques multiples

Description du traitement des diacritiques multiples

Les symboles portant plusieurs diacritiques sont décomposés au niveau 2 en la suite de ces diacritiques. Cette suite s’ordonne selon une règle précise, issue de la normalisation D d’Unicode. Pour déterminer cet ordre, deux solutions :

consulter la DUCET qui pour chaque caractère Unicode déjà composé donne l’ordre de décomposition ;
avoir une idée de la logique de l’ordonnancement, ce qui est souvent suffisant pour les cas courants.

La logique d’ordonnancement est commandée par les classes combinatoires spécifiées dans ce document : http://hapax.qc.ca/pdf/Chapitre-4.pdf dans le tableau 4-3. Grosso modo, on considère les classes de diacritiques dans cet ordre (on se restreint ici aux classes les plus usuelles), dont la logique est « du plus près au plus éloigné du caractère » (et de bas en haut pour une même distance) :

les diacritiques traversants : ø ;
les diacritiques joints en bas : ç ;
les diacritiques joints en haut à droite : ơ ;
les diacritiques souscrits : ọ ;
les diacritiques suscrits : é ;
et, étrangement en dernier et seul dans sa classe, le iota souscrit grec : ῳ.

Si deux diacritiques sont de même classe (ἆ, ἔ : dans ces deux cas, deux diacritiques suscrits), leur ordre est celui dans lequel ils apparaissent (soit de gauche à droite, soit du plus près au plus éloigné).

On peut alors reprendre la notation en niveaux en rajoutant des sous-niveaux du niveau 2 pour expliciter les choses :

Niveau	lettre ø	lettre ǿ	lettre ὣ	lettre ᾣ	lettre ῳ
2.3				ͅ
2.2		́	̀	̀
2.1	̸	̸	̔	̔	ͅ
1	o	o	ω	ω	ω

On se ramène alors à une comparaison de diacritiques simples (dont il faut connaitre les poids relatifs, voir Poids des symboles), sous-niveau par sous-niveau. Sur cet exemple, on peut néanmoins, sans connaitre les poids relatifs des diacritiques, déjà ordonner : ø < ǿ et ὣ < ᾣ puisqu’on est amenés dans ces deux exemples à comparer, au dernier sous-niveau, une absence de diacritique avec un diacritique (les premiers sous-niveaux ayant les mêmes diacritiques). À l’inverse, ordonner ᾣ et ῳ nécessite de connaitre les poids relatifs de l’esprit rude et du iota souscrit.

Règles de tri

Les règles de tri respectent la norme U.C.A.

Les règles suivantes sont toutes soumises à discussion sur la page de discussion.

Le tri est unique et adapté aux habitudes de classement françaises. On prendra cette hypothèse pour traiter des règles suivantes, qui en tout état de cause ne s’appliqueront que pour le tri français.
Par défaut, les poids retenus sont ceux de la DUCET (« table Unicode par défaut des éléments de collation ») de la norme U.C.A.

Niveau 1 : caractères de base

Tous les signes de ponctuation sont ignorés (ils sont traités au niveau 4).

Niveau 2 : accents, diacritiques

Les diacritiques sont traités normalement, en parcourant le mot de gauche à droite.

Niveau 3 : casse, variantes

La minuscule vient avant la majuscule (conformité avec la DUCET).

Niveau 4 : ponctuation

Le niveau 4 est traité ; la méthode retenue est shifted (préconisée par U.C.A. lorsque le niveau 4 est traité : la ponctuation a un poids moindre que les autres caractères : T.G.V. < TGV).

Poids des symboles

Cette section rassemble l’ordonnancement d’un certain nombre de symboles pour chaque niveau. Pour les autres, il suffit de se référer soit à la DUCET d’Unicode, soit à la table-modèle commune de l’ISO (l’avantage de la table-modèle commune est de présenter les symboles par ordre de poids, la DUCET les présentant par ordre de point Unicode).

Les symboles sont listés, à chaque niveau, par ordre de poids croissant (lorsque le poids est identique entre certains symboles, cela est indiqué).

Niveau 1 : caractères de base

Famille	Symboles
symboles monétaires	¤, ¢, $, £, ¥, €
chiffres arabes	0 – 9
alphabet latin	a – z, ʒ, þ, ƿ
alphabet grec	α, β, γ, δ, ε, ϝ, ϛ, ζ, ͱ, η, θ, ι, ϳ, κ, λ, μ, ν, ξ, ο, π, ϻ, Ϟ, ρ, σ, τ, υ, φ, χ, ψ, ω, ϡ, ϸ
alphabet copte
alphabet cyrillique	а, б, в, г, д, е, ж, з, и, і, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ъ, ы, ь, ҍ, э, ю, я, ѳ, ѵ
alphabet géorgien
alphabet arménien
alphabet hébreu
alphabet arabe

Notes

La variante du sigma grec σ, qui est : ς (et qui est utilisée en fin de mot), se différencie de σ au niveau 3 (casse).
La lettre cyrillique ё (io) se distingue de la lettre cyrillique е (ié) au niveau 2 (diacritique) : ё est considérée comme : е + ¨, c’est pour cela qu’elle n’apparait pas au niveau 1.

Niveau 2 : accents, diacritiques

Sont précisés ici les poids relatifs des diacritiques simples. Pour le traitement des diacritiques multiples, se référer à la section Diacritiques multiples.

o [pas de diacritique]
o̲ [souligné]
o̓ [virgule en chef, esprit doux]
o̔ [virgule réfléchie en chef, esprit rude]
ó [accent aigu]
ò [accent grave]
ŏ [brève]
ô [accent circonflexe]
ǒ [caron, hatchek, accent antiflexe]
o̊ [rond en chef]
o͂ [accent circonflexe grec]
ö [tréma]
ő [double accent aigu]
õ [tilde]
ȯ [point en chef]
o̸ [barre oblique longue couvrante]
ç [cédille]
ǫ [ogonek]
ō [macron]
o̍ [ligne verticale en chef], et à poids égal les autres « signes génériques suscrits » (<DABOVE> dans la table-modèle commune)
o̖ [accent grave souscrit], et à poids égal les autres « signes génériques souscrits » (<DBELOW> dans la table-modèle commune)
o̶ [barre longue couvrante], et à poids égal les autres « signes génériques transversaux » (<DTHRU> dans la table-modèle commune)
o⃝ [cercle englobant], et à poids égal les autres « signes génériques contournant » (<DAROUND> dans la table-modèle commune)
o゙ [katakana-hiagana son voisé]
o゚ [katakana-hiagana son semi-voisé]
o̵ [barre courte couvrante]
o̅ [tiret haut]
ỏ [crochet en chef]
ȍ [double accent grave]
o̐ [tchandrabindou]
ȏ [brève renversée]
ơ [cornu]
o̡ [hameçon palatal souscrit]
o̢ [hameçon rétroflexe souscrit]
ọ [point souscrit]
o̤ [tréma souscrit]
o̥ [rond souscrit]
o̦ [virgule souscrite]
o̭ [accent circonflexe souscrit]
o̮ [brève souscrite]
o̰ [tilde souscrit]
o̱ [macron souscrit]
o̴ [tilde couvrant]
o̹ [demi-rond à droite souscrit]
oͅ [iota souscrit grec]
o͘ [point en chef à droite]
o͠o [double tilde]
o͡o [double brève renversée]
o҃ [cyrillique titlo]

… viennent ensuite les diacritiques hébreux, samaritains, arabes, syriens, éthiopiens, thaïs, etc. : consulter la DUCET…

puis les ligatures, de poids égal entre elles :

æ [ligature latine ae = a + diacr. + e], ð [lettre eth = d + diacr.], ß [eszett, s dur utilisé en allemand = s + diacr. + s], etc.

Niveau 3 : casse, variantes

o [minuscule]
ｏ [pleine chasse]
ⓞ [cerclé]
O [majuscule]
Ｏ [majuscule pleine chasse]
Ⓞ [majuscule cerclée]
ᵒ [minuscule en exposant]
ₒ [minuscule en indice]
ﺑ [forme initiale (en début de mot) ; ici, de la lettre arabe ب (bāʾ)]
ﺒ [forme médiane (en milieu de mot) ; ici, de la lettre arabe ب (bāʾ)]
ς [forme finale (en fin de mot) ; ici, de la lettre grecque σ (sigma)]
ﺏ [forme isolée ; ici, de la lettre arabe ب (bāʾ)]
ᴼ [majuscule en exposant]
¼ [fraction]

Niveau 4 : ponctuation

Entre parenthèses figurent de façon informative les poids assignés par la DUCET.

[espace] (0209)
_ [tiret bas] (020B)
- [trait d’union-signe moins] (020D)
– [tiret demi-cadratin] (0215)
— [tiret cadratin] (0216)
, [virgule] (0221)
; [point-virgule] (0233)
: [deux-points] (0238)
! [point d’exclamation] (025F)
¡ [point d’exclamation renversé] (0260)
? [point d’interrogation] (0264)
¿ [point d’interrogation renversé] (0265)
. [point] (0274)
· [point médian] (0288)
' [apostrophe dactylographique] (02F8)
’ [apostrophe] (02FA)
‹ [guillemet simple vers la gauche] (02FD)
› [guillemet simple vers la droite] (02FE)
" [guillemet anglais] (02FF)
« [guillemet gauche] (0308)
» [guillemet droit] (0309)
( [parenthèse gauche] (030A)
) [parenthèse droite] (030B)
[ [crochet gauche] (030C)
] [crochet droit] (030D)
{ [accolade gauche] (030E)
} [accolade droite] (030F)
§ [paragraphe] (037C)
¶ [pied-de-mouche] (037E)
@ [arobase] (0381)
* [astérisque] (0382)
/ [barre oblique] (0387)
\ [barre oblique inversée] (0388)
# [croisillon] (038B)
% [pour cent] (038C)
& [esperluette] (0389)
′ [prime] (039D)
` [accent grave (chassant)] (0446)
´ [accent aigu (chassant)] (0447)
^ [accent circonflexe (chassant)] (0449)
¯ [macron (chassant)] (044A)
¨ [tréma (chassant)] (044D)
ˇ [caron (chassant)] (045F)
° [degré] (04BA)
© [copyright] (0546)
® [marque déposée] (0547)
+ [signe plus] (05D6)
± [plus-ou-moins] (05D7)
÷ [signe de division] (05D8)
× [signe de multiplication] (05D9)
< [signe inférieur à] (05DA)
= [signe égal] (05DB)
> [signe supérieur à] (05DC)
¬ [signe négation] (05DD)
| [barre verticale] (05DE)
~ [tilde (chassant)] (05E0)
− [signe moins] (05E1)

Exemples de tri

Note : dans le cas où une lettre possède plusieurs diacritiques, ces diacritiques sont indiquées entre crochets dans l’ordre où elles doivent être prises en compte pour le tri (voir la section Diacritiques multiples) et non dans l’ordre de la dénomination Unicode de la lettre en question, ceci afin de faciliter la compréhension.

ala
Ala
alá
à la
âlâ
arc-boutant
arcboutant
arceau
arc en ciel
arc-en-ciel
-bo
bo
bo-
Bo
BO
bó
bò
bô
bố [o accent circonflexe et accent aigu]
bổ [o accent circonflexe et crochet en chef]
bǒ [o caron]
Bö
bō [o macron]
bỏ [o crochet en chef]
bơ [o cornu]
bờ [o cornu et accent grave]
bở [o cornu et crochet en chef]
bợ [o cornu et point souscrit]
bọ [o point souscrit]
bộ [o point souscrit et accent circonflexe]
bo̱ [o macron souscrit]
boʼ [attention, dans ce mot, ʼ est une lettre (« lettre modificative apostrophe ») et non un signe de ponctuation !]
don
don-
Don
Dôn
dọn [o point souscrit]
đón [đ : U+0111 (« d barré ») = d + diacritique « barre courte couvrante »]
đòn
đốn [o accent circonflexe et accent aigu]
đơn [o cornu]
độn [o point souscrit et accent circonflexe]
paris
Paris
Pâris
péché
pèche
pêche
pécher
pêcher
-re
re
re-
Re
RE
ré
ré-
Ré
rè
rê
Rê
rế [e accent circonflexe et accent aigu]
rễ [e accent circonflexe et tilde]
rể [e accent circonflexe et crochet en chef]
rẽ [e tilde]
rẻ [e crochet en chef]