Discussion utilisateur:Bécarre/Bac à sable/Wiktionnaire:Tri alphabétique

Guide synthétique

Dernier commentaire : il y a 10 ans2 commentaires2 participants à la discussion

Le guide synthétique dit représenter l’usage, mais j’ai toujours vu les majuscules être placées avant les minuscules dans {{voir}}, contrairement à ce que propose le guide.

Aussi, l’usage il me semble est de ne pas annihiler les espaces, et de remplacer les tirets par des espaces justement.

Donc je suppose que ce sont des propositions non encore en usage (?).

Personnellement je trouve le remplacement des tirets par des espaces plus pratique, comme je l’avais exprimé dans Discussion_modèle:clé_de_tri#Distinction radical / affixe pour gérer les tirets avec un exemple. — Automatik (discussion) 29 juillet 2014 à 23:21 (UTC)Répondre

Ah oui, c’est le texte qui devra être là dans la version finale de la page, et ce n’est effectivement pas le tri en usage (c’est bien pour ça que ce n’est pas encore la page officielle, qu’il y a un avertissement, et que je disais dans la page de discussion du modèle voir qu’il faudrait surement éviter de la faire apparaitre en tant que Wiktionnaire:Tri alphabétique avant que le consensus soit dégagé et la page modifiée en conséquence). Je rajoute donc un autre avertissement, c’est fait ! Je vais aussi lister avant de partir les 6 points qui devront se retrouver sur la page de discussion, qui sont ceux déjà listés dans les règles, et commencer à en donner les problématiques, et pour l’un d’eux, mes commentaires. Chris06 ✍ 30 juillet 2014 à 23:23 (UTC)Répondre

Liste des options à discuter

Dernier commentaire : il y a 10 ans6 commentaires1 participant à la discussion

Tri unique à la française ou tri selon chaque langue ?

Problématique

Liste de mots français, liste de mots de langues différentes ⇒ tri français
Question pour une liste de mots d’une seule langue étrangère. Pour certaines langues, le tri standard (= tri français) est aussi celui qu’elles appliquent (bulgare, russe, italien), pour d’autres, le tri est différent : exemple l’espagnol (où ñ est une lettre de base et non n + ~). Dans ce cas, dit-on que le Wiktionnaire, étant francophone par nature, applique un tri unique (français) partout ? Ou le Wiktionnaire souhaite-t-il plutôt respecter les usages de tri des langues étrangères, et classer les listes de mots d’une langue donnée en respectant les habitudes de la langue ?
Note : si on a un tri différent par langue, les options suivantes seront à définir pour chaque langue.

Discussion

Le Wiktionnaire est francophone, mais il traite aussi des mots d'autres langues, et ces mots ne sont pas francophones. Il est bien évident qu'il faut respecter l'ordre alphabétique de la langue. D'ailleurs, on ne peut pas parler d'ordre alphabétique français pour des mots écrits avec des caractères ne faisant pas partie de l'alphabet du français, je l'ai déjà dit. A priori, on ne mélange jamais plusieurs langues dans une même catégorie, donc pas de problème pour choisir pour chaque catégorie l'ordre alphabétique adapté à la langue (sauf les problèmes techniques dans certains cas). Lmaltier (discussion) 6 septembre 2014 à 17:56 (UTC)Répondre

(pour le tri français) Les poids des symboles sont conformes à ceux de la table de référence

Problématique

pas de problématique pour en vue pour l’instant (en dehors du point 5 qui peut avoir un impact)

Discussion

Je ne comprends pas de quoi il s'agit. Lmaltier (discussion) 6 septembre 2014 à 18:09 (UTC)Répondre

(pour le tri français) Tous les signes de ponctuation sont ignorés au premier niveau

Problématique (avec un léger parti pris )

Dans les dictionnaires francophones, tous les signes de ponctuation sont ignorés au premier niveau. Les locuteurs francophones ont donc cette habitude.
Cependant, l’option en usage sur le Wiktionnaire (voir notamment Wiktionnaire:Wikidémie/Archives_9#Concernant les espaces) est :
- que l’espace doit être considérée comme une lettre et donc traitée au premier niveau ; les arguments en faveur de cette option se basent sur la multiplicité des locutions traitées dans le Wiktionnaire mais n’apparaissent pas déterminants (considérations esthétiques, rapprochement par mot de base, nature grammaticale (mot/locution), sens (saint/sainte), etc.) car ceux-ci font appel à des notions qui ont à voir avec les mots et non avec les lettres, toutes choses donc qu’un tri alphabétique, par définition, devrait ignorer. Cette option casse immanquablement le tri alphabétique habituel (par exemple a priori se retrouve à mille lieux de apriori) ;
- que le trait d’union doit être considéré comme une espace : c’est-à-dire que le trait d’union est remplacé par une espace avant la génération de la clé de tri. Cette option est singulière, car elle introduit un pré-traitement ; une conséquence en étant que deux mots ne différant que par les espaces et traits d’union n’ont plus d’ordre relatif. Son objectif est, dans le cadre où l’espace est considérée comme une lettre (voir au-dessus), de rapprocher arc-en-ciel de arc en ciel, plutôt que passe-montage de passemontagne (option où le trait d’union serait ignoré au premier niveau). Comme l’espace est actuellement considérée comme une lettre, s’en tenir à considérer le trait d’union comme une lettre ne « suffirait » pas : nous aurions arc en ciel, arc entrant, …, arc-en-ciel. Ce choix casse évidemment le tri alphabétique habituel ;
- que les autres signes de ponctuation (notamment l’apostrophe et le point) sont considérés comme tels et donc ignorés au premier niveau.

Discussion

L'option actuellement choisie est celle souvent choisie par les documents où il y a beaucoup de locutions (par exemple un répertoire de stations de métro ou de noms de rues, etc.). Les lecteurs y sont donc également habitués. Par ailleurs, ils sont habitués pas les dictionnaires courants à chercher les locutions dans le mot principal (en général le premier mot), et ce que nous faisons est conforme à cette habitude, puisque qu'on trouvera des locutions comme renard roux juste après renard, et sans renardeau entre les deux pour les séparer. Il faut tenir compte de nos caractéristiques propres pour choisir la meilleure solution.

La seule incohérence est sans doute l'apostrophe, qu'à mon avis, il n'y a pas vraiment de raison de ne pas traiter comme le trait d'union.

Par ailleurs, pourquoi absolument vouloir un ordre 100 % prévisible ? L'important est que des mots comme paris et Paris soient regroupés, et qu'on les voit bien ensemble.

Un autre argument est aussi que nous avons de nombreux contributeurs, et qu'on ne peut pas demander à tous d'assimiler des règles très complexes, ce qui ne peut que les décourager et les faire partir. les dictionnaires habituels n'ont pas cette problématique. Lmaltier (discussion) 6 septembre 2014 à 18:05 (UTC)Répondre

(pour le tri français) Les diacritiques (accents) sont traités en parcourant le mot de gauche à droite

Problématique

Dans le document émis par le gouvernement du Canada et qui a précédé la norme, les auteurs remarquent que certains dictionnaires traitent les accents en parcourant le mot de la droite vers la gauche. Cela en conséquence devient une option du tri.
La norme Unicode dit aujourd’hui que le français de France et de partout ailleurs qu’au Canada traite les accents de gauche à droite, et que le français du Canada fait l’inverse.
J’ai le Petit Robert 1993 à la maison, et je constate que les accents sont traités normalement : de gauche à droite.
Il faudrait regarder dans les autres dictionnaires si c’est également le cas, auquel cas il semble évident de choisir le sens naturel de gauche à droite (tester par exemple péché et pêche).

Discussion

Cette différence France / Canada est une bonne raison pour ne pas s'en préoccuper. Lmaltier (discussion) 6 septembre 2014 à 18:06 (UTC)Répondre

(pour le tri français) La minuscule vient avant la majuscule

Problématique

Ce point est lié avec la règle 2 (les poids des symboles sont en conformité avec la table de référence).
D’après l’ISO, la tradition française n’est pas bien établie ; cependant, Unicode donne cet ordre pour le français.
Dans d’autres pays, la tradition est mieux établie (Allemagne : minuscules avant, Danemark : minuscule après).
Il faudrait regarder dans les dictionnaires encyclopédiques, par exemple l’ordre entre auguste et Auguste, si quelque chose se dégage, sinon autant prendre la règle indiquée par Unicode, qui semble plutôt naturelle (la majuscule est « quelque chose en plus » par rapport à la lettre minuscule de base).

Discussion

Hachette 1991 donne auguste avant Auguste.

Pourquoi s'en préoccuper ? De toute façon, le nombre de mots concernés est au maximum de 2 ou 3, probablement. Lmaltier (discussion) 6 septembre 2014 à 18:07 (UTC)Répondre

(pour le tri français) Le niveau 4 est traité, la méthode retenue est shifted

Problématique

On peut indiquer l’ordre des signes de ponctuation (à la fois entre eux, en suivant l’ordre donné par la table de référence, et par rapport à leur absence). Le faire revient à traiter le niveau 4.
Pour la comparaison entre « absence de signe » et « signe », on peut considérer cet ordre-ci : mille-pattes < millepattes (recommandé par Unicode, shifted) ou celui-là : millepattes < mille-pattes (shifted-trimmed).

Discussion

Pourquoi s'en préoccuper ? Actuellement, le problème ne se pose d'ailleurs pas pour nous dans le cas cité. Lmaltier (discussion) 6 septembre 2014 à 18:09 (UTC)Répondre