Wiktionnaire:Wikidémie/Thésaurus

Thésaurus ?

Mais qu'est-ce que c’est ? Un oracle ? C'est la premiere chose à dire ! <STyx @ 19 octobre 2006 à 17:16 (UTC)[répondre]

Thésaurus ?

Copié de la Wikidémie. Dakdada (discuter) 9 mai 2006 à 13:16 (UTC)[répondre]

Peut-être est-il temps de mettre en place notre thésaurus, comme les anglophones.

Une demande de suppression depuis Wikipédia (Wikipédia:Pages à supprimer/Liste des noms pour le pénis humain) est en effet en cours, et il serait judicieux je pense de montrer que le Dictionnaire est tout à fait disposé à à accueillir ce genre de listes de type thésaurus.

Il nous faudrait des règles de base, et je propose déjà de nous inspirer de nos amis de en: en utilisant le même nom qu'eux en pseudo-namespace : WikiSaurus (soit : en:WikiSaurus:penis dont le contenu est tout à fait équivalent à la liste sus-citée).

... - Dakdada (discuter) 7 mai 2006 à 15:50 (UTC)[répondre]

donc, c'est une page de synonymes en fait...? Kipmaster ☯ 7 mai 2006 à 18:58 (UTC)[répondre]

Eh bien, pas exactement. Un thésaurus est centré non pas sur une forme d'un mot, mais sur le concept qu'il désigne. Ainsi aura-t-on (en l'occurence...) dans la page [~~[WikiSaurus:pénis]~~] Thésaurus:pénis (français) tout ce qui désigne l'organe de copulation mâle, détaché de l'article pénis qui s'intéresse d'abord au mot lui-même. Bien entendu, ce genre de page ne se fait que pour des concepts suffisamment généraux ou importants...

Donc l'article en question contiendra les différents termes utilisés pour désigner la chose, triés par langue bien sûr, et dans ces sections de langue ils seraient rangés par registre, ou de toute autre façon pertinente. - Dadada (discuter) 7 mai 2006 à 21:24 (UTC)[répondre]

Fin de la copie de la Wikidémie. Dakdada (discuter) 9 mai 2006 à 13:16 (UTC)[répondre]

Je viens d'installer la liste de Wikipédia dans la page [~~[WikiSaurus:pénis]~~] Thésaurus:pénis (français). Il y a un peu de travail à faire pour faire les liens et faire respecter quelques conventions habituelles.

Mais le plus difficile sera de déterminer quelle structure adopter pour les thésaurus, sachant qu'une page devrait pouvoir contenir, pour chaque langue : une liste de synonymes (rangés par registres) ; une liste d'antonymes (ou un lien vers le WikiSaurus de l'antonyme le cas échéant) ; une liste d'expressions (non pas du mot mais du sujet de la page), etc. - Dadada (discuter) 9 mai 2006 à 13:16 (UTC)[répondre]

En fait, ma question était indirectement : peut-on remplacer la longue liste de synonymes présent dans pénis par un "voir WikiSaurus:pénis" qui rendrait l'article plus clair, et éviterait d'avoir deux listes à maintenir (en fait plein, car tous les synonymes sont concernés). Kipmaster ☯ 9 mai 2006 à 13:22 (UTC)[répondre]

Ah pardon :P Je pense qu'en effet on pourrait remplacer par un lien vers le Thésaurus... - Dakdada (discuter) 9 mai 2006 à 13:29 (UTC)[répondre]

Multilingue ?

Je ne suis pas convaincu qu'un thésaurus doive être multilingue. Je pense qu'avec un lien interwiki, on peut s'en sortir et être plus complet.

Je pense notamment que toutes les mots défini dans le thésaurus doivent avoir leur définition propre, avec prononciation. JR disc 9 mai 2006 à 14:54 (UTC)[répondre]

je suis d'accord avec le monolingue et le lien interwiki. Eventuellement, on pourra mettre le lien interwiki plus en évidence, mais c'est mieux si chaque wiktio s'occupe de sa langue (c'est optimal comme on dit). Kipmaster ☯ 12 mai 2006 à 12:27 (UTC)[répondre]

C'est vrai que monolingue c'est plus clair, plus simple à lire, plus optimal car on se concentre sur sa langue, et on n'évite la redondance avec les autres Wiki. La tentation du multilingue vient du fait que le Wikt français (et anglais) est en avance sur les autres. En bref, on a le reflexe de penser : si on veut de l'information : on le fait nous même car les autres ont un sacré retard. Stephane8888 26 juillet 2006 à 13:34 (UTC)[répondre]

Parasynonymes

Ca risque de représenter pas mal de travail, mais je trouve que l'idée de b:Dictionnaire des parasynonymes en français mérite d'être creusée. Il s'agit de préciser à chaque fois les nuances (de niveau de langue ou de sens) entre les différents termes qui sont présentés comme synonymes. Ske

Ne s'agit-il pas de deux projets différents ? JR disc 10 mai 2006 à 10:22 (UTC)[répondre]

Je crains de ne pas encore avoir saisi le but exact de ces pages de thésaurus. Pour moi il s'agirait de partir d'un concept (en gros d'un sujet d'article encyclopédique) et de présenter le vocabulaire qui permet d'exprimer ce concept de la façon la plus "juste". Il me semble que le dictionnaire des parasynonymes à une vocation plus ou moins similaire: présenter les nuances sémantiques entre les différents mots utilisable pour exprimer un concept. Ske 10 mai 2006 à 16:31 (UTC)[répondre]

WikiSaurus

Je trouve ce nom ... pas terrible. Pourrait on utiliser tout bêtement Thésaurus:pénis (français) ? Ske 10 mai 2006 à 16:31 (UTC)[répondre]

Disons que j'ai utilisé ce nom parce que c'est celui utilisé sur le dictionnaire anglophone (le seul a avoir un vrai projet de thésaurus à ma connaissance). J'aurais voulu avoir quelque chose d'homogène entre wikis. Mais c'est vrai que "Thésaurus" est plus simple (pourquoi faire simple...), il n'y a qu'à changer, il n'y a qu'une seule page de toute manière ^^. - Dakdada (discuter) 11 mai 2006 à 22:33 (UTC)[répondre]

Thésaurus aussi ! Au moins, on saura de quoi on parle (ne pas déboussoler les nouveaux). Kipmaster ☯ 12 mai 2006 à 12:25 (UTC)[répondre]

Il est vrai que wikisaurus fait fortement penser au nom d'un saurien préhistorique Pjacquot 2 juin 2010 à 21:36 (UTC)[répondre]

Thésaurus OK, mais avec des règles

WikiSaurus, c'est vraiment pas génial. Ça fait nom de dinosaure. Que penseriez-vous de "wikisaurus velociraptor encyclopediae". Pas très appétissant.

Qu'est-ce qu'un thésaurus et à quoi ça sert ? Ma réponse est la suivante : un thésaurus est d'abord un ouvrage PRATIQUE. C'est un dictionnaire analogie généralisé qui permet de trouver le mot juste à partir d'une idée (un des meilleurs dictionnaires de ce genre, celui de Paul Roubaix, s'appelle d'ailleurs Les idées par les mots). Depuis l'invention de ce genre de dictionnaire à la fin du siècle dernier en Grande-Bretagne, le principe est toujours la même. Le thésaurus comporte deux parties :

un corps principal:
un index.

Les mots sont regroupés en grandes sections, par exemple : "Existence" ; "Inexistence" ... "Joie" ; "Tristesse" ; "Tragique" ; "Comique" ; ... "Énergie" ; "Outils" ; "Machines"... au total, un millier de catégories environ. Chaque section est au besoin divisée en sous-section. Par exemple, la section "Sport" est divisée en "Sport en général" ; "Diverses sortes de sports"; "Athlétisme" ; "Courses" ; "Lancers" ; "Sauts" ; "Gymnastique" ; "Figures au sol" ; "Agrès" ; ...
Chaque section regroupe les mots revevant de la catégorie, synonymes, parasynonymes, analogiques et même "mots ou expressions évoqués"..
La liste principale ne comporte que des mots et locutions, sans autre information. Les mots et locutions ont donc leur répondant dans un dictionnaire qui explicite leur étymologie, leur définition, leur traduction...
Si, à l'idée que vous voulez exprimer, vous vient un mot approximatif qui ne vous satisfait pas, vous allez à l'index qui vous renvoie aux sections ou sous-sections appropriées, où vous pourrez trouver, s'il existe, le mot exact.

Première observation :

Il résulte de la théorie générale du langage qu'un thésaurus est par nature unilingue. En effet, la structuration du réel par le langage est propre à chaque langue. L'univers de sens évoqué par chaque mot est propre à chaque langue. C'est ce qui rend intraduisible les jeux de mots, les calambours et, d'une manière générale, tous les usages du langage relevant du mode "poétique". (Le mode "poétique" est le mode du langage où celui-ci est utilisé à titre de jeu, hors de sa signification primaire "énonciative" - "déictique" disent les linguistes. La phraséologie, la stylistique participent du mode poétique et dès que, pour exprimer quelque chose, nous y mettons les formes, nous utilisons une formulation autre que l'énoncation brute, i.e. dès que nous utilisons une locution, un dicton, un cliché, un mot hors de son sens strict - c'est-à-dire en permanence - nous utilisons le mode "poétique"). Le mode poétique, qui modèle de façon si prégnante chacune de nos énonciations, constitue l'obstacle majeur de la traduction. Voir "Les problèmes théoriques de la traduction" de G. Mounin, Gallimard, 1963. Un thésaurus, fondé sur les analogies, les associations d'idées, relève par nature du mode poétique, lequel ne supporte pas la traduction.

Seconde observation :

L'idée du thésaurus utilise un double mouvement. Du mot particulier, éventuellement insatisfaisant, on passe à l'idée général, puis par un mouvement inverse, du général au particulier, on trouve l'ensemble des vocables évoquant l'idée cherchée ou une idée voisine, selon diverses modalités (nom, verbe, adjectif | niveau de langage | idées apparentées).

Peut-on simuler ce fonctionnement à l'aide de liens hypertexte ?

Par nature, le lien hypertexte va du général au particulier. C'est son principal défaut, qui rend si difficile l'usage des aides en lignes. (Dans une aide en ligne, il est généralement très facile d'obtenir des informations sur tel ou tel micro-détail anecdotique, mais pratiquement impossible d'obtenir des pages d'information générale ou synoptique permettant une vision d'ensemble - défaut que l'on retrouve d'ailleurs sur le Wiktionnaire pour les pages conceptuelles ou de syntaxe.) Les liens hypertextes se construisent facilement et presque automatiquement (c'est une des qualités premières du système Wiki). L'inverse, en revanche, n'est pas évident du tout. Cela demande un travail de structuration et de synthèse qui est antinomique avec le concept même de wiki ; il faut donc que quelqu'un s'y consacre spécialement, et ce n'est pas une tâche facile.
Je ne crois donc pas une seconde qu'un outil tel qu'un thésaurus puisse être développé de façon efficace, pratique et utile sans qu'un "rédacteur en chef" ou un "comité de rédaction" en fixe les formes, les règles et le contenu et s'occupe de son administration.

Gilles MAIRET 11 mai 2006 à 22:19 (UTC)[répondre]

réponse à tes questions : je pense que pour savoir ce qui est faisable ou pas, il faut que quelqu'un se lance avec un exemple pour voir ce que ça donnerait, et qu'on discute à partir de là :-). Ce genre de chose : en:WikiSaurus:annoy est déjà pas mal je trouve, mais ça ne laisse pas de place pour mettre un long blabla comparant deux termes précis (comme on peut trouver dans les difficultés de la langue française ou autres parasynantosaurus). Kipmaster ☯ 12 mai 2006 à 12:32 (UTC)[répondre]

Je n'ai pas de solution idéale, mais il faut tenir compte qu'un mot peut avoir des centaines, ou même des milliers, de "parasynonymes" (par exemple voie, et je n'exagère pas). C'est ce qui ferait tout l'intérêt de ces pages de thésaurus, mais c'est aussi ce qui fait la difficulté. Peut-être une structure arborescente des pages pourrait-elle aider dans ce genre de cas, et aiderait à avoir une vision synoptique. Par ailleurs, on peut mettre une partie par langue, mais ces parties sont nécessairement totalement indépendantes les unes des autres, comme le souligne Gilles Mairet. Lmaltier 12 mai 2006 à 16:57 (UTC)[répondre]

Les parties de langues sont indépendantes, évidemment, comme elles le sont dans les articles du Wiktionnaire. Comment voulez-vous organiser ces pages dans ce cas ? Thésaurus:chose, Thésaurus:chose en français ? Sachant qu'on peut avoir des homographes : Thésaurus:man aurait une section anglaise, une section néerlandaise, etc. A moins alors de faire Thésaurus:man en anglais...? - Dakdada (discuter) 12 mai 2006 à 19:33 (UTC)[répondre]

Je ne proposais rien. Je n'avais pas pensé à créer une page par langue, et je pense que ça ne s'impose pas, en général, sauf si la page devient trop gigantesque. Dans ce cas, le titre devrait à mon avis rester en français : Thésaurus:gymnastique en anglais, par exemple. Lmaltier 12 mai 2006 à 19:57 (UTC)[répondre]

Un exemple de ce qu'on pourrait faire, pour en discuter. Ce pourrait être une liste de mots rattachés à un concept, mais une liste organisée. Par exemple, pour la section française pour chien, on pourrait avoir des sous-titres correspondant à :

les synonymes généraux, en séparant les niveaux de langue (par exemple clébard) et les mots spécifiques au sexe ou à l'âge (par exemple chiot))
les mots désignant des chiens affectés à certaines fonctions (par exemple chien-guide, chien de traîneau...)
les mots désignant des races de chien, ou les hybrides
les mots désignant les lieux qu'ils fréquentent (par exemple niche, endroit pour y faire leurs besoins, etc.)
les mots désignant les métiers et commerces associés (par exemple maître-chien, toiletteur...
les mots désignant ses parasites, ses maladies...
les mots désignant ses aliments spécifiques,
des verbes d'action (par exemple aboyer)
les noms propres désignant des chiens, en tout cas quand ils font partie de la culture générale (par exemple Médor, Rintintin...)
etc (j'en oublie sûrement beaucoup). Lmaltier 17 mai 2006 à 19:14 (UTC)[répondre]

Cela peut-être généralisé à tous les êtres vivants (enfin les plus communs) : synonymes exacts ou selon le registre de langue, milieux de vie, noms des petits, des mâles et des femelles, races/variétés, cri, actions particulières, etc. (je répète là...), bref, tous les mots auxquels on peut penser qui s'appliquent spécifiquement à ce sujet. Tout cela serait rassemblé sur une même page, sur laquelle tous les synonymes n'auraient qu'à être liés. On peut faire des essais, pour Thésaurus:vache, Thésaurus:chien, Thésaurus:poule ? - Dakdada (discuter) 17 mai 2006 à 19:38 (UTC)[répondre]

Structuration d'un thésaurus

Exemples

Afin d'éclaircir un peu le problème de la structuration du thésaurus, je vous présente ci-dessous comment deux ouvrages importants (sous copyright) traitent le mot chien : "Dictionnaire des idées suggérées par les mots" de Paul Roubaix (Édition Aramnd Colin) et le "Thésaurus" des Éditions Larousse.

Dictionnaire des idées suggérées par les mots

Cet ouvrage est un peu ancien mais présente un vocabulaire particulièrement riche.

À l'article chien, il présente une liste de mots structurée de façon très lâche : on trouve successivement :

des types de chiens (molosse, chien de garde...) ;
des races de chiens (bull-dog, terre-neuve...) ;
des mots liés à l'élevage des chiens (chenil, harde, laisse...) ;
des verbes liés à la vie, à l'élevage des chiens (aboyer, hurler, être en arrêt, tenir en laisse...) ;
un certian nombre de mots difficiles à classer ;
des noms de chiens (Médor, Azor...) ;
des interjections (apporte ! hardi ! tayeau !).

Le dictionnaire mêle l'index et les catégories, telles que je les ai définies ci-avant : il comporte une liste unique d'environ 20000 mots. Sur ces 20000 mots, 15000 environ sont simplement des renvois à d'autres mots. Il y a donc environ 5000 mots "vedettes" qui sont développés sous formes de listes de vocables et locutions associés.

Thésaurus de Larousse

Cet ouvrage très riche est probablement ce qu'on peut trouver actuellement de plus complet en français.

Dans l'index, à l'article chien, on trouve les renvois suivants :

Comme nom :

renvoi à la section 296 "Mammifères". On y trouve la sous-section 9, "Chien". Cette sous-section liste diverses sortes de chiens (molosse, chien de garde...) puis une cinquantaine de races de chiens
renvoi à la section 871.15. La section 871 est intitulée "Chasse" et la sous-section 871.15 se rapporte aux chiens dans le contexte de la chasse (équipage, chien d'arrêt...)
Renvoi à la section 614 "Élégance". La sous-section 614.9 liste des "locutions attributives" telles que avoir du chien et d'autres termes ou locutions équivalents.
Renvoi à la section 664.10. La section 664 concerne les armes et la section 664.10 liste les parties d'une arme, telles que le barillet, le chien, etc.
Renvoi à la section 867.4. La section 867 concerne la coiffure. la sections 867.4 liste des composants de la coiffure : boucle, toupet, chien, frange...

Comme adjectif : Renvoi à la section 709.9. 709 : "Avarice". 709.9 : "Avare" avec : radin, chien, rat.

Comparaison des ouvrages

Le "Thésaurus" de Larousse distingue et met en évidence les divers sens du mot chien, ce que ne fait pas l'ouvrage de P. Roubaix. En revanche, celui-ci est beaucoup plus riche en vocabulaire sur le chien comme animal. Il est par exemple bizarre qu'à partir du mot chien, le thésaurus ne conduise pas à des mots évidents comme "laisse" ou "niche".

Quelques suggestions

Les descriptions ci-dessus montrent que l'adaptation au Wiktionnaire de la structure des ouvrages papiers est à peu près impossible. J'ai par ailleurs consulté, sur la suggestion de Kipmaster l'article en:WikiSaurus:annoy qui, à mon avis, ne présente absolument aucun intérêt : tout ce qui s'y trouve se trouve déjà dans l'article principal du Wiktionnaire (français en tous cas). L'intérêt d'un thésaurus n'est pas de référer aux synonymes, antonymes, locutions associées qui se trouvent en principe dans l'article correspondant. Dans ce cas, un thésaurus peut être construit par un bot et ne présente pas de valeur ajoutée. Tel qu'il est conçu en anglais, de plus, ce prétendu thésaurus (je pense que ce n'en n'est pas un) ne réfère qu'aux vocables de même fonction grammaticale. L'intérêt d'un thésaurus est de permettre de passer du mot qui vient aux lèvres à l'ensemble des mots (tous genres grammaticaux confondus) qui réfèrent à l'idée source. Pour le verbe "ennuyer", il faut pouvoir passer à lasser, fatiguer, barber, barfifier...), mais aussi à ennui, spleen, cafard...', à bâillement, à agacer, énerver, taquiner, à 'embêtant, empoisonnant, casse-pieds, etc.

Je pense qu'il n'est nul besoin de construire une nouvelle structure qui s'appellerait "Thésaurus". Nous avons déjà une rubrique existante : "Mots apparentés". En y listant tous les analogues, vocables et locutions évoqués, on obtiendrait à moindre frais exactement le même résultat et les liens hypertexte feront le reste. Si l'on trouve cela plus chic, on peut toujours utiliser un bot pour construire un "thésaurus" à partir de ladite rubrique.

Gilles MAIRET 19 mai 2006 à 04:48 (UTC)[répondre]

Effectivement, il n'y a besoin de pages spéciales thésaurus que quand l'article principal passe au-delà du raisonnable. Tant que ça reste pas trop gros, on peut choisir des mots vedettes et utiliser un système de renvois vers ces vedettes (renvois mis dans les sections apparentés des mots qui le justifient). Mais quand on est amené à citer plusieurs milliers de mots, il me semble qu'une page spéciale se justifie quand même (avec des liens généreux vers cette page). Lmaltier 19 mai 2006 à 05:59 (UTC)[répondre]

Bien entendu, le nombre d'analogue d'un mot dépend du sens que l'on donne à "analogie". Néanmoins, je ne vois pas quel terme pourrait avoir plusieurs milliers d'analogues, ou alors sa signification est particulièrement floue (le mot "chose", peut-être...) La consultation des doivers thésaurus et dictionnaires analogiques à ma disposition montre que le nombre d'analogues d'un vocable donné atteint au plus deux cents environ (lorsqu'il y a de longues listes de races de chiens ou d'arbres fruitiers, par exemple). Je ne vois donc pas bien à quoi tu penses. Gilles MAIRET 20 mai 2006 à 13:37 (UTC)[répondre]

Ne nous comparons pas aux ouvrages papier : on ne veut pas faire comme eux, ça n'aurait pas d'intérêt, on veut faire beaucoup mieux. Les ouvrages papier se limitent toujours, par nature, soit volontairement par manque de place, soit pour que le livre soit terminé dans les délais fixés. Par exemple, ils négligent en général les termes régionaux, qui sont innombrables. C'est tout à fait différent ici (pas de contrainte particulière ni de place ni de délai), et on peut donc arriver à des listes énormes. Un exemple que je connais bien est voie, qui serait une entrée intéressante, bien que particulièrement difficile. Il y a des mots français qui désignent des voies en quantité énorme (par milliers quand on inclut les termes régionaux). Lmaltier 20 mai 2006 à 14:25 (UTC)[répondre]

Si je résume, on parle de deux choses distinctes dans cette page :

Faire une page de synonymes pour les mots qui en ont beaucoup. Cela vaudrait le coup, dans ce cas, de définir ce "beaucoup", et de fixer des règles concernant les parasynonymes.
Un Thésaurus est un projet à part; qui nécessite effectivement en premier lieu de définir une structure (et de garantir sa cohérence avec un comité de rédaction, sans doute). Après, depuis chaque article du wiktionnaire, on pourrait faire un lien vers l'article du Thésaurus de la notion que recouvre ce mot. (Un thésaurus est organisé selon des notions, pas selon des mots) Yopai 4 juin 2006 à 08:28 (UTC)[répondre]

«Par nature, le lien hypertexte va du général au particulier.» Pas d'accord : le lien hypertexte n'est qu'un outil; si la tendance lors de l'écriture d'un article est, effectivement, de wikifier les mots pour aller du général (le mot) vers sa définition (le particulier), on peut tout à fait imaginer, dans le cadre du Thésaurus, des liens qui ramènent aux notions plus larges, tout comme on aura des liens pour préciser une notion. Sans doute faudra-t-il distinguer, dans un article du Thésaurus, les deux types de lien (pur faciliter la lecture). Yopai 4 juin 2006 à 08:28 (UTC)[répondre]

J'ai tout lu ! Je suis d'accord avec Yopai, le lien hypertexte a la fonction qu'on lui donne. Quand dans l'article Uranus on peut accéder aux Catégorie Planètes et Catégorie Divinités : on est dans un Thésaurus ! C'est pourquoi je pense que l'aspect "Thésaurus" devrait être régi par des Catégories et autres Lexiques. Mais nous en revenons toujours à la même problématique : Il faut décider d'une organisation des Catégories : sorte de schéma tri-dimensionnel qui fixe les liens entre les Catégories, le nombres de niveaux, etc. C'est un sacré boulot. Nous pourrions "copier" la logique d'indexation d'un thesaurus papier. Cela voudrait dire : avoir des Catégories de notions immatérielles. De plus il y a l'aspect multilingue : Catégorie Astronomie : en français, en anglais. etc. Comment gèrent-ils leurs Catégories dans WP ? C'est une experience Wiki très instructive de l'aspect particulier --> général Stephane8888 26 juillet 2006 à 14:27 (UTC)[répondre]

Propositions pour lier catégories et thésaurus

Premièrement, il faut reconnaître que la présence d’un thésaurus pour classer les quelque 200.000 mots présents est devenue une chose indispensable. De plus, il vaut mieux s’en occuper tout de suite, car plus il y aura de mots, plus il sera difficile de les reclasser.

Les catégories représentent une ébauche d’un thésaurus, mais elles sont incomplètes. Pour construire ce thésaurus, je propose qu’on utilise les sections hyperonymes / hyponymes et méronymes / holonymes, auxquelles il faudra rajouter une distinction synonymes / analogues. Je pense que ces six types devraient suffire, et permettraient de construire un plan pour un thésaurus. Je reprends les définitions données sur Wikipedia pour le thésaurus : TG = terme générique, TS = terme spécifique, EP = employé pour, TA = terme associé.

+------------------+                             +----------------+
| HYPERONYMES (TG) |----------+       +----------| HOLONYMES (TG) |
+------------------+          |       |          +----------------+
+----------------+        +---+-------+---+        +----------------+
| SYNONYMES (EP) |--------| TERME DE BASE |--------| ANALOGUES (TA) |
+----------------+        +---+-------+---+        +----------------+
  +----------------+          |       |          +----------------+
  | HYPONYMES (TS) |----------+       +----------| MERONYMES (TS) |
  +----------------+                             +----------------+

Petit rappel :

MÉRONYME = Terme inclus dans le sens du terme de base (toit est un méronyme de maison parce que le toit fait partie de la maison, ce qui est faux dans l’autre sens).
HOLONYME = L’inverse (maison est un holonyme de toit).
HYPERONYME = Terme plus général englobant le terme de base (animal est un holonyme de chien, parce que le chien est un animal - ce qui est faux dans l’autre sens).
HYPONYME = L’inverse.
SYNONYME = Mot pouvant remplacer le terme de base sans (trop) en changer le sens (maintenant et tout de suite).
ANALOGUE = Terme se rattachant sémantiquement au terme de base (pour peinture : pinceau, gouache, fixatif...).

Donc, on pourrait construire le thésaurus entier autour de ces sections. Par contre, se pose le problème de l’indexation.

Pour résoudre ce problème, je propose la chose suivante :

Dans les sections concernées (par exemple hyperonymes), les mots ne seront plus rentrés sous forme simple

 {{-hyper-}}
 * [[animal]]

mais sous forme de modèle

 {{-hyper-}}
 {{hyp|animal}}

Au niveau de l'écriture dans l’article, aucun changement (à discuter...). PAR CONTRE, il y aura une indexation automatique suivant un modèle qu’il faudra déterminer. Peut-être [[Catégorie:français/Thésaurus/Monde du vivant/Animal]], à voir.

Ceci implique que les sections en question ne pourront pas contenir n’importe quoi, et qu’elles devront être gérées de la même façon que les catégories, c’est-à-dire en offrant une liste, ce qui risque de compliquer beaucoup la tâche, surtout que le nombre d’entrées sera beaucoup plus important que celui des catégories.

Maintenant, cela amène une nouvelle question : Est-ce que ça vaut la peine de faire le distingo catégories / thésaurus ? Ça risque de compliquer les choses inutilement et de faire redondance. C’est pourquoi je propose de renommer toutes les catégories en thésaurus et de baser là-dessus un plan UNIQUE d’indexation sémantique des mots. Du coup, les catégories disparaissent, et on utilisera les six sections concernées pour faire la répartition.

En tout cas, un chose est sûre. Actuellement, il y a redondance entre les catégories et les hyperonymes, sauf que l’un est indexé, l’autre, non. Peut-être y a-t-il moyen de simplifier tout ça ?... La discussion est ouverte.

Et, tant qu’on y est, on pourrait discuter de l’indexation COMPLÈTE des mots :

par groupe grammatical (suivant le modèle que j’ai proposé), c’est-à-dire automatiquement ;
par groupe sémantique (avec les six sections dont je viens de parler) ;
par groupe étymologique (en utilisant la section ETYM) ;
par groupe phonétique (en utilisant la section PRON).

Amis, au travail ! Thorgal 3 aout 2006 à 16:14 (UTC)

Pour moi, l'idée d'un thésaurus va au-delà d'une simple liste de mots classés par ordre alphabétique. Il y faut un classement un peu logique (voir par exemple l'exemple du chien ci-dessus), et ce classement dépend du type de mot. Bien sûr, on peut imaginer que chaque sous-chapitre soit la liste des mots d'une catégorie, mais je pense que ce n'est pas faisable techniquement (sauf si le thésaurus n'est qu'une suite de titres et de liens, mais la notion de thésaurus perdrait à mon avis beaucoup de son intérêt pour le lecteur). Et puis, limiter ces listes aux mots déjà définis serait dommage. Je pense qu'on peut s'inspirer de l'exemple du Wiktionary (mais en mieux et en plus contrôlé...)

Un thésaurus n'est finalement qu'une page annexe normale. Un autre exemple que chien : un thésaurus sur l'athlétisme pourrait comprendre les chapitres suivants : disciplines (saut en longueur, etc.), pratiquants (sauteur à la perche...), équipement (starting-blocks, javelot...), lieux (stade, vestiaire, cendrée...), compétitions (meeting...), etc. Il faudrait que quelqu'un se lance. Cela permettrait de discuter plus facilement. Lmaltier 3 aout 2006 à 16:48 (UTC)

Catégories : Création d'un thésaurus

Décidément, la catégorisation, classification, indexation des mots est dans l'air du temps. Nous nous retrouvons ici après avoir navigué ailleurs, pourquoi pas... Petite remarque préliminaire : plusieurs contributeurs de qualité sont - semble-t-il - en vacances. Je pense dont qu'on peut attendre un peu pour prendre des résolutions et en profiter pour approfondir la discussion. Gilles MAIRET 3 aout 2006 à 22:28 (UTC)

Pour la suppression des catégories grammaticales

Voici une proposition qui va faire hurler dans les chaumières. Mais je vous demande d'y réfléchir à tête reposée avant de m'injurier : j'y ai beaucoup pensé et elle ne me semble pas si absurde que cela. Je propose purement et simplement la suppression des catégories grammaticales.

Au-delà de la satistaction purement intellectuelle d'opérer sur le lexique une partition qui paraît aller de soi, il convient de se poser la question de son application et de son utilité. Thorgal et Gilles MAIRET ont assez démontré (voir la page Discussion Utilisateur:Thorgal/Catégories) que la segmentation par catégories grammaticales n'avait aucun intérêt pratique : en effet, ou bien une requête sur "articles définis" renvoit trois ou quatre items, ce qui ne sert à rien, ou bien une requête sur "Nom communs" en renvoit 10000, ce qui n'en a pas plus - le résultat est inexploitable. En tout état de cause, quel utilisateur requêtera "Adverbes en français" ? pour quel usage ? vu qu'une telle requête n'a d'intérêt que si elle peut être traitée automatiquement, ce que ne permet pas les états wiki. À l'utilité des catégories grammaticales, la seule réponse que j'ai obtenue est celle de JR qui a indiqué que cela permettait d'effectuer des décomptes pour le suivi du Wiktionnaire. C'est une satisfaction, certes - mais un peu limitée si on considère la lourdeur de l'appareil à mettre en place et à maintenir ; des bots pour administrateurs peuvent certainement faire la même chose à moindres frais.

(Noter que je n'inclue pas dans ces catégories grammaticales certaines classes spécialiées telles que "Réforme de l'orthographe allemande de 1996" qui peuvent avoir un intérêt pour les spécialistes. - À discuter)
Gilles MAIRET 3 aout 2006 à 22:28 (UTC)

Pour la rédaction d'un thésaurus

Le titre de cette section n'a pas été choisi au hasard. Un thésaurus se rédige. Il ne se fabrique pas automatiquement : tout le problème est de diviser l'ensemble du signifié en champs sémantiques qui doivent répondre à deux contraintes - la première théorique et la seconde pratique :

couvrir l'ensemble des champs sémantiques ;
être (relativement) homogènes (une classe ne comporte pas 10 termes et l'autre 10000).

Autrement dit, il faut "rédiger" - prédéfinir et publier - un plan général de classification de tous les sens possibles. C'est seulement ce "plan" publié que la relation des mots aux classes sémantiques pourra se faire sans ambigüité (mais non sans difficulté :on imagine mal que cette tâche puisse être automatisée).

Une arithmétique élémentaire et pratique doit permettre de déterminer le nombre de classes et sous-classes de cette stratification. Si l'on considère que le vocabulaire étendu d'une langue comporte de 50000 à 100000 mots, que chaque mot relève de deux ou trois classes et si l'on souhaite que chaque classe ne comporte pas plus de quelques centaines de mots, on en déduit que le nombre de classes doit être de l'ordre du millier... Gilles MAIRET 3 aout 2006

Penses-tu qu'il nous faille le rédiger nous même, ou bien le "recopier" d'un thesaurus existant (et libre de droits bien sur) ? La recopie permettrait d'être (très rapidement) exhaustif au niveau des classes sémantiques (sauf les parties liées à la technologie moderne). Une fois ces classes sémantiques établies : commencera la partie interessante (et manuelle) d'indexation des articles. (Remarque : Je ne pense pas qu'on puisse automatiser la création des classes à partir des hyperonymes par exemple, car les hyperonymes sont en nombre insuffisant dans le Wiktionnaire.) Je n'ai pas dit qu'on pouvait automatiser la création. J'ai suggéré qu'on utilise ces sections pour le classement, ne serait-ce que pour éviter d'avoir à rentrer les noms entiers des catégories en entier que, de toutes façons, il faudra rentrer à la main. [Thorgal] C'est vrai qu'un Thésaurus est autre chose qu'une simple catégorie (liste de mot en ordre alphabétique). Je vois deux façons, complémentaires d'ailleurs, de contourner ce problème :

D'une part on peux jouer sur la syntaxe de catégorisation : exemple : [Français/Thésaurus/.../Chien|01niche] [Français/Thésaurus/.../Chien|02épagneul] [Français/Thésaurus/.../Chien|03Milou] où naturellement 01, 02 et 03 seraient les paragraphes Habitat, Races et Noms familiers, précisés dans le haut de la page de la Catégorie [Français/Thésaurus/.../Chien]
D'autre part, en utilisant cette page de Catégorie "Thésaurus", (le haut de la page) un peu comme un portail, c'est à dire en offrant quelques liens vers d'autres Catégories thématiques du genre [Français/Sciences/Zoologie/Animaux] ou [Français/Culture/Courses], une introduction, une illustration…

De toute façon, comme le dit Gilles, le prérequis indispensable c'est : rédiger, prédéfinir et publier un plan général de toutes les classes sémantiques. C'est lourd, c'est 1000 Catégories d'un coup, mais ensuite ça ne bouge plus. Stephane8888 4 aout 2006 à 08:16 (UTC)

Discussion "Catégories" et "Thésaurus"

Des discussions - intimement liées - sur les Catégories et le Thésaurus se déroulent actuellement sur trois pages : celle-ci, Wiktionnaire:Wikidémie et Wiktionnaire:Gestion des catégories, ce qui n'est pas des plus pratique.

Aussi je vous propose de rapatrier ces discussions à la page Wiktionnaire:Wikidémie au § == Discussion "Catégories" et "Thésaurus" == tant que les sujets "Catégories" et "Thésaurus" resteront aussi liés.

Préparer le thésaurus dès à présent

Suite à des discussions intensives sur le sujet du thésaurus entre Thorgal et moi, il m'est apparu les conclusions suivantes que je soumets à votre appréciation :

L'élaboration d'un thésaurus - au sens habituel du terme - ne paraît pas possible dans la structure wiki actuelle, en raison, spécialement, des possibilités limitées de requêtage et de recherche.
Le support informatique et les outils qu'il met à disposition (liens hyper-texte) exigent de réfléchir sur ce que pourrait être la forme d'un thésaurus informatisé par rapport aux thésaurus papiers bien connus.
Quoi qu'il en soit, il est d'ores et déjà possible de préparer la constitution d'un thésaurus en complétant les articles relatifs à chaque mot avec "le voisinnage sémantique" du mot :
- Les rubriques "synonymes, antonymes, hyperonymes, hyponymes, holonymes, méronymes" fournissent dès à présent une structure pour mettre en œuvre ce "voisinnage sémantique".
- C'est toutefois insuffisant : de nombreux voisins sémantiques n'entrent ni dans une relation synonyme/antonyme, ni dans une relation contenant/contenu, ni dans une relation père/fils. Dans la pratique, l'essentiel du voisinnage sémantique relève plutôt d'une relation floue d'"évocation" (qui se rapporte donc plus à des aspects cognitifs qu'à des rapports logiques). Or il n'existe pas de rubrique pour enregistrer ce vocabulaire sémantiquement apparenté.
Sur le contenu et l'étendue du "voisinnage sémantique" : on peut s'interroger sur les limites du "vocabulaire sémantiquement apparenté". Sur l'exemple, présenté par Thorgal, d'"anniversaire", on peut associer "périodicité", "commémoration", "jubilée" ; mais peut-on aussi citer "cadeau", "gâteau", "boom" ? Ma réponse à ce sujet est que:
- tous les mots qui viennent à l'esprit font partie du voisinnage sémantique, quelle que soit leur "éloignement sémantique" apparent ;
- en tout état de cause, il est préférable de créer un voisinnage sémantique trop vaste que trop restreint ; il est plus facile de trier et d'éliminer que d'inventer ce qui n'existe pas ;
- le vocabulaire ainsi collationné constitue, a minima, l'amorce d'un dictionnaire analogique.
Ce vocabulaire devra pouvoir être traité plus tard par des bots, pour construire les listes, thématiques, annexes, etc., qui sembleront opportuns. La structure existante des "-nymes" est appropriée. Toutefois, il manque une rubrique regroupant le vocabulaire "sémantiquement apparenté" qui n'entre pas dans les catégories de "-nymes". Actuellement, je liste ce vocabulaire sous la rubrique "Voir aussi". Toutefois, comme cette rubrique regroupe des informations hétéroclites, son exploitation systématique par bot paraît difficile.

C'est la raison pour laquelle je demande la création d'une nouvelle rubrique, destinée à regrouper le vocabulaire sémantiquement voisin, s'ajoutant aux "-nymes" et destinée à recevoir ceux des mots qui n'entre dans aucune des catégories en "-nyme". Je n'ai pas d'idée arrêtée sur le nom de cette rubrique. Ce pourrait être qqchose commme "Autre vocabulaire voisin" ; "Mots sémantiquement apparentés" ; "Mots sémantiquement analogues" ; etc. Les suggestions sont les bienvenues.

Cette demande me paraît raisonnable et j'espère qu'elle pourra être prochainement suivie d'effet.

Gilles MAIRET 2 septembre 2006 à 21:18 (UTC)[répondre]

PS. Pour avoir une idée de ce vocabulaire apparenté, je vous donne rendez-vous aux articles œil et clé - mots sémantiquement spécialement riches - où j'ai complètement développé les idées ci-dessus.

Je recommanderais quelque chose comme « Vocabulaire apparenté » ça me semble clair, et avec un modèle simple du type {{-voc-}}. Les sections autres que synonymes et antonymes en seraient des sous-sections (hypo, hyper, holo, mero, tropo). Et on enlèverait/remplacerait la section « apparenté » dont le seul rôle actuel est d'induire tout le monde en erreur... Plus exactement, cette section serait rendue inutile par l'utilisation plus intelligente des liens entre "étymologie" et "dérivés" des étymons. La section "dérivés" demeurerait pour ce rôle. - Dakdada (discuter) 2 septembre 2006 à 22:15 (UTC)[répondre]

Effectivement, on peut mettre tous les mots du thésaurus dans l'article lui-même. C'est la solution la plus simple. Et cela rend inutile la création de thésaurus séparés, puisqu'ils sont déjà dans les articles normaux. Mais cela présente le risque de surcharger certains articles au-delà du raisonnable, et c'est cela uniquement qui justifie à mon avis l'idée de pages de thésaurus séparées. Lmaltier 3 septembre 2006 à 08:19 (UTC)[répondre]

Si tous les mots sont dans tous les articles, exemple : uriner dans pénis, mais aussi dans verge, bistouquette, etc. il y a une sacrée redondance qui est, à l'échelle du Wiktionnaire, à mon avis inacceptable. D'où l'idée du Thesaurus. D'ailleurs Gilles le dit bien : Ce vocabulaire devra pouvoir être traité plus tard par des bots, pour construire les listes, thématiques, annexes, etc. Nous avons deux options : Soit on crée d'un coup, de façon réfléchie, concertée, les quelques milliers de "pages" thématiques de notre Thésaurus, que l'on remplit par la suite, et sur lequel on vient pointer. Soit on rentre l'information, de façon redondante, dans l'ensemble des articles... et ensuite on cherche à automatiser le regroupement de ces informations redondantes dans des pages dédiées : pour faire le Thésaurus. Je préfere la 1ère option, ce qui ne nous empêche pas, en attendant, d'étoffer les articles, et de faire des essais. En résumé je préfère que des informations aussi complètes et quasi exhaustives comme celles de l'article oeil soient présentées dans une page "Thésaurus : oeil". Sur laquelle viendront pointer tous les articles concernés. Stephane8888 3 septembre 2006 à 09:34 (UTC)[répondre]

Personnellement, je suis du même avis que Stéphane. Ce serait une erreur, je crois, de vouloir rentrer tous les mots dans tous les articles. Il vaut mieux faire une liste de rubriques de base, chacune menant vers une annexe dans laquelle le mot est cité. Il ne faut pas surcharger les articles, alors qu'on peut facilement diviser une annexe si elle est trop grosse.

Par ailleurs, il reste une question qui me trotte dans la tête depuis un moment et pour laquelle rien n'a été dit, il me semble, jusqu'à présent. Ce thésaurus sera-t-il uniquement en français ou bien il sera aussi multilingue ? Je pose cette question car je crois que les sections traductions devraient être plus réfléchies plutôt qu'être de simples listes de mots, listes s'avérant en pratique inutilisables quand on cherche une traduction précise. Thorgal (Discuter) 3 septembre 2006 à 10:51 (UTC)[répondre]

Ce que j'émettais comme hypothèse, c'était que le thésaurus soit inclus dans certains articles normaux importants, pas dans tous, bien entendu. Mais des articles séparés sont préférables, je suis bien d'accord. Une façon de préparer ces thésaurus pourrait être de mettre dans chaque article normal une information sur la page (ou les pages) de thésaurus dans laquelle le mot devrait normalement être inclus, avec la rubrique associée (dans la mesure où ces rubriques peuvent être définies). Par exemple, pour aboiement ou jappement, le couple "chien, langage". Pour que ce qui est des mots étrangers, le choix est entre l'inclusion dans le thésaurus à l'article français (chien) ou un thésaurus spécifique à chaque langue (un thésaurus dog, un thésaurus Hund, etc.) La deuxième solution me semble meilleure. Lmaltier 3 septembre 2006 à 11:45 (UTC)[répondre]

Je suis bien d’accord avec tout ce qui est dit ci-dessus par Stephane8888, Thorgal et Lmaltier. Le titre de cette section - Préparer le thésaurus dès à présent - explique mon propos : mettre en place une structure (i.e. un modèle de section) palliative et temporaire qui permette d’ores et déjà de travailler sur le vocabulaire apparenté :

sans attendre que la structure du thésaurus soit définie et fonctionne (ce qui peut prendre un certain temps) ;
de façon que le travail déjà fait sur le sujet soit exploitable (par des bots) dans le futur thésaurus.

La proposition de Dakdada me conviendrait tout à fait, mais elle conduit à une modification assez lourde de la struture des articles et je ne suis pas sûr qu'elle puisse être rapidement adoptée. Ma demande est beaucoup plus modeste. Elle consiste à créer, au niveau des sections "-nymes" une section Vocabulaire apparenté (modèle {{-voc-}} par exemple) qui permette d'isoler et d'identifier le vocabulaire en question dans l'attente qu’il soit organisé de façon plus pertinente dans un futur thésaurus. Cette proposition ne met rien de fondamental en cause ; elle ne présume de rien pour le futur thésaurus ; elle permet de préserver l'avenir. Je pense donc qu'elle pourrait assez facilement recevoir votre aval. Gilles MAIRET 5 septembre 2006 à 21:43 (UTC)[répondre]

Métadonnées généralisées

Désolé, commentaire un peu long. Avant de répondre et casser le texte sélectionnez la partie qui vous intéresse, pour voir ce qu'on peut en faire, si possible dans une section spécifique. Ceci est à prendre comme une collection d'idées avec différentes possibilités, sachant que les idées ci-dessous ne peuvent pas encore être exploitées, mais il serait bon d'envisager l'avenir en permettant un classement ultérieur plus fin des informations dans un wiki en général ou dans le cas particulier d'un Wikitionnaire ou d'une encyclopédie.

Tout cela laisse encore entier un problème général à tous les wikis: on discute partout de la pertinence de certaines listes ou classifications de catégories et on revient toujours au même problème: le fait que tout cela sert à établir des liens entre deux entités, sans pouvoir clairement les qualifier.

C'est-à-dire qu'il manque encore au logiciel la faculté de gérer autre chose que des doublets (entité1, entité2), quelle que soit la forme de ces entités (y compris si on les met dans des espaces de nommage spécifiques, par exemple les catégories), et qu'il faudrait sérieusement songer à mettre en place un système à base de triplets (entité1, entité2, entité3) permettant toutes les qualifications possibles. Ce concept se retrouve d'une façon plus général dans tous les systèmes de modélisation de connaissance, sous des formes similaires: notations TLV, métadonnées dans HTTP et les systèmes de fichiers.

Si on pouvait former plus simplement des associations en triplets, sans privilégier une seule forme unique ou trop restrictive pour un des trois éléments (par exemple le forçage soit en tant que lien, soit en tant que relation de catégorie) on pourrait avoir un schéma de classification plus proche de ce qu'on trouve dans les SGBD relationnels où il est possible même de faire des associations à plus de 3 entités (lors de la réduction "normale" du modèle on crée *automatiquement* des ensembles de relations binaires au moyen des index qu'on n'a pas besoin de maintenir séparément).

Voir à ce sujet les propositions ui ont été faites par exemple par Microsoft pour son futur système de fichiers, afin de mettre fin à la dictature de la classification hiérarchique (même s'il existe quelques moyens détournés de rompre cette structure au moyen par exemple des liens symboliques permettant de lier un fichier à plusieurs répertoires, ce système continue à différencier les contenus et les contenants, alors qu'il est clair que tout contenu dispose de sa propre struture et agit aussi comme contenant pour d'autres associations)

En passant MediaWiki à un modèle basé au moins sur des associations de triplets, le contenu Wiki aurait vocation à classer les différentes informations qu'on trouve dans un article, en permettant de sous-qualifier par type les différents élements contenus, les types étant eux-même des entrées principales du système. Il deviendrait alors possible de naviguer beaucoup plus librement dans le système, par une généralisation de la syntaxe des liens qui permet de mentionner cette relation dans un triplet.

Par exemple s'il existe une relation symbolisée par le triplet (entité1, entité2, entité3), il devrait être possible depuis entité1 de se lier soit à "entité2#entité3" (ou resp. "entité3#entité2" via le système des ancres dans une page "entité2" (ou resp. "entité3" contenant les autres relations.

On passerait du système où on doit modifier un article unique "entité2" devant mentionner la totalité des relations vers les autres triplets contenant la même entité, à un système où tout article "entité1" pourrait être navigué en lui ajoutant des doublets (entité2, entité3), avec pour conséquence l'ajout automatique et implicite du doublet (entité1,entité2) dans la liste des propriétés de l'article "entité3", et la même chose pour le doublet (entité1,entité3) dans l'article entité2.

Le système permettrait aussi de faire des recherches croisées.

J'avais proposé (proposition lettre morte encore à ce jour) que le texte des articles ne soit plus considéré QUE comme une des métadonnées (de type "texte article", très vague) associé à une entité nommée, même chose pour convertir les autres relations existantes dans les articles: les liens, les interwikis de langue, les catégories, les relations entre sites, les références, les auteurs, les historiques...

Hors actuellement on essaye encore de vouloir tout maintenir au sein de la même page et on n'y arrive plus au delà d'un certain volume, qui se désorganise rapidement et doit sans cesse nécessiter des mises à jours de nombreuses pages liées à chaque modification mineure (par exemple des corrections de noms, des préférences lingusitiques, des synonymes, des infos de pertinence...), et il n'est toujours pas possible de faire facilement des recherches avec critères croisés sans mettre en place une structure très difficile à maintenit de catégories (ou des articles "listes" tout aussi dificiles à maintenir).

Hors tout ça appartient au domaine de la classification sémantique des contenus, un domaine sur lequel les moteurs de recherche du web ont largement pris de l'avance grace à leur faculté de faire des recherches multicritères pour affiner les infos pertinentes (la pertinence étant jugée sur un critère statistique: plus il y a de références sur un élément d'une relation, moins elle est pertinente et plus il faut de critère pour affiner).

Le succès de Google par exemple bien beaucoup à cela: il ne se contente plus d'indexer des mots, il les mets en relation, et cela limite aussi énormément la faculté de "spammer" le moteur en bombardant un nombre limité de termes.

Un système à triplets (plutôt que le système actuel à doublet orienté comme les liens simples unidirectionnels) serait nettement plus riche et plus efficace. Masi cela veut dire développer dans MediaWiki une nouvelle façon d'enrichir le contenu, en ne se contentant pas d'ajouter du texte dans une section d'un article, mais en ajoutant des sections typées qui pourraient alors être affichées dans des articles différents ayant la même relation.

Mon idée est que ce système fonctionnerait et générerait les pages en sélectionnant automatiquement les sections pertinentes à inclure dans le rendu d'un article en fonction de leur pertinence statistique, les autres étant encore disponible via des pages de listes générées automatiquement et classées par un ou deux des autres critères. Le sommaire deviendrait automatique, même si on pourait indiquer une préférence de tri pour l'organiser logiquement dans un article.

On n'éditerait donc plus un article entier, mais on ajouterait des petites sections pertinentes liées au minimum à un doublet ou un triplet, mais pas une entité simple, laquelle section serait reprise dans les pages des autres entités mentionnées.

Et avec cela, on gérerait de la même façon, les catégories, les listes, et toutes les autres métadonnées. Dans le wiktionnaire, ce concept de métadonnées généralisées permettrait donc de faire toutes les relations souhaitées: synonymes, homonymes, homophones, antonymes, paronymes, méronymes, formes dérivées, conjugaisons, traductions, classification grammaticale, usage, citations, etc... Le système serait immédiatement plus ouvert, plus facile à maintenir et corriger (pouisqu'on travaillerait sur des entités nettement plus petites, toutes voisines d'un seul paragraphe.

MediaWiki fonctionnerait alors de la même façon qu'un moteur de recherche: en parcourant sa base de données, il recherche toutes les relations entre les termes proposés, et les trie et les classe par pertinence statistique dans une page de résultat contenant aussi la mise en forme. Le sommaire serait aussi généré automatiquement, ainsi que le découpage en différentes pages si la liste obtenue est trop longue (toutefois dans ce cas, le moteur chercherait à faire des regroupement en organisant les triplets trouvés et en proposant un tri selon un ou plusieurs des axes de recherche possibles (les axes correspondant à la place des éléments dans les triplets trouvés).

On en finirait de la maintenance des listes et de la gestion ardue des catégories qui se désorganisent sans cesse, en se focalisant d'abord sur le contenu lui-même, sur lequel il serait toujours possible de lui ajouter des relations supplémentaires.

Ce genre d'idée a été développé dans les ateliers de recherche sur le "web sémantique": la notion de liens étendus et de métadonnées généralisées y est essentielle, et la compatibilité avec ce qui esiste déjà est assurée par les systèmes actuels de métadonnées qui servent à enrichir les contenus par différentes données supplémentaires et *typées* de classification, oùm le nombre de types est virtuellement illimité (même s'il existe des types standardisés).

La demande de thésaurus tente de répondre à ce besoin, mais cela ne va pas assez loin: on crée une difficulté nouvelle pour la maintenance, qui utilisera ses propres méthodes, alors que tous ces concepts devraient être généralisés et unifiés par une méthode commune de gestion des contenus et de leurs associations.

Verdy p 2 février 2008 à 18:55 (UTC)[répondre]

3 ans après

Nous n'avons toujours pas de thésaurus, mais des avancées importantes ont été faites. J'en dresse la liste et la commente de façon subjective :

Une section {{-voc-}} regroupe le vocabulaire apparenté sémantiquement à un mot (généralement dans son sens principal). 5 000 articles possède cette section.
Le thésaurus de Paul Rouaix précité par Gilles Mairet est libre de droits, son importation nous offrirait un thésaurus de base. Il est téléchargeable en PDF et son texte est numérisé (mais très mal : les colonnes sont mélangées). Voir ici
Des annexes sont préférables aux catégories car on peut ranger les mots, préciser les registres, illustrer avec des planches.
On peut faire figurer notre thésaurus :
1. dans un espace de nommage dédié "Thésaurus:xxxx"
2. dans des "Annexe:xxxx"
3. dans un millier environ d'articles qui deviendrait aussi des articles du thésaurus. Mais un thésaurus traite de sujet et nos articles traitent des mots : attention à la confusion. De plus, ça alourdit ces articles.
Le choix des entrées du thésaurus serait réglé avec l'import. Le champ sémantique serait alors couvert (modulo les avancées technologiques).

Bref, merci à Lmaltier d'avoir suggéré cet import, cela débloque la situation. Pour traiter cet import il faut distinguer la partie "Index" de la partie proprement "Thésaurus".

C'est-à-dire : les entrées de l'index de type « abaque Voir : colonne » serait un lien vers Thésaurus:Colonne depuis l'article abaque (dans une section "Thésaurus", ou dans l'actuelle {{-voc-}}). Un truc du genre : → voir Thésaurus à « Colonne ».

Les entrées du thésaurus de type "Thésaurus:Colonne" serait la copie de la liste élaboré par Paul Rouaix au mot colonne.

Il serait intéressant de connaitre combien de pages de thésaurus Paul Rouaix donne. 1 000 entrées différentes ? 3 000 entrées ??

Un mot du Wiktionnaire pourra pointer, si besoin, vers différentes pages du thésaurus. Exemple : chloroforme pointera vers Thésaurus:Substance et Thésaurus:sommeil. Ces pages "Thésaurus:" auront des liens entres elles. Exemple : Thésaurus:Colonne et Thésaurus: Architecture seront liées.

À nous ensuite de ranger ces mots, d'illustrer, d'étoffer ces pages de thésaurus. Sans oublier d'y citer l'auteur Paul Rouaix. Stephane8888 Discuter 21 septembre 2009 à 21:13 (UTC)[répondre]

De la même manière que l'on a importé le DAF8 pour avoir tous les articles de base d'un dictionnaire, importer cet ouvrage nous donnera une base de thésaurus que l'on pourra étoffer. Ne manque plus qu'à avoir une copie convenable de l'œuvre de Paul Rouaix (que l'on mettra en référence de chaque article créé). — Dakdada (discuter) 21 septembre 2009 à 21:38 (UTC)[répondre]

Quand j'aurais le temps j'essaierai de voir si je peux pas rétablir les mots dans les 4 colonnes (...) J'aimerai découvrir la façon d'utiliser un ROC (ou OCR), (et collaborer à wikisource) mais en aurais-je le courage ?

Stephane8888 Discuter 23 septembre 2009 à 21:18 (UTC)[répondre]

Merci pour avoir trouvé cette copie numérisée.

Effectivement, les articles de l'espace principal sont consacrés au mot-titre, pas au sujet. Des pages consacrées aux mots évoquant chaque sujet sont donc plus appropriées.

J'ajoute que ma proposition est de faire des pages différentes par langue, sinon les pages seront à terme beaucoup trop longues (par exemple Thésaurus:renard/français ou Thésaurus:fruit/kurde). Avec des titres en français, bien sûr. Lmaltier 23 septembre 2009 à 21:27 (UTC)[répondre]

L'idée d'indiquer la langue en parenthèse est bonne. Ton choix de la minuscule rappelle beaucoup le signifiant, ici c'est plutôt le signifié qui compte. La majuscule convient aussi (comme sur WP, comme sur le thésaurus Larousse ou comme pour nos Catégories). Rouaix utilise la minuscule car son thésaurus est incrusté dans l'index. Mais nous notre index est disséminé dans les articles de l'espace principal. Stephane8888 Discuter 23 septembre 2009 à 23:38 (UTC)[répondre]

Je pense qu'utiliser des minuscules est plus cohérent. Ou des majuscules pour les noms propres, bien sûr. Des pages sur les noms propres sont en effet possibles : par exemple, un thésaurus sur Anvers pourrait inclure diamant, puisque cette ville évoque le mot diamant (mais pas d'autres industries éventuellement aussi importantes pour la ville, mais auxquelles le nom d'Anvers ne fait pas penser, il ne faut en effet pas tomber dans l'encyclopédie). Lmaltier 27 septembre 2009 à 20:25 (UTC)[répondre]

Sinon, est-ce qu’on peut aussi se contenter de traduire des pages du Wikisaurus anglophone ? Ou est-ce que ça ferait un conflit avec le Rouaix ? --Eiku (d) 23 octobre 2009 à 22:08 (UTC)[répondre]

On peut l'exploiter, mais les pages ne sont pas toujours terribles (et peut-être pas toujours très fiables, c'est beaucoup moins surveillé que les pages normales). Je ne pense pas qu'il y ait beaucoup de redondance avec le livre de Rouaix (qui concerne seulement le français). Lmaltier 23 octobre 2009 à 22:14 (UTC)[répondre]

Au sujet du choix des entrées

[Suite à la création de la page ~~[Thésaurus:légume (kurde)]~~ Thésaurus:kurde/légume. ] Les noms de page pour le thésaurus (ses entrées), bref la "ligne éditoriale" du thésaurus est encore inexistante. Un import du thésaurus de Paul Rouaix est envisagé (ça comblerait ce manque) : il donne à l'entrée « légume » la liste des légumes ajoutée d'articles comme primeur, maraîcher, potager. Le thésaurus Larousse ne permet pas, à partir de l'index, d'aboutir à ces informations ni à "légume" (il y a seulement grosse légume), ni à "légumes" (l'entrée est absente), ni à « Botanique » (Arbres, Arbustes, Fruits, Herbes et fougères, Champignons...) le Larousse (avec son système d'entrées macroscopiques) nécessite d'aller (en allant voir carotte par exemple...) dans « Gastronomie » (entrée n°856, sous-entrées 17 à 20) bref pas terrible. Je pense qu'à terme nous aurons les 2 systèmes, avec des renvois et même des redirects du type Thésaurus:légumes --> Thésaurus:légume). Stephane8888 Discuter 27 septembre 2009 à 19:59 (UTC)[répondre]

Diverses précisions

La version Full text du thésaurus de Rouaix contient parfois les mots dans l'ordre des colonnes... particulièrement pour les entrées de type thésaurus (ça tombe bien et c'est tout de même mieux que lorsque les 4 colonnes sont mélangées...). Consultez en parallèle la version pdf et la version texte pour vous y retrouver, et vérifier.
Afin de formater les pages du thésaurus, j'ai fait 2 petits modèles à améliorer et à renommer si besoin : {{thésaurus}} et {{Import:Rouaix}}. Le premier catégorise dans Thésaurus. Il nécessite un paramètre (exemple: « légume ») car le nom de l'Annexe est « légume (français) ».
Il est préférable de découper la liste de mots importée en paragraphes de 3^e niveau (avec === Blabla ===). Avec des intitulés du genre : Variétés, Contenu, Accessoires, Professions, Verbes, etc Stephane8888 Discuter 21 octobre 2009 à 19:49 (UTC)[répondre]

L'idéal serait que Wikisource se charge de mettre le livre de Rouaix en ligne (ce sont des spécialistes de ce genre de travail... et puis c'est un livre qui le mérite). On pourrait ensuite l'importer beaucoup plus facilement. Lmaltier 21 octobre 2009 à 20:00 (UTC)[répondre]

Bien sûr. Si j'ai importé quelques pages c'était surtout pour voir ce qu'il était possible d'en faire, comment normaliser et rendre plus efficace l'import (modèles), découvrir de nouvelles problématiques, comme :

Faut-il définir le "sujet vedette" : par exemple Thésaurus:bouton/français, comme celui de Rouaix, parle seulement de couture. La section {{-voir-}} renvoie vers Thésaurus:bourgeon/français (comme le fait Rouaix d'ailleurs). Ce lien en bas de page est-il suffisant ?
Au sujet des très nombreux renvois présents dans cet ouvrage, comment pensez-vous procéder ? On ne va tout de même pas créer des pages vides Thésaurus:magasin/français redirigant vers ~~[Thésaurus:boutique (français)]~~ Thésaurus:boutique/français. Bref : Par quel biais le lecteur arrive-t-il sur les pages de thésaurus ? Seulement à partir des articles et de la Catégorie:Thésaurus ? Stephane8888 Discuter 21 octobre 2009 à 21:26 (UTC)[répondre]

Pour la deuxième question, je dirais qu'on y arrive surtout à partir des pages normales (lien vers la page de thésaurus pertinente (ou les pages...) dans la section Voir aussi en bas de page), mais qu'on peut tout de même prévoir des redirections pour les cas les plus susceptibles d'être recherchés. Pour la première question, il est préférable d'éviter l'ambiguïté en choisissant un mot à la fois courant et non ambigu comme titre. Si c'est difficile et que l'ambiguïté est très gênante, pourquoi ne pas mettre un titre du genre Thésaurus:bouton (couture) (français) (dans ce cas précis, ça ne s'impose pas, à mon avis). Lmaltier 23 octobre 2009 à 20:32 (UTC)[répondre]

Vote pour l'espace de nom dédié

Wiktionnaire:Wikidémie/avril 2010#Espace de nom : Thésaurus

Thésaurus:degrés de certitude

Je viens de créer une amorce

N'hésitez pas à y apporter vos contributions, à le renommer, etc...

--Pjacquot 19 juillet 2010 à 09:00 (UTC)[répondre]

Voir : Thésaurus:degrés de certitude/français. Stephane8888 ✍ 31 janvier 2011 à 15:05 (UTC)[répondre]

Autres discussions

Thésaurus versus ontologie

A lire comme introduction au sujet que j'aborde ici: Ontologie, thésaurus, taxonomie et Web sémantique

Le projet dbpedia met sous forme d'ontologie le contenu de wikipedia.

Le formalisme de cette ontologie suit les recommandation web sémantique du W3C.

dbpedia est lié à wordnet, base de données lexical de l'anglais.

le wolf de l'inria est tiré du wordnet.

Le premier interêt de développer un ontologie avec un "sparql endpoint" pour wikitionnaire comme dbpedia pour wikipedia est de s'inscrire dans la vision web sémantique. Fournir une ontologie c'est permettre à des applications informatiques d'avoir accés à une base de connaissances.

luc peuvrier 19 juin 2011 à 05:12 (UTC)

Pour bien comprendre j’ai dû lire ces exemples. C’est toujours intéressant de créer des listes non assurées par nos catégories, mais au final ça revient un peu au même. JackPotte ($♠) 19 juin 2011 à 09:34 (UTC)[répondre]

Bonjour, je suis à l'origine de l'exemple http://www.sparql.pro. Le W3C n'impose aucune ontologie. Je dirai même que les catégories sont une partie de l'ontologie implicite des projets Wikis. Le seul soucis est la volatilité qu'il existe autour de la création des catégories et des infoboxes ainsi que la langue des wikis (une ontologie par langue ?). Ainsi j'ai développé une extension Linkedwiki pour résoudre le problème et ainsi réaligner l'ontologie d'un wiki avec une ontologie partagée (voir ma vidéo sur le sujet http://www.youtube.com/watch?v=yQgmWVQBNSg ) J'ai utilisé Semantic Media Wiki mais il faudrait élaguer ce projet et en retirer l'essentiel pour l'intégrer à la souche mediawiki de tous les projets et ainsi offrir une interface homme/machine à tous les wikis...en bref, il y a du boulot... Je peux vous aider si vous voulez faire des expérimentations. --Karima Rafes 21 juin 2011 à 11:16 (UTC)[répondre]

Pour info: application de OWL/RDF pour les Thésaurus, classifications, dictionnaires ... [http://dossierdoc.typepad.com/descripteurs/2005/08/thsaurus_et_web.html Thésaurus et Web Sémantique : le vocabulaire RDF SKOS ]

Autre discussion

→ voir Wiktionnaire:Gestion_des_modèles/Propositions#Mod.C3.A8le:en-t.C3.AAte_th.C3.A9saurus

Nécessité de faire des microthésaurus dans les thésaurus

→ voir Discussion_aide:Thésaurus#Nécessité de faire des microthésaurus dans les thésaurus

Dérive des thésaurus

→ voir Wiktionnaire:Wikidémie/janvier_2014#Dérive des thésaurus

Qui a conduit à Aide:Thésaurus#Effets de la présence d’un thésaurus sur le contenu des articles

Une page de thésaurus est associée à un sujet et un seul

→ voir Discussion_utilisateur:Stephane8888#Thésaurus_terrier

Indexation des mots contenus

Il faudrait réfléchir à comment indexer les mots présents dans toutes ces pages de thésaurus. Rouaix et Larousse ont ce genre d’index. Sur Wiktionnaire, nous n’indexons pour le moment que le thème, et pas encore les nombreux mots contenus. Par exemple : éclipse donne le lien vers Thésaurus:éclipse/français, mais pas les pages saros, coronographe, annulaire, etc. Si on veut que le thésaurus se développe sur Wiktionnaire, il faut lui donner cette visibilité/utilité. Peut-on imaginer une section "Mot présent dans les thésaurus suivants" ? Ou utiliser la section générale "Voir aussi" ?

Il est bien indiqué dans Aide:Thésaurus#Comment mentionner un thésaurus dans les articles: « Il est fortement conseillé de lier chaque thésaurus dans les articles qui y sont mentionnés (sinon comment les lecteurs vont-ils les trouver ?), éventuellement dans la section voir aussi, mais préférablement dans une section plus spécifique telle vocabulaire apparenté par le sens. » Mais la communauté a-t-elle pris la mesure de ce que cela signifie ? Stephane8888 ✍ 28 avril 2014 à 22:50 (UTC)[répondre]

Ça signifie énormément de travail, mais un travail utile. Est-ce qu’un gadget ressemblant au gadget Créer-Flexion serait envisageable ? L’idée de le faire faire par un bot est séduisante, mais j’ai un peu peur des faux-positifs : sur certaines pages de thésaurus figurent des petites phrases explicatives où ont pu être placés des liens « pour information », sans que les mots liés fassent partie du champ lexical du thésaurus. Autre problème : certains mots se retrouvent sûrement sur beaucoup de thésaurus différents : dans ce cas, il faudrait peut-être prévoir une boîte repliable pour ne pas gêner trop le lecteur. — Eiku (d) 29 avril 2014 à 10:19 (UTC)[répondre]

Je pense que c’est automatisable : en considère un mot, on regarde les pages liées appartenant à l’espace de nommage "Thésaurus:". On insère dans une section "Français" les pages Thésaurus:xxx/français, etc. Mais, comme bien d’autres taches herculéennes sur Wiktionnaire (Catégories, etc.), cela peut être fait petit à petit à la main. Le but est de donner rapidement une visibilité au Thésaurus, pour permettre son développement par le biais de son utilisation.

Les faux positifs existent, c’est vrai, mais je pense qu’ils sont négligeables, et peuvent se corriger : « Hein ! Ce mot est dans ce thème ? Je suis le lien, je regarde, je corrige. »

Puisqu’on utilise un modèle ({{index thésaurus}} pour l’instant), il sera facile de mettre une boîte déroulante si besoin. Ou de scinder, en thèmes majeurs affichés et en thèmes mineurs cachés, ou carrément non présents si nous décidions de ne pas indexer toutes les pages : et ça peut se comprendre car nos thésaurus ont un champs lexical très large (hyperonymes, hyponymes, métiers, lieux, matériel, etc.). Stephane8888 ✍ 6 mai 2014 à 19:00 (UTC)[répondre]

Si jamais j’ai le courage (mais je ne sais pas si on peut compter là-dessus), pendant mes prochaines vacances, je ferai un script pour récupérer (sur mon disque dur) un index, pour regarder ensuite si c’est exploitable / convenable et donner un avis plus éclairé sur la pertinence de faire réaliser l’index par un bot (après tout, comme tu dis, les faux positifs ne sont pas forcément un problème insurmontable). — Eiku (d) 6 mai 2014 à 20:33 (UTC)[répondre]

→ voir Wiktionnaire:Wikidémie/avril_2014#Indexation_des_mots_contenus_dans_les_Th.C3.A9saurus

Vous avez dit « thésaurus » ?

→ voir Wiktionnaire:Wikidémie#Vous_avez_dit_.C2.AB_th.C3.A9saurus_.C2.BB_.3F

Fusion de modèles

Toujours dans l’idée de faire des articles l’index du thésaurus : → voir Wiktionnaire:Wikidémie/mai_2014#Fusion_de_mod.C3.A8les