Wiktionnaire:Transferts/Ergane
Apparence
Présentation d'Ergane
[modifier le wikicode]Ergane v1.01 est un programme de traduction utilisant l'espéranto comme langue pivot.
La version de base comprend un petit programme à installer et une base lexicale en espéranto très vaste. On ajoute ensuite des bases de données supplémentaires qui sont seront immédiatemment prises en compte.
Licence
[modifier le wikicode]Le logiciel est distribué avec une licence libre explicite sur le site d'Ergane et confirmé par mail par le contact du site pour les dictionnaires à télécharger:
Re: majstro: License [edit] 30/11/05 13:39 from: Gerard van Wilgen <xxxantispamxxx@planet.nl> to: xxx-moi-antispamxxx@walla.com , The copyright sign on the site applies only to the content of the site. The dictionaries are in the public domain, so you can do with them whatever you like. Gerard van Wilgen xxx-moi-antispamxxx@walla.com wrote: >Nomo: Laurent Bouvier >Preferata lingvo: eng > >Dear master, > >I have noticed the small copyright sign at the bottom of the site but there is no precision on which usage license applies on your site. > >Indeed, I am working on the the word book part of wikipedia and I would like to know if I could use your material. I am especially interested in the rare languages (Zulu etc.) > >Of course, this would mean that the information will become available under GNU GPL license. > >Best regards, groetjes, > >Laurent Bouvier,
Technique de transfert
[modifier le wikicode]Il est réalisé à partir d'un petit programme en Python qui réalise le script suivant:
- Connexion aux bases lexicales en langue source, en espéranto, en français
- Constitution d'une liste de lemmes en langue source pour lesquels il existe une traduction en français
- Suppression des noms propres, expressions, et mot de moins de trois lettres.
- Suppression de certaines catégories grammaticales: préfixes, suffixes, ...
- Ajoute de la prononciation si la langue est suffisamment régulière et que des ressources (documentaires et validateurs) sont disponibles.
- Contrôle des caractères ( les caractères sont stockés dans un encodage particulier sous forme de caractères spéciaux )
- Publication des articles produits sur le site avec la classe wikipedia du paquetage wikipedia.py
Langues disponibles
[modifier le wikicode]Langue | Nombre total de mots | Statut | Remarque |
---|---|---|---|
néerlandais | 56006 | Partiel | Autres sources à privilégier → locuteurs, wiktionnaire |
allemand | 15317 | Gelé | Autres sources à privilégier → locuteurs, wiktionnaire |
grec | 1833 | Gelé | Problème de diacritiques |
Kurde | 560 | Gelé | Problème avec le contenu du dictionnaire, 3 kurdes répertoriés sur ethnologue.com ckb, kmr, sdh format le groupe kur ou ku. |
Serbo-croate | 444 | Gelé | Le lexique n'est disponible avec une seule police (latine) comme utilisés par les Croates. Le Wiktionnaire n'a pour l'instant qu'une langue serbe. Ethnologue.com mentionne serbo-croate (hbs,sh), (hrv,hr) croate et (srp,sr) serbe. |
portugais | 18372 | Réalisé | |
anglais | 15812 | Partiel | Autres sources privilégiées → locuteurs, wiktionnaire |
afrikaans | 6360 | Réalisé | |
suédois | 6055 | Réalisé | |
féroïen | 5552 | Réalisé | |
espagnol | 5420 | Réalisé | |
papiamento | 4910 | Réalisé | |
danois | 4620 | Réalisé | |
frison | 4492 | Réalisé | |
italien | 3793 | Réalisé | |
hongrois | 2796 | Réalisé | |
polonais | 2470 | Réalisé | |
latin | 2389 | Réalisé | |
turc | 1966 | Réalisé | |
norvégien | 1961 | Réalisé | |
finnois | 1887 | Réalisé | |
islandais | 1632 | Réalisé | |
russe | 1504 | Réalisé | |
roumain | 1323 | Réalisé | |
sranan | 1117 | Réalisé | |
vieil anglais | 945 | Réalisé | |
tagalog | 940 | Réalisé | |
catalan | 881 | Réalisé | |
gaélique écossais | 876 | Réalisé | |
zoulou | 835 | Réalisé | |
swahili | 665 | Réalisé | |
maya yucatèque | 662 | Réalisé | |
albanais | 597 | Réalisé | |
malais | 519 | Réalisé | |
brahui | 432 | Exclus | Données non publiques Code langue à créer (brh?) - Nom de la langue en français |
thaï | 1658 | Exclus | Nombreux diacritiques que je ne maîtrise pas |
japonais | 1656 | Exclus | Dictionnaire romanisé |
gaélique irlandais | 1347 | Exclus | Données non publiques |
tchèque | 1905 | Exclus | Problème avec l'alphabet utilisé |
chinois (Mandarin) | 1379 | Exclus | Dictionnaire romanisé |
laotien | 1084 | Exclus | Données non publiques |
slovaque | 949 | Exclus | Problème avec l'alphabet utilisé |
indonésien | 801 | Exclus | Données non publiques |
gallois | 780 | Exclus | Données non publiques |
lombard | 345 | Exclus | Données non publiques - Code langue à créer (lmo) |
grec ancien | 338 | Exclus | Données non publiques - Problème de diacritiques |
maori | 280 | Exclus | Données non publiques |
hébreu | 237 | Exclus | problème de script |
maltais | 235 | Exclus | Données non publiques |
hawaïen | 239 | Exclus | Données non publiques - Code langue à créer (haw) |
bavarois | 217 | Exclus | Données non publiques - Code langue à créer (bar) |
tswana | 186 | Exclus | Données non publiques - Code langue à créer (tn) |
yoruba | 161 | Exclus | Données non publiques |
tahitien | 35 | Exclus | Données non publiques |
letton | 8 | Exclus | Pas assez de mots |
estonien | 2 | Exclus | Pas assez de mots |
lituanien | 2 | Exclus | Pas assez de mots |
Compte tenu des différents filtrages et contraintes de création d'articles un tiers des lemmes deviennent des articles.