Viccionari Discussió:Termcat

De Viccionari
Salta a la navegació Salta a la cerca
OTRS Wikimedia.svg L'autorització per a l'ús d'aquesta obra s'ha verificat i arxivat al sistema OTRS de Wikimedia amb el tiquet núm. 2014102010017453. Podeu verificar-ho contactant amb algú que tingui accés al sistema.


Apartat "esports de pilota" del Diccionari general de l'esport ISBN 978-84-393-8296-6, sota CC BY-SA 3.0
No arxiveu aquesta nota
OTRS Wikimedia.svg L'autorització per a l'ús d'aquesta obra s'ha verificat i arxivat al sistema OTRS de Wikimedia amb el tiquet núm. 2015050410008699. Podeu verificar-ho contactant amb algú que tingui accés al sistema.


Terminologia dels videojocs i Diccionari d'educació, sota CC BY-SA
No arxiveu aquesta nota
OTRS Wikimedia.svg L'autorització per a l'ús d'aquesta obra s'ha verificat i arxivat al sistema OTRS de Wikimedia amb el tiquet núm. 2015060510004859. Podeu verificar-ho contactant amb algú que tingui accés al sistema.


262 fitxes terminològiques facilitades per correu corresponents a l'àrea temàtica d'instruments musicals, sota CC BY-SA
No arxiveu aquesta nota

Llicència continguts TERMCAT[modifica]

«el TERMCAT cedeix diverses fitxes terminològiques de diversos diccionaris per a ser usades sota la llicència CC-BY-SA-3.0 (vegeu la discussió).»

Aquests fitxers no són CC-BY-SA, almenys no els que distribueixen ells. Entenc que el TERMCAT us fa un tracte especial a vosaltres? Però llavors, quin sentit té que a la web els distribueixin en una llicència més restrictiva? --Netol (discussió) 02:02, 25 abr 2017 (CEST)

@Netol: És fruit d’un projecte de col·laboració amb Amical formalitzat amb correus validats a OTRS. Aparentment és un contrasentit però és possible que una mateixa obra es distribueixi amb llicències diferents per diferents canals. A la seva web segueixen un criteri general més restrictiu perquè en molts diccionaris hi ha implicats terceres parts. Les fitxes cedides són exclusivament de producció pròpia i les podien canviar a cc-by-sa però podria ser que en futures ampliacions del mateix diccionari no sigui aplicable. En resum, la cc-by-sa només és aplicable als diccionaris indicats i amb el contingut de la data de càrrega. --Vriullop (discussió) 10:12, 25 abr 2017 (CEST)
@Vriullop: Ok gràcies. Per cert, esteu important la resta de continguts de Termcat que són importables (CC BY)?--Netol (discussió) 21:02, 25 abr 2017 (CEST)
Ja ho hem comentat a la Viquipèdia, ara mateix no hi ha res en marxa. --Vriullop (discussió) 17:27, 25 abr 2017 (CEST)

Hola de nou. Només era per dir que he contactat amb Termcat. Tal com interpreto la web de Terminologia Oberta estan llicenciant tot el contingut en CC BY, ja que en tots els fitxers especifiquen com a mínim aquesta llicència. En alguns casos (quan només hi ha un fitxer descarregable) només especifiquen CC BY, però quan especifiquen CC BY ND també especifiquen sempre CC BY. Probablement no és el que volen fer però és el que han fet. --Netol (discussió) 21:02, 25 abr 2017 (CEST)

Quan hi ha dos fitxers amb dues llicències normalment un és HTML amb CC-BY-3.0 on només inclouen traduccions i l’altre és XML amb CC-BY-ND-3.0 on inclouen definicions i traduccions. Quan només hi ha un fitxer amb llicència CC-BY-3.0 és perquè només hi ha traduccions. Tot i que aquest sigui el criteri general caldrà analitzar-ho més a fons per veure si hi ha algun fitxer lliure amb les definicions. --Vriullop (discussió) 21:34, 25 abr 2017 (CEST)
OK, o sigui que la imatge especifica la llicència dels fitxers de la fila. Però alguns fitxers HTML tenen exactament el mateix contingut que l'XML (per exemple el primer resultat de http://www.termcat.cat/ca/TerminologiaOberta/0). En qualsevol cas es podrà també extreure informació dels HTML, encara que sigui només per crear traduccions.--Netol (discussió) 22:27, 25 abr 2017 (CEST)

Terminologia oberta[modifica]

Tasca específica com a continuació del fil anterior.

Revisats tots el XML lliures, l’únic que incorpora definicions és "De vacances". De les traduccions, les que poden resultar més interessants d’entrada són els diccionaris sobre éssers vius que incorporen el nom científic. Aquests noms científics es poden tractar com a multilingües, tal com fan a en:Category:mul:Taxonomic names (species) o tal com es va fer amb els símbols de Categoria:Additius, amb el nom comú en català com a definició. --Vriullop (discussió) 10:26, 26 abr 2017 (CEST)

Re: nom científic. Vols dir que s'hauria de crear l'entrada del nom científic amb {{-mul-}}? En anglès veig que posa «Translingual». He creat un exemple amb l'entrada catalana balena franca atlàntica, afegint sinònims i traduccions. El nom científic l'he posat com a traducció del llatí. En el fitxer HTML cdlmamifersmarins.html per aquesta entrada no hi veig més informació, a part de "cetacis > misticets > balènids", que no sé si es podria posar. Ho veus bé? --Netol (discussió) 22:45, 27 abr 2017 (CEST)
El problema és que es queda sense definició. És acceptable, amb la plantilla {{sense accepcions}}, però en algun moment s’hauria d’omplir i ja en tenim un munt a Categoria:Viccionari:Paraules sense accepcions. El nom científic més que com a traducció en llatí hauria de ser part de la mateixa definició. He afegit l’arbre del Termcat com a hiperònims. He creat Eubalaena glacialis com a mostra d’entrada multilingüe. Quan tinguem accés a Wikidata, previst a curt termini, es podrà completar automàticament amb els tàxons superiors tal com ja fem en les infotaules de la Viquipèdia. --Vriullop (discussió) 11:05, 28 abr 2017 (CEST)
Gràcies, amb això crec que ja tinc clar com fer-ho. Respecte a posar les definicions, d'acord que s'haurien d'omplir, però si no ho tenim al fitxer no ho podem fer de forma automatitzada. Després dels fitxers d'animals prioritzo els fitxers amb definicions (que pel que dius només són "de vacances"). Si sabéssim que el Termcat acabarà alliberant les definicions tindria sentit esperar, però potser també podem aconseguir (en una segona fase) actualitzar de forma automatitzada els continguts a mesura que s'actualitzin a Termcat. Parlant de Wikidata, suposo que és allà on tindria més sentit importar tot això, però espero que si algun dia això és possible (entenc que no ho serà a mig termini) aquesta importació es podria fer també a partir del Viccionari (si el Viccionari es migra a Wikidata). --Netol (discussió) 20:13, 28 abr 2017 (CEST)
Ok, com a mínim tenim el nom científic en la definició, tot i que s’haurà de deixar marcat amb la plantilla per completar-ho. Les traduccions de noms comuns i els sinònims ja són una bona informació. Per crear els sinònims no hi ha cap problema ja que és una simple remissió, per exemple balena basca. En cas que el títol no sigui una locució, o sigui sense cap espai en blanc, es pot afegir {{ca-pron}} que genera la pronúncia automàticament. A les referències hi he posat el diec perquè l’he buscat però d’entrada es pot deixar {{ca-dicc|termcat}}. Pels plurals es generen automàticament ja tinc el bot preparat per crear-los. També es poden crear les entrades per les altres llengües amb la traducció en català com a accepció. Sobre Wikidata, no sé gaire bé com acabarà. Ara mateix només tenim els interwikis via una base de dades paral·lela. Està previst carregar la informació bàsica dels lexemes com a nous ítems. Si els actuals a Wikidata són Qnnn, els lexemes seran d’un tipus nou Lnnn. Va veurem com funciona, però per ara no em preocupa com es farà l’exportació sinó tenir l’extensió Wikibase disponible per Lua per començar a xuclar coses. --Vriullop (discussió) 20:54, 28 abr 2017 (CEST)
Pel que fa a les traduccions dels altres idiomes (es, en, fr), es podria fer a partir de les dades del mateix Viccionari amb un bot més genèric? Perquè això serviria per a tot el Viccionari. --Netol (discussió) 21:28, 28 abr 2017 (CEST)
Sí, ho tinc preparat per algunes llengües però només ho faig servir en casos puntuals. Sovint les traduccions no són biunívoques o depenen d’un context que cal especificar. En aquest cas concret no hi hauria problema en fer-ho massivament però necessito les pàgines identificades. En la mostra de la balena franca atlàntica hi he afegit una categoria temàtica. --Vriullop (discussió) 22:36, 28 abr 2017 (CEST)
S'haurien de posar categories temàtiques en els sinònims o traduccions? Puc crear molt fàcilment les traduccions, però al fitxer no hi ha ni el gènere. --Netol (discussió) 10:24, 30 abr 2017 (CEST)
Sí, es poden posar també les categories temàtiques en els sinònims i traduccions. El gènere de les traduccions és una mancança ja detectada. Durant el projecte de col·laboració els ho vaig comentar però la resposta és que no pensen incloure’l. Ell es dediquen al català i no els correspon fixar els detalls en altres llengües. Per francès ho tinc preparat amb una consulta a la pàgina del Viccionari en francès per corregir el gènere i afegir la pronunciació, si existeix tot i que en terminologia és fàcil que no existeixin. En anglès no hi ha gènere però alguns casos són incomptables, sense plural, o bé amb doble plural, i ho faig igual consultant en.wikt. Per castellà no ho tinc preparat, a més que es.wikt sol ser més pobre. Si vols pots generar les traduccions en castellà, amb el mateix gènere que en català (amb una ullada es pot detectar si hi ha algun cas dubtós), i jo ja m’encarrego de les traduccions en anglès i francès. --Vriullop (discussió) 10:56, 30 abr 2017 (CEST)
Ok! --Netol (discussió) 11:11, 30 abr 2017 (CEST)

Em sembla que ja ho tinc. El codi m'ha quedat una mica espaguetti, en part perquè els HTMLs que generen tenen cel·les variables (colspan...) i no he vist masses alternatives a l'hora de detectar el contingut. Però funciona, crec que l'únic cas que s'escapa són els termes generals que són a la vegada també sinònims d'un altre terme (només es creen una sola vegada), però són tants pocs casos que es poden repassar manualment. Ho estic executant a https://test.wikipedia.org. El codi del script es pot veure a https://github.com/pereorga/termcat-dicts/blob/master/pywikibot/cdlmamifersmarins.py. --Netol (discussió) 00:18, 30 abr 2017 (CEST)

He arreglat un parell d'errors, entre ells un que feia que tots els termes principals es creessin com a femenins. I ara també es crea la pronunciació en els sinònims, que m'ho havia deixat. --Netol (discussió) 01:20, 30 abr 2017 (CEST)
Perfecte. Un parell de correccions menors testwiki:Special:Diff/314839, la posició de la plantilla de pronúncia i sense punt final en la llista de sinònims. Tens un compte de bot? Pots demanar la marca de bot a Viccionari:Bots. --Vriullop (discussió) 11:03, 30 abr 2017 (CEST)
Arreglat merci. Ho estic executant una altra vegada tot a test2.wikipedia.org. L'únic que crec que em falta són les categories en castellà, que no veig com es posarien i només he trobat exemples de categories automàtiques o ocultes. --Netol (discussió) 12:04, 30 abr 2017 (CEST)
Igual Especial:Diff/959372. La plantilla catllengua és relativament nova i amb el codi de llengua ja hi afegeix el nom, a més de la clau d’ordenació específica per la llengua quan fa falta. Altres opcions són {{categoritza}}, sense afegir-hi el nom de llengua, o {{marca}} per posar com a marca davant de la definició quan cal contextualitzar-la. --Vriullop (discussió) 12:59, 30 abr 2017 (CEST)