El projecte

Guaita terminològica

Extracció de terminologia científica i tècnica de corpus original en anglès i proposta per a la cerca d’equivalents en català

La terminologia cientificotècnica apareix juntament amb la producció de coneixement nou i és en el discurs dels experts on els termes nous es consoliden. El projecte tracta d’explorar automàticament manuals de referència de diversos camps de coneixement (biologia, bioquímica, càlcul, economia i química), redactats originàriament en anglès, i extreure’n els termes a fi de constituir un corpus terminològic que pot contenir: a) termes que ja tenen equivalent en català; b) termes que s’han difós en català en la forma manllevada, i c) termes inexistents encara en el discurs català. Interessen especialment aquests termes del darrer grup a fi de buscar-los un equivalent català adequat, per anticipar-nos així a la difusió del manlleu.

Per dur a terme de manera sistemàtica aquesta recerca disposem dels documents del projecte Scriptorium, en anglès i les traduccions al català, dels quals s’extrauran els termes. A continuació, caldrà explorar la versió actualitzada d’aquests mateixos manuals, extreure’n el llistat de termes en anglès i comparar les llistes de termes dels diferents períodes, a fi d’aïllar els termes nous que han aparegut progressivament en les versions actualitzades dels manuals. Aquests termes que no apareixen en les versions anteriors corresponen presumiblement a exponents de nou coneixement en la matèria. Els termes, així seleccionats, passaran a la Comissió de Terminologia Científica i Tècnica de l’IEC, que els lliurarà al TERMCAT perquè en constitueixi dossiers de normalització amb propostes per a la llengua catalana, que la mateixa Comissió de Terminologia haurà de validar.

El projecte Guaita Terminològica treballa amb materials de dos projectes anteriors de l’IEC:

Projecte Scriptorium

És un projecte llançat per la Fundació Torrens-Ibern i dut a terme a l’Institut d’Estudis Catalans. Va traduir de l’anglès al català deu manuals universitaris de ciència i tecnologia. El projecte Guaita terminològica recupera la terminologia bilingüe (anglès-català) d’aquests manuals.

Projecte CiT

És un projecte dirigit per Salvador Alegret (Secció de Ciències i Tecnologia de l’IEC) que ha creat el portal CiT (Terminologia de Ciències i Tecnologia), el qual consta de diverses interfícies: BiblioCiT, CercaCiT i ContextCiT. CercaCiT és un motor de cerca avançat que permet consultar totes les obres terminològiques de la biblioteca en línia BiblioCiT, simultàniament o per grups temàtics; ContextCiT permet trobar contextos d’ús dels termes apareguts en les revistes especialitzades recollides en l’Hemeroteca Científica Catalana i en obres especialitzades de referència. BiblioCiT conté, entre altres, la terminologia d’alguns manuals universitaris traduïts en el projecte Scriptorium. El projecte Guaita terminològica recupera aquesta terminologia bilingüe (anglès-català). Per a l’extracció automàtica de termes de les revistes científiques digitalitzades de l’Institut d’Estudis Catalans, el projecte CiT va cooperar amb el grup de recerca IULATERM, de l’Institut de Lingüística Aplicada de la Universitat Pompeu Fabra. El projecte Guaita terminològica utilitza novament l’extractor automàtic de termes del grup IULATERM, inclòs en el sistema de gestió de corpus i terminologia Terminus 2.0, en el procés d’obtenció de terminologia neològica.

El projecte tracta d’explorar automàticament manuals de referència de diversos camps del coneixement científic i tècnic i de diferents períodes temporals, redactats originàriament en anglès, per extreure’n els termes nous en anglès inexistents encara en el discurs català, a fi de buscar-los un equivalent català adequat, anticipant així la difusió del manlleu.

Inicialment, el projecte Guaita terminològica s’havia de desenvolupar en tres fases, que es descriuen a continuació.

FASE I: Constitució d’un corpus paral·lel anglès-català

Per constituir aquest corpus es parteix dels manuals de ciència i tecnologia traduïts al català i s’analitzen amb un sistema automàtic. El grup IULATERM disposa d’un paral·lelitzador de textos català-anglès, desenvolupat pel Dr. Lluís de Yzaguirre, que ha estat actualitzat l’any 2016.
Paral·lelament s’avançarà en les condicions d’adquisició de les versions posteriors d’aquests manuals, sobretot la més actualitzada.
Prèviament convindrà treballar en la conversió de formats dels arxius disponibles de l’Editorial Reverté en anglès i en català.

FASE II: Extracció de terminologia bilingüe anglès-català

S’extrauran les llistes bilingües de terminologia procedents de l’anàlisi dels manuals traduïts i es prepararà el programa de comparació dels termes d’aquestes llistes amb els que procediran de l’extracció de les versions actualitzades.
En aquesta fase caldrà tancar l’adquisició de les versions actualitzades dels manuals en anglès en un format adient per al processament.

FASE III: Extracció de terminologia neològica en anglès

Extracció de la terminologia completa de la versió actualitzada dels manuals. Comprovació de la terminologia ja disponible a BADOL, base de termes del TERMCAT i el CiT de l’IEC. Contrast entre la terminologia dels manuals anteriors i la de la darrera actualització per extreure’n els termes nous. Anàlisi de la presència o absència de l’equivalent català d’aquests termes. Vehiculació dels termes nous en anglès per als quals cal buscar un equivalent català a la Comissió de Terminologia Científica i Tècnica de l’IEC i al Consell Supervisor del TERMCAT.

A causa de diversos motius, relacionats sobretot amb la indisponibilitat de materials, la metodologia de treball inicialment prevista s’ha hagut d’adaptar a la nova situació. A continuació descrivim els passos que se segueix d’acord amb el nou procediment metodològic.

1. Obtenció de llistes bilingües anglès-català dels manuals antics

Les llistes bilingües provenen dels manuals especialitzats antics que es van treballar en el projecte Scriptorium i per al portal CiT. Cal recuperar-ne els índexs analítics en anglès i en català, paral·lelitzar-los i depurar-los, per elaborar llistes bilingües que continguin termes exclusivament.

2. Obtenció de llistes en anglès dels manuals actualitzats

Les llistes en anglès provenen de les edicions més actualitzades (en data de 2018) dels manuals especialitzats treballats en el projecte Scriptorium. Cal digitalitzar-ne els índexs analítics, revisar els resultats del reconeixement òptic de caràcters (OCR) i depurar-los, per laborar llistes de termes en anglès.

3. Comparació de llistes per a l’obtenció de candidats a termes neològics en anglès

Cal comparar les llistes de termes en anglès provinents dels manuals antics i les dels manuals actualitzats per extreure’n els candidats a termes neològics, és a dir, termes que es documenten en les llistes recents, però no en les antigues.

4. Comprovació dels candidats neològics

Cal comprovar que els candidats a termes neològics són efectivament termes nous en anglès.

5. Propostes d’equivalents en català

Cal analitzar la presència o absència de l’equivalent català dels termes neològics en anglès i vehicular els termes inexistents en català, per als quals cal buscar un equivalent, a la Comissió de Terminologia Científica i Tècnica de l’IEC i al Consell Supervisor del TERMCAT.

Direcció

Maria Teresa Cabré i Castellví (Institut d’Estudis Catalans, Universitat Pompeu Fabra)

Equip de recerca

Jaume Martí (Institut d’Estudis Catalans)
Mercè Lorente (Institut d’Estudis Catalans, Universitat Pompeu Fabra)
Salvador Alegret (Institut d’Estudis Catalans, Universitat Autònoma de Barcelona)
Joana Torres (Institut d’Estudis Catalans)
M. Amor Montané (Institut d’Estudis Catalans)
Jordi Bover (TERMCAT)
Jordi Vivaldi (Universitat Pompeu Fabra)