El projecte

Guaita terminològica

Extracció de terminologia científica i tècnica de corpus original en anglès i proposta per a la cerca d’equivalents en català

La terminologia cientificotècnica apareix juntament amb la producció de coneixement nou i és en el discurs dels experts on els termes nous es consoliden. El projecte tracta d’explorar automàticament fonts textuals de referència de diversos camps de coneixement (biologia, bioquímica, càlcul, economia i química), redactats originàriament en anglès, i extreure’n els termes a fi de constituir un corpus terminològic que pot contenir: a) termes que ja tenen equivalent en català; b) termes que s’han difós en català en la forma manllevada, i c) termes inexistents encara en el discurs català. Interessen especialment aquests termes del darrer grup a fi de buscar-los un equivalent català adequat, per anticipar-nos així a la difusió del manlleu.

En la primera etapa del projecte (2018-2021) el corpus analitzat està constituït per un conjunt de manuals universitaris de bioquímica, microbiologia i economia. Aquest període ha servit per comprovar l’efectivitat de la metodologia. En l’etapa actual (2022-2023) es buiden números dels darrers dos anys de diverses revistes científiques publicades en accés obert: 2 de bioquímica i 2 de microbiologia (2022); 2 d’economia i 2 de comunicació (2023). 

Primera etapa del projecte  (2018-2021)

Per dur a terme de manera sistemàtica aquesta recerca hem disposat dels documents del projecte Scriptorium, en anglès i les traduccions al català, dels quals s’han extret els termes. A continuació, ha calgut explorar la versió actualitzada d’aquests mateixos manuals, extreure’n el llistat de termes en anglès i comparar les llistes de termes dels diferents períodes, a fi d’aïllar els termes nous que han aparegut progressivament en les versions actualitzades dels manuals. Aquests termes que no apareixien en les versions anteriors corresponen presumiblement a exponents de nou coneixement en la matèria. Els termes, així seleccionats, s’han passat a la Comissió de Terminologia Científica i Tècnica de l’IEC, que els ha lliurat al TERMCAT perquè en constitueixi dossiers de normalització amb propostes per a la llengua catalana, que la mateixa Comissió de Terminologia haurà de validar.

Una part dels materials d’aquesta primera etapa provenen de dos projectes anteriors de l’IEC:

Projecte Scriptorium

És un projecte llançat per la Fundació Torrens-Ibern i dut a terme a l’Institut d’Estudis Catalans. Va traduir de l’anglès al català deu manuals universitaris de ciència i tecnologia. El projecte Guaita terminològica recupera la terminologia bilingüe (anglès-català) d’aquests manuals.

Projecte CiT

És un projecte dirigit per Salvador Alegret (Secció de Ciències i Tecnologia de l’IEC) que ha creat el portal CiT (Terminologia de Ciències i Tecnologia), el qual consta de diverses interfícies: BiblioCiT, CercaCiT i ContextCiT. CercaCiT és un motor de cerca avançat que permet consultar totes les obres terminològiques de la biblioteca en línia BiblioCiT, simultàniament o per grups temàtics; ContextCiT permet trobar contextos d’ús dels termes apareguts en les revistes especialitzades recollides en l’Hemeroteca Científica Catalana i en obres especialitzades de referència. BiblioCiT conté, entre altres, la terminologia d’alguns manuals universitaris traduïts en el projecte Scriptorium. El projecte Guaita terminològica recupera aquesta terminologia bilingüe (anglès-català). Per a l’extracció automàtica de termes de les revistes científiques digitalitzades de l’Institut d’Estudis Catalans, el projecte CiT va cooperar amb el grup de recerca IULATERM, de l’Institut de Lingüística Aplicada de la Universitat Pompeu Fabra. El projecte Guaita terminològica utilitza novament l’extractor automàtic de termes del grup IULATERM, inclòs en el sistema de gestió de corpus i terminologia Terminus 2.0, en el procés d’obtenció de terminologia neològica.

GENERAL
El projecte tracta d’explorar automàticament fonts textuals de referència de diversos camps del coneixement científic i tècnic i de diferents períodes temporals, redactats originàriament en anglès, per extreure’n els termes nous en anglès inexistents encara en el discurs català, a fi de buscar-los un equivalent català adequat, anticipant així la difusió del manlleu.

ESPECÍFICS APLICATS
Materials terminològics per a la Comissió de Terminologia Científica i Tècnica de l’IEC i el TERMCAT
Corpus textuals especialitzats
Vocabularis especialitzats bilingües anglès-català
Vocabularis de neologismes especialitzats en anglès

Inicialment, el projecte Guaita terminològica s’havia de desenvolupar en tres fases, que es descriuen a continuació.

FASE I: Constitució d’un corpus paral·lel anglès-català

Per constituir aquest corpus es parteix dels manuals de ciència i tecnologia traduïts al català i s’analitzen amb un sistema automàtic. El grup IULATERM disposa d’un paral·lelitzador de textos català-anglès, desenvolupat pel Dr. Lluís de Yzaguirre, que ha estat actualitzat l’any 2016.
Paral·lelament s’avançarà en les condicions d’adquisició de les versions posteriors d’aquests manuals, sobretot la més actualitzada.
Prèviament convindrà treballar en la conversió de formats dels arxius disponibles de l’Editorial Reverté en anglès i en català.

FASE II: Extracció de terminologia bilingüe anglès-català

S’extrauran les llistes bilingües de terminologia procedents de l’anàlisi dels manuals traduïts i es prepararà el programa de comparació dels termes d’aquestes llistes amb els que procediran de l’extracció de les versions actualitzades.
En aquesta fase caldrà tancar l’adquisició de les versions actualitzades dels manuals en anglès en un format adient per al processament.

FASE III: Extracció de terminologia neològica en anglès

Extracció de la terminologia completa de la versió actualitzada dels manuals. Comprovació de la terminologia ja disponible a BADOL, base de termes del TERMCAT i el CiT de l’IEC. Contrast entre la terminologia dels manuals anteriors i la de la darrera actualització per extreure’n els termes nous. Anàlisi de la presència o absència de l’equivalent català d’aquests termes. Vehiculació dels termes nous en anglès per als quals cal buscar un equivalent català a la Comissió de Terminologia Científica i Tècnica de l’IEC i al Consell Supervisor del TERMCAT.

A causa de diversos motius, relacionats sobretot amb la indisponibilitat de materials, la metodologia de treball inicialment prevista s’ha hagut d’adaptar a la nova situació. A continuació descrivim els passos que se segueix d’acord amb el nou procediment metodològic.

1. Obtenció de llistes bilingües anglès-català dels manuals antics

Les llistes bilingües provenen dels manuals especialitzats antics que es van treballar en el projecte Scriptorium i per al portal CiT. Cal recuperar-ne els índexs analítics en anglès i en català, paral·lelitzar-los i depurar-los, per elaborar llistes bilingües que continguin termes exclusivament.

2. Obtenció de llistes en anglès dels manuals actualitzats

Les llistes en anglès provenen de les edicions més actualitzades (en data de 2018) dels manuals especialitzats treballats en el projecte Scriptorium. Cal digitalitzar-ne els índexs analítics, revisar els resultats del reconeixement òptic de caràcters (OCR) i depurar-los, per laborar llistes de termes en anglès.

3. Comparació de llistes per a l’obtenció de candidats a termes neològics en anglès

Cal comparar les llistes de termes en anglès provinents dels manuals antics i les dels manuals actualitzats per extreure’n els candidats a termes neològics, és a dir, termes que es documenten en les llistes recents, però no en les antigues.

4. Comprovació dels candidats neològics

Cal comprovar que els candidats a termes neològics són efectivament termes nous en anglès.

5. Propostes d’equivalents en català

Cal analitzar la presència o absència de l’equivalent català dels termes neològics en anglès i vehicular els termes inexistents en català, per als quals cal buscar un equivalent, a la Comissió de Terminologia Científica i Tècnica de l’IEC i al Consell Supervisor del TERMCAT.

A l’etapa actual (2022) el projecte treballa amb la mateixa metodologia comprovada, des del punt 2, per a l’extracció de candidats neològics de les revistes científiques.

Etapa actual del projecte (2022-2023)

Direcció

Mercè Lorente (Institut d’Estudis Catalans, Universitat Pompeu Fabra)

Equip de recerca

Salvador Alegret (Institut d’Estudis Catalans, Universitat Autònoma de Barcelona)
Jordi Bover (TERMCAT)
M. Teresa Cabré i Castellví (Institut d’Estudis Catalans)
Jaume Martí (Universitat Pompeu Fabra)
M. Amor Montané (Institut d’Estudis Catalans)
Jordi Vivaldi (Universitat Pompeu Fabra)
Jorge M. Porras-Garzón (tècnic extern)

Primera etapa del projecte  (2018-2021)

Direcció

M. Teresa Cabré i Castellví (Institut d’Estudis Catalans)

Equip de recerca

Salvador Alegret (Institut d’Estudis Catalans, Universitat Autònoma de Barcelona)
Jordi Bover (TERMCAT)
Mercè Lorente (Institut d’Estudis Catalans, Universitat Pompeu Fabra)
Jaume Martí (Universitat Pompeu Fabra)
M. Amor Montané (Institut d’Estudis Catalans)
Joana Torres (Institut d’Estudis Catalans)
Jordi Vivaldi (Universitat Pompeu Fabra)

Experts col·laboradors

Salvador Alegret (Institut d’Estudis Catalans, Universitat Autònoma de Barcelona): química
Ricard Guerrero (Institut d’Estudis Catalans, Universitat de Barcelona): microbiologia
Albert Carreras (Institut d’Estudis Catalans, Universitat Pompeu Fabra): economia

Articles de revista: