Tesoro.pr: Tesoro lexicográfico del español de Puerto Rico en línea

Introducción

Tesoro.pr, o Tesoro lexicográfico del español de Puerto Rico en línea, es un diccionario de diccionarios, de base electrónica, en continuo crecimiento. Este proyecto de la Academia Puertorriqueña de la Lengua Española tiene la intención de ser la obra de referencia más completa disponible sobre palabras y frases puertorriqueñas, así como una herramienta de investigación sobre el léxico y los diccionarios de Puerto Rico. Actualmente incluye más de 27,000 palabras y frases puertorriqueñas, provenientes de 65 fuentes (diccionarios, vocabularios, glosarios, tesis, etc.), escritas entre 1788 y 2010.  

La base de Tesoro.pr es el Tesoro lexicográfico del español de Puerto Rico (en adelante, el Tesoro), de María Vaquero, Amparo Morales y la Academia Puertorriqueña de la Lengua Española (San Juan: Plaza Mayor, 2005), que compiló en un solo tomo 63 fuentes diferentes sobre léxico puertorriqueño. El Tesoro tenía 19,333 lemas, divididos en 11,812 lemas simples y 7,521 lemas complejos, con un total de 36,088 acepciones.

Tras la publicación de Tesoro.pr en 2016, se inició el trabajo de ampliación y actualización de las fuentes. Se agregaron dos fuentes: el Diccionario de Anglicismos Actuales (Amparo Morales, San Juan: Plaza Mayor, 2009) y las palabras de Puerto Rico del Diccionario de Americanismos (Asociación de Academias de la Lengua Española, 2010). Estas adiciones aumentaron en un 25% el número de lemas (a 25,952) y en un 30% el número de acepciones (a 53,034). Los lemas simples crecieron a 17,459, y los lemas complejos a 10,309.


1. El Tesoro lexicográfico del español de Puerto Rico 

El Tesoro lexicográfico del español de Puerto Rico fue el tercero de su tipo publicado en español, tras el Tesoro Lexicográfico del español de Canarias (1992) y el Tesoro Léxico de las hablas andaluzas (2000). La monumental obra fue resultado de 10 años de labor de las lingüistas María Vaquero y Amparo Morales, de la Academia Puertorriqueña de la Lengua Española. 

El Tesoro compiló en un solo tomo el léxico puertorriqueño recogido por 63 autores en fuentes heterogéneas —diccionarios, vocabularios, glosarios, etc.—, principalmente en el siglo 20. Algunas de las figuras más notables de esa tradición son: Augusto Malaret, Tomás Navarro Tomás, Manuel Álvarez Nazario, Humberto López Morales, María Vaquero, Amparo Morales. Las fuentes previas al siglo 20 son pocas, pero valiosas: la Historia geográfica, civil y natural de la isla de San Juan Bautista de Puerto Rico de Iñigo Abbad y Lasierra, de 1788, y El Gíbaro de Manuel Alonso, de 1849.

Más específicamente, las páginas del Tesoro contienen, en primer lugar, diccionarios y vocabularios generales sobre el español de Puerto Rico. Entre ellos destaca el Vocabulario de Puerto Rico, de Augusto Malaret (1937), que presenta la primera reflexión seria y abarcadora del rico vocabulario de Puerto Rico. Como apunta Humberto López Morales en su edición crítica del mismo texto (1999), la calidad de esta obra —tanto en lo abarcador de su macro y microestructuras, como en la sistematicidad y rigor de las definiciones— hacen de Malaret, incluso al día de hoy, uno de los más importantes diccionaristas hispánicos.  

El Tesoro también incluye diccionarios y glosarios de palabras según su origen, especialmente de indigenismos, africanismos y anglicismos. Son obras como el Diccionario de voces indígenas de Puerto Rico, de Luis Hernández Aquino (1969), El elemento afronegroide en el español de Puerto Rico, de Manuel Álvarez Nazario (1961), La herencia lingüística de canarias en Puerto Rico, de Manuel Álvarez Nazario (1972) y Anglicismos puertorriqueños, de Amparo Morales (2001).

El Tesoro recoge, además, estudios e inventarios léxicos de parcelas específicas de la vida, como los relativos al mar, el mundo agrícola, las peleas de gallos, la delincuencia, los bailes, las comidas, la dulcería y las bebidas, entre muchos otros. Por otra parte, el Tesoro también cuenta con repertorios de léxico según los niveles de lengua, como el Léxico del habla culta de San Juan de Puerto Rico, de Humberto López Morales (1986), y El habla popular de Puerto Rico, de Washington Llorens (1981).

Finalmente, se incluyen textos que emergen de acercamientos científicos al español de Puerto Rico. En el Tesoro se recogen los datos léxicos de los estudios de geografía lingüística, iniciados por Tomás Navarro Tomás en la ruralía de Puerto Rico en 1927. Esta primera investigación geolectal en el país fue la base para las investigaciones lingüísticas de numerosos municipios de la isla que dirigió posteriormente el profesor Rubén del Rosario en el Departamento de Estudios Hispánicos de la Universidad de Puerto Rico. En las décadas de 1960 y 1970, se presentaron 20 tesis de Maestría y Doctorado enfocadas en la lengua de los municipios. La mayoría de ellas son inéditas, pero el componente léxico se recogió en el Tesoro

Particularmente importantes son los estudios dialectales, encabezados por la investigación histórica de Manuel Álvarez Nazario, que exploró los arcaísmos en el español puertorriqueño y nuestra habla campesina, así como las diversas influencias lingüísticas —especialmente la indígena, la africana y la canaria— que marcaron el español de Puerto Rico. A fines del siglo 20, la geolingüística impulsada por Manuel Alvar impulsó la colecta de materiales para el Atlas lingüístico de Puerto Rico. Los datos léxicos se publican en el libro Palabras de Puerto Rico, de María Vaquero, en 1995, y se incluyeron en el Tesoro.  

2. Tesoro.pr

Con el proyecto Tesoro.pr, publicado en Internet en 2016, Puerto Rico se inicia formalmente en la lexicografía electrónica. Al igual que el Tesoro, Tesoro.pr constituye una obra innovadora, al ser el primer tesoro lexicográfico en Hispanoamérica en soporte electrónico.

El objetivo fundamental de Tesoro.pr fue poner al alcance de un público amplio, a través del Internet y por vía de computadoras, tabletas y teléfonos celulares, todo el caudal léxico recogido en el Tesoro. Nos interesaba alcanzar a los investigadores de lengua y literatura puertorriqueñas, a los maestros y profesores, a los estudiantes de todos los niveles, y a los puertorriqueños en general, de la Isla y de afuera. 

El hecho de que los tesoros lexicográficos ordenen cronológicamente las definiciones de las diferentes fuentes aporta valores adicionales a conocer el sentido de una palabra. Nos permite saber, por ejemplo, cuándo una palabra se registra formalmente por primera vez, lo que aporta pistas sobre cuándo entra o sale una palabra o un sentido en la lengua. Asimismo, permite apreciar el camino semántico —a la luz de las fuentes lexicográficas— de una palabra en el tiempo. Finalmente, para los estudios filológicos y literarios un tesoro lexicográfico es invaluable, pues permite conocer el sentido de una palabra en el momento en que se escribe el texto que se estudia. 

El segundo objetivo del proyecto, que se discutirá a continuación, fue aprovechar las posibilidades de la plataforma electrónica para explotar al máximo los datos lexicográficos. La plataforma electrónica no solo salva la limitación del espacio impreso, sino que permite explorar de maneras dinámicas y noveles las relaciones que existen entre palabras, significados y otros datos. 

2.1 La herramienta electrónica

La base de datos y herramienta de consulta de Tesoro.pr se construyeron específicamente para el proyecto, usando materiales de fuente libre o abierta (“open-source”). Para la programación principal, se usó Python, Django y Ember.js; para la base de datos, ProgresSQL; para el “caching”, Memcached, y como motor de búsqueda, ElasticSearch. 

Búsquedas sencillas

En Tesoro.pr se pueden realizar búsquedas sencillas, por lema o palabra de entrada. En este tipo de búsqueda, la función de cercanía gráfica muestra todas las opciones que contienen los caracteres tecleados. Esto es particularmente valioso para localizar palabras de grafía inestable, o frases con componentes variables. Por ejemplo, la secuencia “pir” dará las siguientes opciones: agua de piringa, juego la pirámide, pira, piragua, piragüero

Cabe señalar aquí que las unidades pluriléxicas se han registrado como lemas individuales, por lo que son localizables de manera independiente, pero también se han vinculado con al menos una de las palabras léxicas contenidas (así, a dos por chavo tiene su propia entrada, pero también se encuentra al final de la entrada de chavo). 

Una decisión macroestructural del Tesoro, que se mantiene en Tesoro.pr, fue separar en entradas diferentes (con superíndices distintos) los sentidos bien distinguidos de una palabra; de ese modo, se pueden agrupar en la misma entrada las definiciones aportadas por las fuentes para cada uno de esos sentidos. Por ejemplo, el indigenismo piragua tiene tres entradas diferentes, con tres superíndices: piragua1, piragua2, piragua3. Piragua1 se refiere a una canoa grande. Para este sentido, se presentan definiciones de cinco fuentes distintas, en orden cronológico, empezando con el cronista Abbad y Lasierra, de 1788. Piragua2 es un cono de hielo rayado, con sirope por encima, y tiene 14 definiciones, de 1937 a 2001. Piragua3 se refiere a una batea hecha de la palma real, usada para llevar la ropa al río; esta tiene dos definiciones, provistas por dos fuentes diferentes. 

Los hipervínculos o hiperenlaces nos permiten saltar a las referencias cruzadas —sinónimos y palabras relacionadas—, así como a las palabras previas y siguientes, y a otras unidades de información, con el toque de un botón. 


Búsquedas avanzadas

Gran parte de la novedad y la utilidad de Tesoro.pr radica en las posibilidades de búsqueda avanzada. Los componentes microestructurales del Tesoro se convirtieron en campos de la base de datos, lo que permite enfocar las búsquedas desde esas perspectivas.

Categoría gramatical

La búsqueda avanzada por categoría gramatical nos permite pedir a Tesoro.pr, por ejemplo, todas las locuciones verbales. El resultado son 2,925 locuciones verbales: abrir brecha, abrir el coco, abrir el paraguas y así sucesivamente.

Origen de palabra 

Por medio de la búsqueda avanzada de origen de la palabra, podemos rastrear sistemáticamente los africanismos, anglicismos, galicismos e indigenismos, según la información aportada por las fuentes. Una búsqueda de “africanismos” da 97 resultados, que comienzan por las voces bachata, balalú, baquiné, bembe.  

Fuente lexicográfica y año de publicación 

La tercera búsqueda avanzada es por fuente lexicográfica y año de publicación. Por ejemplo, podemos obtener el lemario completo del diccionario de Augusto Malaret de 1937. Se trata de 3,576 palabras: a corcor, a jilo de, a la brava, a la criolla, etc. Por su parte, esta búsqueda avanzada nos informa de que el texto de Abbad y Lasierra de 1788 incluye 102 palabras, de las cuales 46 son indigenismos.  

Campo temático 

La próxima búsqueda avanzada es la de campo temático, un componente de información añadido al contenido de Tesoro. Se trata de campos léxico-semánticos vinculados a ámbitos de la vida con los que se etiquetaron todas las acepciones de Tesoro.pr. 

Para establecer la nómina de campos temáticos, partimos de los “centros de interés” usados en los estudios de disponibilidad léxica iniciados por Humberto López Morales. Según trabajábamos, entallamos las categorías a este lexicón, hasta llegar a 42 campos temáticos. Hay campos de la vida en general —‘Vivienda’, ‘Familia y Amigos’, ‘Flora’ y ‘Fauna’—, pero también otros más específicos, que el mismo léxico nos exigió: ‘Caña, ‘Café’, ‘Tabaco’, ‘Gallística’. 

Gracias a esta marcación, podemos orientar las búsquedas onomasiológicamente, partiendo de una noción conceptual y llegando a las palabras que hablan de esa noción. Ello facilita agrupar y estudiar las palabras por campos temáticos. Una búsqueda por el campo de ‘Vida espiritual’, por ejemplo, arroja 280 resultados, que comienzan por: adoratorio, agua medicinal, aguaje, alborada, amaldecir… Las etiquetas que aparecen en las entradas — ‘Vivienda’, ‘Familia y Amigos’, ‘Vida espiritual’— son marcas abreviadas; el contenido de cada una se está descrito con más detalle en la página web.

Tesoro.pr como corpus 

En el proyecto, no quisimos restringir las búsquedas a los campos formales del diccionario, así que abrimos el Tesoro a manera de corpus. Es posible, por lo tanto, buscar dentro de las definiciones: por ejemplo, se puede buscar todas las palabras en cuya definición figura la palabra “mujer”. El resultado será una lista de palabras acuñadas en el español de Puerto Rico —según fueron registradas por las fuentes— para decir algo de la mujer, lo que podría constituir la base de un estudio sobre ideología de género. De igual modo, podríamos buscar todas las palabras en cuya definición figura la palabra “poesía”, o bien “niño”, que dio 370 resultados que inician con albayalde, amozado, amozarse, apechar, arrimar el juan caliente… 

Búsqueda ortográfica inversa

Finalmente, añadimos una búsqueda ortográfica inversa, que nos permite buscar por terminación de la palabra. La relación de palabras que terminan con -aba, por ejemplo, comienza así: aldaba, ampalaba, baba, bayaba, calaba, casquito de guayaba. Esta función será útil para estudiosos de fenómenos morfológicos, por ejemplo, de diminutivos lexicalizados: ahorita = en un rato, o hace un rato; bacalaíto = fritura de harina y bacalao’ barrito = grano causado por el acné. Asimismo, esperamos que sea útil para trovadores y poetas que buscan ayuda para una rima. 

Búsquedas combinadas

Los criterios de búsqueda se pueden combinar entre sí para restringir los resultados. Por ejemplo, podríamos combinar campos temáticos, como ‘Flora’ + ‘Vida espiritual’, ‘Cuerpo Humano’ + ‘Cualidad’ o ‘Alcohol’ + ‘Evento’. También podemos combinar criterios de diferente tipo. Por ejemplo, una búsqueda de adjetivos, de origen inglés y con etiqueta de ‘Cuerpo humano’, produce: flofi, good looking, kinky, slender y tofe. O una búsqueda de ‘adjetivos’ con etiqueta de ‘Estado anímico o afectivo’ —que incluye lo relativo a los estados de ánimo, procesos psicológicos e intelectuales, actitudes y voluntades— da 508 resultados. Algunos ejemplos son: ababachado = avergonzado; caripelado = descarado; culeco = muy contento o alegre. 

Cabe señalar que la base de datos de Tesoro.pr incluye muchos campos adicionales que no son visibles ahora, pero que darán cabida a otras informaciones, dialectales, pragmáticas y sociolingüísticas, en proyectos futuros. 


3. Próximas etapas

Los próximos trabajos de Tesoro.pr van dirigidos a la actualización de su contenido, cuya fuente más reciente es de 2010, basándonos en el trabajo de lingüistas y otras publicaciones. Además, nos interesa integrar fuentes en Tesoro.pr de tiempos pasados, comenzando por el siglo 19, para empezar a dar cuenta del español de Puerto Rico previo al siglo 20.

Visualizamos, además, la creación de una red de tesoros lexicográficos, en la cual múltiples países hispanohablantes cuenten con plataformas compatibles —informática y lexicográficamente—, que permitan compartir, comparar y contrastar datos, y nos den un cuadro más completo de nuestra lengua. 


Notas

1 - La primera y segunda etapas del proyecto Tesoro.pr fueron posibles gracias al auspicio de la Fundación Puertorriqueña de las Humanidades y la National Endowment for the Humanities, así como del Sistema Universitario Ana G. Méndez, la Universidad del Turabo, la Universidad Metropolitana y la Universidad del Este. En la segunda etapa del proyecto, sumó su apoyo material la Fundación SM. También recibimos respaldo en género de Puerto Rico Top Level Domain, que facilitó el nombre Tesoro.pr, y del bufete Adswar, Muñiz y Goyco y la licenciada Alexandra Casellas, que brindaron asesoría sobre los aspectos legales. 

2 - El equipo de trabajo de Tesoro.pr está formado por Maia Sherwood Droz, directora; Freddy Acevedo, ayudante principal; Giovanni Collazo y José Padilla, de Blimp LLC, equipo de informática; los artistas gráficos Javier W. Vélez y, de Zoom Ideal, Juan Carlos Torres y Arturo Morales. Los asistentes en lexicografía son: Cristina Maymí, Kevin Matos, Jessica Vélez, Gabriela Ayala, Karla Montañez, Hjalmar Rivera y Amapola Caballero. Reconocemos también el trabajo de las lingüistas Rebecca Arana y Carla Mojica, que ayudó a sentar las bases para este proyecto; Rebecca Arana también brindó asesoría en lexicografía posteriormente. 

Publicado en: BAPLE · CUARTA ÉPOCA · VOL. 8 · 2022 · PÁGS. 229-238 

Anterior
Anterior

“Isleta” de San Juan: ¿un arcaísmo conservado en la toponimia? 

Siguiente
Siguiente

Líos de faldas y otras asimetrías