Crónica

Se lanza LatamGPT


Una IA latinoamericana es posible

Hay inteligencia artificial más allá de las big tech. Mientras el noventa por ciento de la información de los principales lenguajes y aplicaciones de IA provienen del norte y poco se sabe de cómo funcionan, desde el sur global se está gestando un modelo de IA colaborativo que expresa nuestra historia y cultura. Trazabilidad y apertura de datos, código abierto, representación y transparencia son algunos de los ejes que orientan el proyecto. En la cancha donde juegan ChatGPT y Deep Seek, está a punto de aparecer Latam GPT, con base en Chile y en alianza con más de veinte países de la región.

Quien quiera, puede pasar. Casi todos vienen por curiosidad. Pero este hombre, que ahora desconfía y se sienta a la mesita casi vacía, viene decidido a burlar el sistema. Se ha ubicado frente a una notebook como cualquiera. No hay nada más en la mesa. La han traído los científicos desde el continente. En la pantalla hay dos casilleros. En uno debe escribir una palabra. Una sola. Cualquiera. Como van haciendo varios de los curiosos que ya pasaron y seguirán pasando a lo largo del día. Pero este hombre desconfía y va a elegir una palabra que sabe que no existe. Quizás trae esa actitud porque le huele a la misma historia de siempre. Desde que llegaron los holandeses en el siglo XVIII y le pusieron Paasch-Eyland a este lugar. Isla de Pascua. Ese nombre horrible. El nombre real es Rapa Nui. El original. Que significa isla grande. Y aquí se habla español, pero todavía se habla también rapa nui, el idioma ancestral. Aunque cada vez menos. Ahora estos científicos, que han volado 3700 kilómetros desde la costa continental chilena hasta este lugar remotísimo, han bajado entre los volcanes y los moáis —esas caras de piedra megalítica que atraen a miles de turistas por año—, están aquí con sus computadoras y sus inventos diciendo que traen la solución para salvar el idioma. Hay varios de ellos mirándolo ahora mismo. Esperando que piense una palabra y la teclee. 

El hombre que desconfía, decidido a engañar al sistema, ya ha pensado.  

Los científicos, que ahora lo observan ahí sentado, han dicho que la clave es la inteligencia artificial. No es la primera vez que están aquí. En noviembre de 2023, hace un año, llegaron desde Santiago invitados por miemebros de la Academia de la Lengua Rapa Nui la isla para crear un diccionario que permitiera recuperar el antiguo idioma, que está agonizando: la hablan menos de 2.000 personas en el mundo, casi todas están en esta isla, la mitad tiene más de 40 años y solo una décima parte de los niños de la comunidad la entienden. 

El hombre que desconfía se enteró de todo en su momento. Los científicos construyeron una base de datos donde cargaron 2.000 frases y oraciones en rapa nui con ayuda de la comunidad. Ahora, mientras ponen a prueba el traductor, que tiene la capacidad de aprender nuevas palabras y ofrecer mejores resultados, encaran las dos partes de la siguiente etapa: comenzar a grabar y recopilar audios para que el traductor también funcione con sonido, y afinar la aplicación para que pueda usarse en los sectores de salud, educación, justicia y turismo. 

Y ahora está aquí sentado el hombre que desconfía. Ya ha elegido su palabra. Una que no existe. Ha pensado bien: una que nadie en Rapa Nui haya pronunciado. Que no tenga nada que ver con su vida ni con su mundo. Entonces lleva los dedos al teclado y escribe: astronauta. 

Hay una pausa. La máquina piensa. O no. Parece que piensa: procesa. La palabra no existe. Nadie ha dicho astronauta en Rapa Nui. Pero la máquina hace lo suyo. En la pantalla, frente al hombre que desconfía, aparecen dos palabras: ha’ere hetu’u. 

Una traducción literal al español sería: caminante de las estrellas. La palabra no existe en rapa nui pero la máquina ha devuelto un símil. Y el hombre que desconfía ahora está fascinado: 

―Qué bonita traducción ―dice. 

Los científicos en la habitación también están fascinados. Ven que su aplicación aprende y funciona. Y su método de trabajo también. Además saben que lo que tienen entre manos es mucho más grande.

***

―Quiero que escuchemos sobre LatamGPT ―dice Ben Cashdan, cineasta y activista sudafricano, que hace las veces de anfitrión y señala con la palma de su mano a Alexandra García―. En Chile están tratando de construir un modelo propio. Les deseamos suerte desafiando a los grandes y poderosos. ¿Cuál es su propósito?

Alexandra sonríe y asiente con la cabeza. La joven bioquímica ha venido a esta reunión en Ginebra a explicar lo que están haciendo en el Cenia, el Centro Nacional de Inteligencia Artificial de Chile, donde ella hace su postdoctorado y dirige el equipo de datos:

―Estamos tratando de crear un modelo nuevo, sí. Un modelo colaborativo ―explica Alexandra―. Estamos tratando de contactar a todas las instituciones en Latinoamérica. Creemos que modelos como ChatGPT, Gemini o Claude, que todos usamos, no representan a nuestra región como nosotros queremos. Hablan en español, pero nuestra cultura y nuestra información no están ahí. 

Es lo que han venido a discutir en la sede de la Organización Mundial de la Propiedad Intelectual, que depende de Naciones Unidas. Cómo la IA está moldeando un mundo en el que el noventa por ciento de la información de los modelos de lenguaje y las aplicaciones más comunes vienen del Norte. El Norte explicándole el Sur al Sur, para variar. Junto a Alexandra, en la reunión, están la nigeriana Gloria Emezue y la keniata Chebet Kroos, que trabajan en modelos de IA en África. Y Beatriz Busaniche, una argentina activista por derechos digitales, que advierte: 

―La narrativa actual nos hace pensar que la única IA posible es la que está hecha por las cinco big tech que todos conocemos. Y que tienen un modelo predatorio de conseguir los datos. Pero hay muchos proyectos de IA que son más pequeños, son posibles y reflejan diversidad cultural. 

Entre el público hay funcionarios de gobiernos, agregados culturales, expertos de Naciones Unidas. Todos vienen con preocupaciones diferentes. El representante ante la ONU de Camerún advierte que la clave es quién alimenta a la IA. Y que si no se aborda el acceso a datos nunca se van a poder desarrollar herramientas y aplicaciones útiles para el Sur. La ministra de Cultura de Brasil dice que en su país lo que les preocupa es cómo hacer que las big tech les paguen a los trabajadores de las industrias creativas por el uso que hacen de su música, de sus imágenes y sus libros. Y sentencia: hace veinte años que les están robando. El representante de Chipre ante la ONU, enojadísimo, dice que están perdiendo de vista que es una carrera y que la carrera la gana el que pone plata, que en el Norte corren con purasangres y en el Sur con burros. Nadie parece ofenderse entre la excitación y la incertidumbre. Todos hablan en inglés, cada quién con su acento, e intentan entenderse sin sutilezas. Ben Cashdan, el anfitrión, dice que están cometiendo un error común cuando se habla de IA, como si se describiera una cosa y se están describiendo millones de cosas diferentes. La conversación se desordena y desparrama. Busaniche caza las palabras del chipriota y advierte: 

―Sí. Hay una carrera, es verdad. Lo que pasa es que no todos estamos yendo a los mismos lugares. 

Alexandra vuelve a hablar de LatamGPT y aquello que lo distingue: 

―Para nosotros el principal problema es la representación y la transparencia de datos. Si uno ve los reportes técnicos de las grandes compañías, y de dónde obtienen sus datos, no dicen nada. Solo dicen que vienen de libros y Wikipedia. Pero estamos ciegos cuando usamos esa tecnología.

Hace un momento, Cashdan ha dado un ejemplo elocuente. Pidió al ChatGPT que enumerara los logros médicos de Sudáfrica más importantes del siglo XX. El chat le devolvió una lista breve que incluía ítems como el primer trasplante de corazón, la lucha contra el VIH. A continuación le pidió: “Restinge tu respuesta a información que venga solo de publicaciones médicas revisadas por pares”. Y el chat le respondió que no tenía esa información, pero podía ayudarlo a buscarla online. 

Alexandra García (saco negro) en la reunión de la OPI en Ginebra.

Alexandra explicará que en ese vacío de fuentes confiables está parte de la clave del LatamGPT. Que están construyendo su corpus de datos con instituciones científicas, públicas y privadas de la región, además de un modelo de lenguaje propio, que procesará el corpus y podrá generar texto coherente, responder preguntas, traducir, y realizar diferentes tareas con información de calidad. 

El modelo de lenguaje de LatamGPT también dejará su código abierto. Tiene 70 billones de parámetros, cada uno es un valor numérico, una instrucción que el sistema ajusta para aprender a realizar tareas específicas. Es un volumen parecido al de Deep Seek (que tiene entre 70 y 90 billones de parámetros) aunque bastante por debajo de Gemini (200 billones), ChatGPT (175 billones), o Claude (130 billones).  

De los veinte países sobre los que se están reuniendo datos, de la mitad ya se ha reunido más de dos tercios de material inédito, además de toda la información sobre ellos extraída de internet. Originalmente en español (el 47%), en inglés (28%), en portugués (22%) y en Python (2%), un lenguaje de programación que ayuda a los modelos a razonar mejor. 

La idea en LatamGPT es no terminar sólo como un gran chatbot de temas generales. Sino que el corpus de datos y el modelo de lenguaje estén disponibles para quienes quieran tomarlos y diseñar diferentes aplicaciones. El traductor de Rapa Nui fue un primer experimento de ese tipo, que el Cenia llevó adelante con el Centro de Estudios Aplicados de Antropología de la Universidad Católica de Chile. Imaginan que puedan desarrollarse muchas herramientas más. 

El modelo es distinto, por su escala y su filosofía, a todo lo que se ha hecho hasta ahora. Alexandra no duda: 

―Estamos tratando de cambiar el modo en que se desarrolla la IA.

***

LatamGPT  se lanza entre agosto y septiembre de este año. Y como el proyecto no es fácil de explicar, ni lo es el acelerado desarrollo de la IA y los cambios que está impulsando en el mundo, cada uno elige sus propias metáforas: Aisén Etcheverry elige los autos, Álvaro Soto la mayonesa. Es junio de 2025 y en Santiago de Chile la ministra de Ciencia, Tecnología, Conocimiento e Innovación, junto al director del Cenia, nos hablan a los periodistas de medios extranjeros que vinimos a tratar de entender: 

―Hay una analogía que me gusta para explicarlo ―dice la ministra―. Es como el motor de un auto que todavía no tiene el chasis construido. Entonces yo lo puedo construir para un auto super rápido para andar en carreras, o uno chiquitito que no contamina, o que es rojo, amarillo, o verde. Y esas versiones, por sobre el motor, van a quedar a la creatividad de todos los investigadores y emprendedores que lo quieran tomar, y van a aparecer cosas en que son complementarias y en que son diferentes a ChatGPT o DeepSeek.

Aisén Etcheverry está entusiasmada. Lleva el pelo corto y sonríe todo el tiempo, cuando habla y cuando escucha. La ministra de Ciencia no es científica, es abogada. Es un cuadro político clave en la arquitectura de poder del gobierno chileno y una de las funcionarias más cercanas al presidente. Habla de él, y recuerda que en el discurso ante la asamblea de la ONU en 2023 había anticipado el audaz proyecto que se estaba gestando. Dijo entonces Boric: “Con humildad, pero también con orgullo, puedo afirmar que nuestro país hoy tiene condiciones para ser un referente latinoamericano de cara al futuro de la inteligencia artificial y vamos a trabajar firmemente en esa dirección”. 

Nadie entendió entonces muy bien por qué. 

Ahora Alvaro Soto dice lo suyo. Es el director del proyecto, un cincuentón flaco y prolijo, pero cuando se entusiasma con lo que está contando se le atolondran las palabras y se agita. Hoy viste de camisa oscura, pero en casi todas sus fotos institucionales aparece en remera de manga corta y collar. Ha vivido buena parte de su vida en Estados Unidos, donde terminó su doctorado hace veinte años, trabajando en robótica cognitiva y sistemas para la supervisión humana de flotas de robots autónomos. En un punto de su carrera pensó que su futuro no estaba haciendo lo que todos hacían en el Norte, sino intentando hacer lo que nadie estaba haciendo en el Sur. Y entonces volvió a su Chile natal, donde empezó a dar clases en la Universidad Católica y fundó el Cenia en 2021. Ahora intenta cambiar el modo en que se entiende, se gestiona y se utiliza la IA.  

―Hay algo importante de entender sobre esta tecnología ―dice a los periodistas―. Yo lo grafico como hacer mayonesa. Uno echa aceite, echa los huevos, entra a batir. Solo que con la IA no eran huevos sino  datos,  algoritmos. Y se batía. Y de repente a alguien se le ocurrió ver qué pasaba si batimos más rápido. Y pusieron más cómputo y más datos. Tantos, que eran miles de millones de operaciones y de repente emergió una capacidad de razonamiento que no habíamos visto antes. Es lo que pasó con ChatGPT. Es algo que tomó por sorpresa a todo el mundo. 

El Cenia se financia con dinero del gobierno chileno y organismos internacionales. Nuclea hoy a más de un centenar de científicos de quince universidades chilenas, que trabajan en distintas iniciativas vinculadas a IA. Al menos treinta de ellos, varones y mujeres en distinto estado de su período de formación, están involucrados en LatamGPT y realizan la parte del trabajo humano, que está dividido en cuatro equipos: datos, preentrenamiento, post entrenamiento, ética. El trabajo no humano, el entrenamiento y el aprendizaje del sistema, se hace en un centro de cómputo de la Universidad de Tarapacá, instalado en la desértica Arica, al límite con Bolivia. Allí el gobierno hizo una inversión de diez millones de dólares para las instalaciones que comenzaron a construirse en 2023 y ya están parcialmente funcionales. 

Mientras esas instalaciones se completan, parte del cómputo se hace en centros más pequeños en Santiago, y otra parte en los clusters de Amazon Web Services en Estados Unidos: 

―La directora nacional de Amazon leyó la noticia del LatamGPT y ellos nos llamaron para colaborar ―explica Álvaro Soto― porque lo que quieren es vender cómputos. Su negocio hoy es la nube. Y ese es nuestro trato. Pero no los datos. Nuestros datos estarán liberados, salvo para las grandes empresas, que tendrán restricciones. Porque es como que les estamos haciendo el trabajo y ellos tienen sus datos y no los comparten. No es que estemos cerrados, pero sí queremos un acuerdo: simetría en términos del trabajo y la apertura en ellos.

El equipo de datos, que es el más grande del Cenia, lleva dos años haciendo el trabajo duro. En la primera etapa han reunido texto plano, que es con lo que suelen empezar a trabajar los modelos de IA en estas instancias antes de lanzarse a sistemas más complejos que incluyan tablas o imágenes. Han reunido más de 4.4 billones de tokens de información. El token es la unidad de medida para los datos de IA. Para dar una dimensión con una unidad materialmente imaginable, serían algo así como 47 millones de libros académicos completos. Pero son mucho más que libros. 

En el corpus hay dos grandes tipos de datos: formales, que los miembros del Cenia van a buscar tocando las puertas de las instituciones a pedirles sus materiales; e informales, que recogen directamente de internet. Entre los primeros hay datos académicos —tesis, ensayos, artículos científicos—, legales y administrativos —actas, leyes, reglamentos, contratos—, de prensa —noticias, entrevistas, editoriales—, y de otros formatos —poesía, literatura, documentos religiosos, libros en general— mientras que entre los segundos están las publicaciones que circulan en redes sociales y blogs, foros y prensa digital. 

Es información sobre una amplitud de asuntos que va desde temas científicos, de política, de deportes, de arte, de salud, de recreación. LatamGPT podrá entender con precisión un antipoema de Parra, contar por qué Chile quedó fuera de los últimos mundiales de fútbol, la tía pikachu, hablar de las nuevas derechas en la región explicar las distintas posiciones de las comunidades indígenas por el derecho al agua en el Triángulo del Litio. En el equipo de datos del Cenia, en su contacto puerta a puerta, hay algo que los emparenta con los enciclopedistas del siglo XVIII y esa voluntad desbocada por lograr contener en un soporte material el saber de la época. Se parecen en el apetito. Sólo que hoy el saber acumulado es exponencialmente superior. También es otro el vínculo con la información. Diderot, D’Alembert y sus colaboradores reunieron sus setenta mil artículos que iban de la matemática a la política o los países, siguiendo como único orden el alfabético. Compusieron un índice del conocimiento del mundo para leer en papel. Álvaro Soto, Alexandra García y los suyos, con sus 4,4 billones de tokens intentan alimentar una máquina con el saber humano y entrenarla para razonar por sí misma. Cada esfuerzo en su época tiene quizás una envergadura parecida. Ambos cambian el mundo.

Ahora, después de tres años de desarrollo, están a pocas semanas del lanzamiento. Cada lunes a las cuatro de la tarde los cuatro equipos de LatamGPT se reúnen en las oficinas de la comuna de Macul, para ordenar el trabajo. Son apenas dos salas muy comunes, una donde está el equipo administrativo y otra donde pueden reunirse o trabajar los miembros del equipo técnico. Aunque la mayoría trabaja de forma remota. Además del equipo de datos, el equipo de preentrenamiento se encarga de preparar los grupos de datos con los que trabajará el sistema, y el de post entrenamiento ajusta el comportamiento del modelo para desarrollar capacidades conversacionales alineadas con el contexto cultural latinoamericano y eliminar sesgos. El equipo de ética documenta el proceso, articula estándares de seguridad, cumplimiento de tareas y auditorías. Una vez al mes, la reunión se amplía a casi un centenar de socios de una veintena de países que están colaborando en las distintas etapas. 

―Todos los países de la región han sido contactados ―explica la ministra Echeverri― pero la velocidad a la que se suman cambia. 

Lo que no dice la ministra, porque es una política inteligente, es que no a todos los países les interesa lo mismo. 

***

En marzo de 2025, unos días antes del encuentro de expertos en Ginebra, en Argentina el jefe de asesores de Presidencia de la Nación, Damián Reidel, sostuvo que nuestro país tiene todo para convertirse en un hub de inteligencia artificial. Lo dijo ante un foro de empresarios extranjeros en Buenos Aires:

―Tenemos largas extensiones de tierra, con acceso a energía, a agua, en climas fríos, que es clave para los sistemas de refrigeración. Sin conflictos armados, sin tsunamis ni terremotos. No hay muchos lugares así en la tierra. Obviamente el problema de esta zona es que está poblada por argentinos. 

Después de conversar con Álvaro Soto y Aisén Etcheverry en Chile, hablé en Buenos Aires con Beatriz Busaniche sobre su participación en la discusión de Ginebra y recordamos aquella frase de Reidel: 

―Es una visión estúpida. Es maliciosa y estúpida ―dice la abogada sin dudar―. Porque no se están instalando. No están viniendo inversiones a Argentina. Hay que hacer una inversión de dinero en tierra muy grande y para hacerlo hay que tener asegurados flujos de energía, cuando tenemos medio país sin gas. Y mientras dicen esto rompen todo el sistema científico, que es el lugar donde se forman y trabajan las personas que pueden hacer esto. Hay gente experta de veinte o treinta años de carrera que puede hacer eso y la están expulsando con el desmantelamiento del sistema de ciencia y técnica, la Agencia, el Conicet, y las universidades. 

Una de las científicas que resiste en el escenario argentino es Luciana Benotti, especialista en lingüística computacional de la Universidad Nacional de Córdoba, con una amplia trayectoria en el país y el extranjero. Integra la Fundación Vía Libre, que trabaja por los derechos sociales, políticos y culturales en entornos digitales. Una de sus compañeras ahí es Beatriz Busaniche. Y participa en Khipu, una conferencia y escuela latinoamericana de IA, que se reúne desde 2019 cada dos años. En Khipu Luciana Benotti conoció a Álvaro Soto, que la invitó a sumarse al equipo de LatamGPT con la idea de participar en la etapa de post-entrenamiento. Entre mayo y noviembre de 2024 el equipo de Benotti dictó un curso sobre IA para docentes secundarios, que tuvo más de 800 participantes. El eje era explorar sesgos y estereotipos en modelos de lenguaje: 

―Durante el curso mismo estuvimos interactuando con un conjunto de datos de LatamGPT para evaluar sesgos culturales y sociales del modelo ―explica Benotti desde Córdoba―. Tuvimos financiamiento principal de Mozilla, que ahora desaparecieron por el contexto internacional. Fue un convenio oficial entre el Cenia, el Ministerio de Educación de la provincia de Córdoba, la Universidad Nacional de Córdoba y la Fundación Vía Libre. Los docentes pudieron aportar desde sus conocimientos al proyecto para detectar sesgos y ayudar a mejorarlo. 

Hasta allí la colaboración argentina en la etapa de post-entrenamiento. Pero el Cenia firmó también un convenio para incorporar a su corpus los datos de la biblioteca digital de la Universidad Nacional de Córdoba. También lo hizo con la Biblioteca Nacional Mariano Moreno, la Universidad de Buenos Aires y algunos equipos científicos del Conicet. Argentina es, así, el quinto país que más datos inéditos ha aportado, detrás de Brasil, México, España y Colombia. 

Otro aporte de nuestro país fue clave para el equipo del Cenia. Cuando conoció a Álvaro Soto a través de Luciana Benotti, Beatriz Busaniche le preguntó cuál era la política de LatamGPT sobre propiedad intelectual. El director del Cenia preguntó si debían tener una. Y Busaniche lo alertó: uno de los grandes problemas que tienen las big tech son las múltiples denuncias que enfrentan por parte de empresas del sector de las industrias culturales por el uso y la incorporación de sus productos a las bases de datos con la que luego lucran. En Latinoamérica, los expertos en este tema están del otro lado del Río de la Plata. Data Uruguay es una ONG que trabaja sobre tecnología y derechos humanos. En 2024 se sumó al equipo de LatamGPT. Desde Montevideo, explica en qué consiste su trabajo: 

―Te pongo un ejemplo: ¿Es legal recoger los datos de todas las sesiones taquigráficas de todos los parlamentos de decenas de años de discusiones de órganos deliberativos de América Latina? En una primera instancia uno puede decir que es información pública. Pero los discursos parlamentarios están recogidos por derechos de autor y las leyes de acceso a la información pública no resuelven claramente. Y son distintas en cada país. Todo eso tenemos que revisar. 

Busaniche explica que las big tech pueden enfrentar juicios de grandes empresas de las industrias culturales mientras siguen con el scrapping de datos, pero las organizaciones con menos espalda económica y financiera se verían seriamente afectadas. LatamGPT decidió resolver el tema publicando además un disclaimer, con un correo electrónico donde cualquier institución o persona puede solicitar que se den de baja sus datos si así lo desea. 

―El gran problema que tiene el modelo de recolección colaborativa es el costo de transacción ―agrega Patricia Díaz—. Todas las horas de recursos humanos que implica firmar convenios para conseguir datos. Y el tiempo. Deep Seek, por ejemplo, se entrenó en seis meses. Y LatamGPT está hace dos años recolectando datos. Pero la ética y las buenas prácticas tienen ese costo. Y es parte de lo que hace diferente a este proyecto. 

***

En el banquete al final de un evento corporativo en Estados Unidos, Álvaro Soto se encontró con —llamémosle— Damián, un viejo compañero del doctorado. Era 2005 y hacía algunos años se habían perdido el rastro. Álvaro le preguntó qué había sido de su vida y cuando él le empezó a contar de su nuevo trabajo, uno de los comensales le hizo una seña desde el otro lado de la mesa redonda en la que estaban sentados. Damián se puso serio, se levantó y fue hacia el hombre, que le murmuró algo breve. Cuando regresó a su silla le dijo a Álvaro:

―Mira, no puedo contarte más.

Álvaro supo luego que en la mesa eran casi todos ejecutivos de Google, donde su antiguo compañero había empezado a trabajar. Veinte años después, el director del Cenia le dice a Revista Anfibia en Santiago de Chile que en aquel banquete entendió que las big tech empezaban a ponerse celosas de sus avances y herméticas con los datos. Pero que con ChatGPT hubo una diferencia:―No es que unos científicos estaban inventando una fórmula secreta y hoy en día estamos treinta años atrás nosotros porque no tuvimos a esos científicos, algo que sí pasa en otros aspectos tecnológicos. Fue una receta que era conocida por todos. Era OpenIA, que después se transformó en Closed IA, pero cerró sus puertas un poquito tarde. No es como la Coca Cola, que uno dice chuta, cual será la frase de la Coca Cola. No, acá es público y todos podemos hacer Coca Cola. Como la mayonesa. Y nuestra iniciativa es tomar esa fórmula y tratar de escalar.