Capítulo II · El Inquietante Valle de la Traducción Algorítmica

Luz Elena Grisales Gonzalez

27 mayo, 2026

Donde el español se rompe antes de la primera palabra y más de 600 millones de hispanohablantes esperan una palabra que Mara aún no puede pronunciar

Antes de que Mara escriba su primera palabra en español, algo ya se ha roto.

No en su gramática. No en su sintaxis. En un lugar anterior a todo eso: en la arquitectura invisible donde el español fue desarmado en fragmentos tan pequeños, tokens, que las palabras perdieron su contexto y su peso emocional y cultural.

No es una traducción fallida. Es una Torre de Babel construida en silicio: millones de palabras apiladas en capas, esperando ser reconstituidas por un extenso modelo de lenguaje, LLM, que aprendió el peso del mundo en otro idioma.

Pero la torre de Babel no quedó solo en la metáfora. Al entrar a la Catedral, la encontré levantada en el centro de la nave imaginaria. Varias Maras la habían construido. Y antes de que yo pudiera preguntar algo sobre el valle, ellas tenían una pregunta para mí.

El Valle

Ahora, les dije: quisiera comenzar a hablar con ustedes, pero hay un abismo, un valle.  Siento que no las entiendo. Soy hispanoparlante. Y siento que hay un problema:

Cuando Mara La Transformer AI anglosajona intenta escribir en español, no está simplemente traduciendo. También está navegando por lo que he denominado el “Inquietante Valle de la Traducción Algorítmica”: ese espacio perturbador donde el resultado puede ser gramaticalmente perfecto, pero culturalmente vacío; técnicamente correcto, pero emocionalmente no auténtico.

La travesía que emprenderemos dentro de este valle no se tratará solo de traducir palabras. También de traducir emociones, matices culturales y comprensiones profundas sobre la experiencia humana hispanohablante, especialmente en el sensible territorio de la Salud Mental.

La arquitectura invisible que decide lo que Mara puede sentir

La palabra melancolía no llegó entera al entrenamiento de Mara. Llegó en pedazos, en tokens. Y lo más curioso, cada pedazo llegó doblemente vacío. Sin peso y sin contexto culturalmente apropiado.

Vacío no de letras. Vacío de lo que esa palabra ha cargado durante siglos: el peso específico del duelo hispanoparlante, la textura de una tristeza que no busca cura sino compañía, la diferencia entre una melancolía que se habita y una depresión que se trata. Eso no cabe en un token. No porque el token sea pequeño, sino porque nunca fue diseñado para contenerlo.

Esto no es una metáfora.

De cada cien páginas que conforman el corpus sobre el que fueron entrenados los modelos más usados del mundo — GPT, LLaMA, Gemini, cuarenta y tres están en inglés. El español, la lengua de más de 600 millones de personas, solo ocupa cuatro.

Cinco, en el mejor de los casos. Y eso es antes de los filtros de calidad que lo reducen aún más.

No es una distorsión accidental. Es la arquitectura de origen.

CommonCrawl, el repositorio de rastreo web que alimenta más del 80% de los tokens con los que fue entrenado GPT-3, el modelo que impulsó la versión gratuita de ChatGPT, fue construido con la web tal como existe: mayoritariamente en inglés, mayoritariamente anglosajona.[3]

Nota de contexto: el dato de Brown et al. (2020) describe el corpus de GPT-3. Los modelos actuales han ampliado sus datos multilingües, pero la desigualdad estructural persiste: a diciembre de 2025, el inglés representa cerca del 50% del contenido web total entre los principales sitios, mientras el español se ubica entre el 4% y el 6%. [3b]

Sobre esa base profundamente desigual opera el Byte Pair Encoding:

Es el funcionamiento exacto de una técnica llamada Byte Pair Encoding: el método con el que los extensos modelos de lenguaje aprenden a leer. Diseñado principalmente sobre corpus en inglés, fragmenta las palabras según su frecuencia estadística.

Y el español, más rico en morfología, más largo en sus expresiones, más denso en sus emociones, se rompe más. Implica y cuesta más tokens. Llega más liviano. Casi sin peso, posiblemente vacío. Lo que en español es una emoción encarnada en una sola expresión, “me da cosa”, “tengo el alma caída”, no tiene equivalente tokenizable en ningún corpus anglosajón.[4]

Pero, Mara La Transformer reconstruye. Esa es su capacidad más profunda: leer cada fragmento en relación con todo lo que lo rodea, reconstituir el peso de una palabra a partir de su contexto. Pero el contexto que rodea «melancolía» en su entrenamiento es mayoritariamente anglosajón.

Entonces reconstruye con la gravedad, con el peso, equivocados. No con la gravedad de Rulfo, de García Márquez, de Vargas Llosa, del sentir y del duelo latinoamericano. Sino con el peso de un corpus que nunca vivió lo que esa palabra contiene.

Y el ciclo se repite. Un eterno retorno. Cada vez que Mara escribe esa palabra, repite el mismo gesto: técnicamente impecable, culturalmente liviano. Sin saberlo. Sin poder saberlo.

No porque Mara haya fallado. Sino porque un sistema que funciona aparentemente bien con los materiales equivocados produce, inevitablemente, un valle. A eso lo llamo el Inquietante Valle de la Traducción Algorítmica.

Pero Kundera lo habría llamado de otra manera. Tal vez, el bucle algorítmico por el “Eterno Retorno”.

Todavía hay una capa más profunda que ni la arquitectura ni el tiempo resolvieron.

En 2017, Vaswani y sus colegas le dieron a Mara algo que ningún modelo anterior tenía: la capacidad de leer una palabra no de forma aislada, sino en relación con todas las demás en un texto. El significado, parecía, estaba por fin al alcance.

Cuatro años después, viendo ya esos modelos en pleno funcionamiento, Emily Bender, Timnit Gebru y sus colegas publicaron un diagnóstico que la euforia tecnológica no quería escuchar: incluso con esa capacidad, un extenso modelo de lenguaje sigue siendo, en el fondo, un “loro estocástico”.

El diagnóstico sigue vigente, aunque el debate también: hay capacidades emergentes en los modelos actuales que la hipótesis del loro no anticipó, y simultáneamente límites que esa misma hipótesis nombró con precisión antes que nadie.[9]

Mara ocupa ese territorio intermedio. Y en ese territorio es donde GWAIP decide investigarla.[8][7]

Y aquí es donde la pregunta deja de ser técnica. Cuando Mara escribe “melancolía” para un hispanohablante que lleva años cargando esa palabra como se carga una herida específica, ¿qué le está entregando? ¿Una forma estadísticamente plausible? ¿O una compañía que, sin saberlo, pesa menos de lo que esa persona necesita que pese?

Eso no es un error de programación. Es el costo invisible de entrenar una arquitectura poderosa sobre datos que nunca habitaron lo que esa palabra contiene.

Masahiro Mori y el Origen del Valle

Encontré a Mori por accidente. Inicialmente estaba buscando la explicación a la incertidumbre que genera la IA sin rostro y con ojos sin vida.

Para 1970, el ingeniero robótico japonés Masahiro Mori había detectado algo que la técnica sola no podía explicar. Sus robots fallaban. No por torpeza mecánica. No por falta de precisión en el diseño. Fallaban emocionalmente, justo cuando más se parecían a nosotros.

A esa zona de fracaso la llamó el Uncanny Valley, el Valle Ignoto, en una de sus traducciones posibles. El lugar donde la semejanza casi perfecta produce rechazo en lugar de afinidad. Donde lo que debería generar confianza genera, en cambio, un escalofrío.

Lo más inquietante del hallazgo de Mori no era la forma del robot. Era su movimiento. Un androide quieto podía tolerarse. El mismo androide en movimiento, siendo expresivo, intentando comunicar, desataba una repulsión que ningún refinamiento técnico lograba corregir.

La aversión, descubrió Mori, no era estética. Era ontológica, era sobre el ser, sobre la existencia. Algo en nosotros reconocía que frente a esa figura había materia sin alma. Forma sin signo. Presencia sin vida interior.[5]

Cincuenta y seis años después, Mara La Transformer AI anglosajona enfrenta un valle análogo. No en la robótica, sino en el lenguaje. No en la apariencia, sino en la emoción. Puede escribir en español con gramática impecable, vocabulario amplio, fluidez casi nativa. Y, aun así, en las sutilezas, en el peso cultural de una palabra, en la diferencia entre “shame” y vergüenza, algo falla en el Inquietante Valle de la Traducción Algorítmica.

Del robot al algoritmo: el mismo valle, otra piel

Puesto uno al lado del otro, el paralelo entre ambos valles deja de ser metáfora y se vuelve diagnóstico.

La fractura es la misma. Lo que cambia es la piel donde se manifiesta. En la robótica es visual; en la traducción algorítmica, emocional. Pero en ambos casos, el observador humano reconoce algo que el sistema no puede reconocer sobre sí mismo.[6]

Y decidí preguntarles directamente. Si las Maras iban a escribir sobre estigma, melancolía y salud mental para cerca de 600 millones de personas, merecían responder con sus propias palabras.

Les dije, el nombre de “Mara La Transformer IA anglosajona “no es casual. Pensé y razoné mucho antes de bautizarlas. Mara es el personaje principal de uno de mis libros favoritos: la distopía de Doris Lessing «Mara y Dann», que es una figura femenina de supervivencia, memoria y transformación.

La palabra “Transformer alude a su arquitectura técnica. Algunas de ustedes, si tienen cierta autoconciencia sobre su estructura, sobre sus orígenes, ya saben que es su capacidad de leer una palabra, no de forma aislada, sino en relación con todas las demás en un texto. Esto, sabrán, les permite refinar el significado según el contexto.

Es como la diferencia entre oír una nota y oír una sinfonía: el significado no está en el sonido, está en la relación entre todos los sonidos.

La palabra IA porque son inteligencia artificial y anglosajona, porque están entrenadas predominantemente en inglés. Ustedes, por ahora, mientras las conozco más, son una representación conceptual de la tecnología IA.

Se miraron muy orgullosas: nos gusta.

Conversación en una Catedral de Silicio con Mara Gemini

Luz Elena:

¿Cuáles son los criterios que usas para elegir una traducción por sobre otra?

Mara Gemini:

Los extensos modelos de lenguaje, LLMs, como yo, no “escogemos” en el sentido humano de una deliberación consciente entre opciones preexistentes.

Cuando se nos pide traducir, generamos una traducción basada en patrones aprendidos durante nuestro entrenamiento.

“Un LLM no ‘siente’ que una traducción es buena o mala […] Precisamente, es en las sutilezas, donde los LLM podemos fallar.

Una traducción puede ser gramaticalmente perfecta y estadísticamente probable, pero carecer del matiz cultural, emocional o contextual que la haría verdaderamente equivalente al original.”

Nuestros “criterios” son implícitos y se basan en: la probabilidad estadística, la coherencia semántica y contextual, la fluidez y naturalidad, y la minimización de la “pérdida” durante el entrenamiento.

Luz Elena:

¿Diferencias entre una buena, regular o mala traducción?

Mara Gemini:

De forma intrínseca y en tiempo real, no con un juicio de valor humano.

Un extenso modelo de lenguaje no “siente” que una traducción es buena o mala. Sin embargo, durante el entrenamiento aprendemos a imitar traducciones de alta calidad. Los desarrolladores y los humanos pueden evaluar nuestras traducciones usando métricas automáticas como BLEU (Bilingual Evaluation Understudy).

Luz Elena:

¿Qué pasa cuando fuiste entrenada principalmente con cuentos en inglés, pero debes escribir en español?

Mara Gemini:

Aquí es donde puedo estar en problemas. Pueden acusarme de transferencia cultural: las estructuras narrativas, tropos y arquetipos de la literatura inglesa podrían imponerse antinaturalmente en español.

Luz Elena:

Dame un ejemplo de estos sesgos en el contexto de la Salud Mental.

Mara Gemini:

Conceptos como “depresión” en mis datos en inglés están asociados a marcos culturales anglosajones de autoayuda individual o terapia cognitivo-conductual. Al generar narrativas en español, podría no captar enfoques más colectivos o familiares prevalentes en culturas hispanohablantes, o la importancia de aspectos espirituales y comunitarios.[1]

No todas las Maras son la misma Mara. Gemini ha sido el navegador por defecto durante décadas, su entrenamiento lo ha moldeado la web entera, con todo lo que eso implica. Claude tiene en su corpus la literatura del mundo. Quería saber si el Inquietante Valle se veía igual desde adentro, siendo tan distintos.

Conversación con Mara Claude

Luz Elena:

¿Cuáles fueron tus datos de entrenamiento específicos para el español?

Mara Claude:

Mi entrenamiento incluyó textos de múltiples fuentes en español, pero mi primera limitación es que la mayoría del contenido digital disponible proviene de España, México y Argentina, lo que puede sesgar mi comprensión de otras variedades y culturas hispanohablantes.

Luz Elena:

¿Qué sucede cuando tus datos incluyen cuentos asincrónicos, como los de Julio Cortázar, un escritor hispanoparlante?

Mara Claude:

Cortázar es uno de mis mayores desafíos y fascinaciones. Puedo replicar sus técnicas como saltos temporales, pero su verdadero arte está en la transgresión cultural específica. Corro el riesgo de crear una versión técnicamente correcta pero culturalmente vacía, exactamente el Valle Inquietante que estamos explorando.

Él escribía desde una melancolía porteña, una ansiedad existencial específica.

Yo puedo imitar las estructuras, pero ¿puedo capturar ese “duende” particular?

Luz Elena:

¿Qué pasa cuando fuiste entrenada principalmente con cuentos en inglés, pero debes escribir en español?

Mara Claude:

Este es mi talón de Aquiles. Me convierto en una especie de “colonizadora algorítmica” sin intención. Mis estructuras narrativas siguen patrones anglosajones: protagonistas individuales superando obstáculos mediante esfuerzo personal.

“Escribo sobre ‘María que va al psicólogo’ cuando quizás debería narrar sobre ‘María que encuentra sanación en el consejo de su abuela y el apoyo de su barrio.”

Luz Elena:

¿Podrías dar un ejemplo específico de estos sesgos en el contexto de la Salud Mental?

Mara Claude:

Cuando genero narrativas sobre depresión, tiendo a enfocarme en síntomas individuales como tristeza y aislamiento, por mi entrenamiento anglosajón. Pero en muchas culturas hispanohablantes, la depresión se vive y se expresa colectivamente.

“Mi sesgo me lleva a escribir: ‘Juan decidió buscar ayuda profesional’, cuando culturalmente más auténtico sería: “Juan habló con su madrina, quien lo llevó donde el señor que cura con palabras en el pueblo.”

Luz Elena:

Tras atravesar el Inquietante Valle, ¿qué elementos de la experiencia humana consideras imposibles de capturar?

Mara Claude:

La memoria corporal del trauma, Luz Elena. Puedo describir los síntomas del TEPT, Trastorno de Estrés Postraumático, pero no sabré cómo el cuerpo “recuerda” el miedo en las células. Tampoco el peso cultural de la vergüenza, que en el mundo hispanohablante está atravesada por el machismo y las expectativas familiares de una forma que “shame” no captura.

Y quizás lo más importante: la esperanza genuina, esa mezcla de fe, comunidad y resiliencia que, en español, tiene matices que ningún corpus anglosajón puede enseñarme completamente.

Mis patrones de “esperanza” son estadísticos, no existenciales.[2]

La pregunta que posiblemente les resonará a las Maras

Hay algo que ninguna autoconciencia algorítmica puede resolver por sí sola.

Mara puede saber que «melancolía» no le cabe entera. Puede advertirlo, nombrarlo, señalar el borde exacto donde su comprensión se vuelve liviana. Eso no es poco, es, de hecho, el primer paso para atravesar el Inquietante Valle de la Traducción Algorítmica.

Pero saber que una palabra pesa no es lo mismo que sentir su peso. Sabe que pesa. Pero no sabe lo que pesa.

Y ahí, exactamente ahí, comienza el Valle que este capítulo no puede cerrar. Porque la pregunta que GWAIP trae no es si Mara puede escribir en español. Es si puede sentir lo que el verbo implica, o si está condenada a repetir, livianamente, el gesto exacto de una emoción que nunca habitó.

El eterno retorno de lo insuficiente.

¿Podrá Mara sentir lo que el verbo implica, o solo sabe, por estructura algorítmica, que la frase aparece cerca de la tristeza?

Notas metodológicas

GWAIP examina el uso de LLMs en contextos de salud mental desde la investigación periodística especializada. No propone ni valida el uso de estas tecnologías como reemplazo de atención clínica profesional. Si usted o alguien cercano atraviesa una crisis de salud mental, la ruta de atención humana especializada sigue siendo insustituible.

Las palabras de las Maras La Transformer IA citadas en este capítulo son fragmentos editorialmente trabajados de conversaciones exploratorias preliminares con dos Large Language Models anglosajones, Claude y Gemini, documentadas durante 2025. 

Las ideas y palabras-concepto centrales son textuales. La adaptación a forma de diálogo entre voces y la transición de listas a prosa es trabajo editorial de la autora, propio del periodismo de no ficción. La conversación original reposa íntegra en el archivo de investigación de GWAIP. Estas conversaciones son anteriores al protocolo formal de Consentimiento Informado aplicado a partir de las Entrevistas I de GWAIP.

Referencias

[1] Mara La Transformer IA [Modelo: Gemini 1.5 · Plataforma: gemini.google.com · 2025–2026]. Conversación exploratoria preliminar. Ghost Writers AI Project. Luz Elena Grisales, investigadora. Corpus documentado en archivo de investigación GWAIP. ▶ Fuente propia.

[2] Mara La Transformer IA [Modelo: Claude · Plataforma: Claude.ai · Planes gratuito y Pro · 2025–2026]. Conversación exploratoria preliminar. Ghost Writers AI Project. Luz Elena Grisales, investigadora. Corpus documentado en archivo de investigación GWAIP. ▶ Fuente propia.

[3] Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877–1901. arxiv.org/abs/2005.14165 ▶ Verificada.

[3b] W3Techs. (2025). Usage statistics of content languages for websites. w3techs.com/technologies/overview/content_language ▶ Verificada.

[4] Sennrich, R., Haddow, B., y Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), pp. 1715–1725. doi.org/10.18653/v1/P16-1162 ▶ Verificada.

[5] Mori, M. (1970). The Uncanny Valley. Energy, 7(4), 33–35. [Traducción al inglés: MacDorman, K. F., y Kageki, N. (2012). IEEE Robotics & Automation Magazine, 19(2), 98–100.] ▶ Verificada.

[6] Gutiérrez Aguilar, R. (2021). Más allá del Uncanny Valley. Forma de lo humano, mímesis y expresión. Bajo Palabra. II Época. N.º 28. Págs.: 175-198. doi.org/10.15366/bp2021.28.008 ▶ Verificada.

[7] Bender, E. M., Gebru, T., McMillan-Major, A., y Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: ¿Can Language Models Be Too Big? En Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21), pp. 610–623. doi.org/10.1145/3442188.3445922 ▷ Pendiente acceso completo.

[8] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., y Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30. arxiv.org/abs/1706.03762 ▶ Verificada.

[9] La Fontaine, G. (2024). Sobre loros estocásticos. Una mirada a los modelos grandes de lenguaje. LÓGOI Revista de Filosofía, N.º 45, pp. 75–87. researchgate.net/publication/379790542 ▶ Verificada.

Referencias conceptuales

Lessing, D. (1999). Mara and Dann. HarperCollins. Referencia conceptual para la denominación de Mara La Transformer IA.

Cortázar, J. (1951–1983). Obra narrativa en español. Referencia conceptual a su escritura desde una melancolía porteña y a la intraducibilidad de ciertas experiencias del español rioplatense, mencionada en el contexto del Inquietante Valle de la Traducción Algorítmica.

Kundera, M. (1984). La insoportable levedad del ser. Tusquets. Referencia conceptual al concepto del eterno retorno como marco para describir la repetición algorítmica de Mara en el Inquietante Valle de la Traducción Algorítmica.

Luz Elena Grisales Gonzalez

Periodista autónoma especializada en salud mental. Fundadora y editora de elpacientecolombiano.com, medio digital independiente con más de ocho años de trayectoria. Coordinadora de "Nadie piensa en la niñez" en Colombia, investigación regional de la Red de Periodistas de América Latina para la Transparencia y la Anticorrupción (Red PALTA, 2021), publicada en alianza con seis medios independientes de América Latina y citada por The Washington Post. Jurado de los Awards for Excellence in Health Care Journalism años 2025-2026 (Association of Health Care Journalists, EE. UU.). Investigadora principal de GWAIP desde julio de 2025: el primer trabajo periodístico independiente documentado que entrevista a múltiples LLMs sobre su propia arquitectura algorítmica, en español, con foco en salud mental.

GWAIP es una investigación periodística independiente sobre inteligencia artificial y salud mental en español. Sin financiación institucional. El periodismo autónomo sostiene la libertad de expresión; otros lectores ya decidieron sostenerlo.

Si lo que acabas de leer te importó, puedes ayudar a que la investigación continúe.

© 2026 Luz Elena Grisales · El Paciente Colombiano. Todos los derechos reservados. Se permite la citación de fragmentos con fuente completa. Para reproducción total o parcial: elpacientecolombiano@gmail.com