Corpus de jopará vivo
Entradas estructuradas con IPA, CEFR, registro, fuente y contexto cultural. No de diccionario — de habla real, validada con expertos.
Jopara Vibe · Infraestructura escalable a otras lenguas
Voz, texto, corpus lingüísticos y validación cultural — para que cooperativas, universidades, bancos, telcos e instituciones públicas ofrezcan servicios digitales en la lengua que la gente realmente habla.
Por qué importa
El guaraní lo hablan ~6,5 millones de paraguayos. Para los sistemas digitales, en la práctica, no existe.
Lo que la gente habla es jopará — una mezcla viva de guaraní y español, moldeada por región, contexto y uso diario. La mayoría de los sistemas de IA no están construidos para este tipo de lenguaje. Asumen consistencia, estructura y estandarización.
Cuando una lengua no se reconoce, no se sostiene. Cuando no se sostiene, queda fuera de cómo la gente interactúa con la tecnología, de lo que puede acceder y de cómo su lengua se transmite a la siguiente generación.
No existe un guaraní homogéneo. En un extremo está el guaraníete — el registro purista y académico, lleno de neologismos creados para evitar el español. En el otro extremo: el español paraguayo con fuerte sustrato guaraní. En el medio, donde vive la gente, está el jopará.
Entrenar IA con diccionarios y texto purista produce sistemas que hablan un guaraní que nadie usa. El estado del arte falla de forma medible:
Por eso nuestro trabajo se centra en capturar el habla tal como existe — validada por expertos lingüísticos, no extraída de diccionarios.
Evidencia
El Prof. Ramón Silva habla en jopará. Las herramientas líderes lo fuerzan al español y devuelven texto sin sentido.
Sistema
Un dataset lingüístico estructurado forma la base. Entornos de grabación controlados aseguran calidad acústica. La app refina el dataset con aporte del mundo real, validado por expertos.
Entradas estructuradas con IPA, CEFR, registro, fuente y contexto cultural. No de diccionario — de habla real, validada con expertos.
Entorno acústico controlado en Asunción para registrar la voz de referencia — base para STT y TTS de alta fidelidad.
PWA que captura aportes guiados de hablantes nativos y enriquece el dataset con variación regional y contextual.
El acceso al sistema no es abierto en el sentido de «cualquiera sube cualquier cosa». La recolección es guiada: prompts diseñados con criterios lingüísticos, hablantes invitados, registro etiquetado. Cada entrada pasa por revisión antes de incorporarse al dataset de entrenamiento.
La validación final la hace el equipo lingüístico — encabezado por el Prof. Ramón Silva (UNA / Ateneo de Lengua y Cultura Guaraní). Este pase asegura que el corpus refleje jopará real, no aproximaciones ni ruido.
Escalabilidad
La clase de problema que resolvemos no es exclusiva del guaraní: lenguas sin ortografía estándar, habladas en mezcla viva con una lengua de contacto, existen en todo el mundo. Para probar que la metodología se transfiere, la aplicamos en paralelo al pfälzisch — un dialecto alemán sin forma escrita estandarizada, donde el cambio de código con el alemán estándar es la norma y siglos de contacto dejaron una capa léxica francesa — igual que en el jopará. Mismo enfoque: corpus paralelo, pipeline de datos y app de recolección, validado por un hablante nativo del equipo. Otra lengua, otro continente, el mismo sistema.
El mismo patrón de fallo cross-variety se repite. En un benchmark propio sobre 157 audios públicos de una variedad lingüística renano-franca emparentada — dentro del mismo continuo dialectal — Whisper Large-v3-Turbo, el modelo ASR insignia de OpenAI, falla en cuatro patrones distintos:
La IA está segura, y se equivoca — exactamente como con el audio jopará de Ramón.
Validación externa. Los LLMs actuales muestran un rendimiento sistemáticamente inferior con hablantes de dialectos alemanes (Bui et al., EMNLP 2025). En el meenzerisch — la misma rama dialectal renano-franca que el pfälzisch — el mejor LLM disponible alcanza solo el 6,27 % de precisión al definir palabras del dialecto (Bui et al., LREC 2026). Nuestro hallazgo en audio es la mitad fonética del mismo patrón documentado.
Paraguay es el comienzo. La infraestructura está diseñada para el Mercosur, las lenguas indígenas de la región — y las numerosas lenguas subrepresentadas que la IA actual ni comprende ni puede servir.
El idioma
El guaraní es de las pocas lenguas indígenas que habla a diario una población mayoritariamente no indígena. Pero casi nadie usa guaraní «puro» ni español «puro»: se habla jopará.
Equipo y modelo
Un pequeño equipo fundador en Asunción, con validación lingüística del Prof. Ramón Silva, referente académico en lengua y cultura guaraní en Paraguay.
15 años en construcción de exposiciones internacionales (CEO, SIA MKB International). Diseña la arquitectura del sistema y la estrategia.
Traductora profesional médica y jurídica, hablante nativa de español paraguayo. Define los criterios de calidad y validación.
UNA · Ateneo de Lengua y Cultura Guaraní · Corte Suprema de Justicia. Co-autor de la Ley de Lenguas, autor principal del Diccionario General Bilingüe.
La base — el corpus de jopará vivo — es patrimonio: abierta y reutilizable. Encima se construyen modelos de dominio que sostienen el trabajo.
Licencia abierta (CC-BY 4.0). Reutilizable por investigación, Estado y comunidad. Elegible para fondos de patrimonio lingüístico (Lacuna Fund, etc.).
Modelos especializados (medicina, derecho, cooperativas, banca, telecomunicaciones, entre otros). Propietarios y comerciales. Financian la base abierta. También el sector público: la Ley de Lenguas (4251/2010) obliga al Estado paraguayo a prestar servicios en guaraní.
Modelo de negocio híbrido: configuración inicial personalizada + licencia mensual institucional para cooperativas, universidades y entidades públicas. Acceso vía API para integraciones B2B en banca, telecomunicaciones y otros sectores.
Lo abierto da legitimidad cultural y acceso; la capa comercial encima hace el proyecto sostenible sin depender de un único financiador.
Contacto
Para alianzas, pilotos institucionales y colaboración en investigación: