informa
18/04

Gestión de datos «reales» y «sintéticos»: por qué el talento humano se vuelve clave para las empresas

Frente al auge de los modelos que se alimentan de sí mismos, la gobernanza y el pensamiento crítico aparecen como el principal “anclaje” para evitar que las decisiones corporativas pierdan contacto con la realidad.

A medida que la inteligencia artificial se integra con mayor fuerza en las organizaciones, surge una pregunta cada vez más relevante: si estos sistemas se entrenan con datos generados por personas, ¿cómo asegurar que la información que alimenta los modelos siga siendo veraz y útil para la toma de decisiones?

Los datos sintéticos, que es información generada artificialmente por algoritmos o sistemas de IA que imitan el mundo real, sin contener información personal o sensible, vienen ganando terreno. Se trata de una práctica que ya utilizan grandes empresas tecnológicas y que permite seguir entrenando modelos artificiales cuando los datos reales son escasos o tienen restricciones de privacidad.

A comienzos de 2025, Elon Musk advirtió que los datos del mundo real disponibles para entrenar modelos de inteligencia artificial ya se habían agotado. Frente a este escenario, los denominados sintéticos emergen como una alternativa para continuar entrenando, probando y escalando sistemas de IA sin depender exclusivamente de información real.

Empresas como OpenAI, desarrolladora de ChatGPT,  y Microsoft ya trabajan con esta tecnología, principalmente para fines de privacidad, balanceo de bases de información y simulación de escenarios. Sin embargo, el uso creciente de ella abre nuevas interrogantes para las organizaciones que dependen de información confiable para definir decisiones estratégicas.

Riesgo de perder contacto con la realidad

Uno de los principales desafíos es que los sistemas de inteligencia artificial comiencen a entrenarse sobre información generada por ellos mismos. «Los datos sintéticos sirven para privacidad, balanceo o simulación, pero si el sistema se alimenta principalmente de sintético aparece el riesgo de ‘cámara de eco’: el modelo se entrena sobre su propia versión del mundo y puede degradar (‘model collapse’) o volverse menos robusto. La clave es el grounding: mantener conexión con datos reales y con métricas de desempeño en operación», explica Bruno Villalobos, fundador y CEO de SUBE IA Tech.

La preocupación no es solo teórica, investigaciones publicadas en la revista científica Nature advierten que pueden colapsar cuando son entrenados con datos generados de forma recursiva. Según la publicación, el uso creciente de modelos de lenguaje para generar contenido en internet podría contaminar el conjunto de datos con el que se entrenarán los modelos futuros, reduciendo progresivamente la calidad de la información disponible. “Los datos sobre las interacciones humanas con los LLMs serán cada vez más valiosos”, señala la investigación.

Para las organizaciones, un sistema que pierde conexión con la realidad  puede generar resultados técnicamente coherentes, pero desconectados de la materialidad,  amplificar errores, sesgos o supuestos equivocados que luego se trasladan a decisiones comerciales, financieras o de sostenibilidad.

Estrategia antes que escasez de datos

Claro que no todos los especialistas consideran que el principal problema sea la eventual escasez de datos reales. Para la economista y directora de empresas Catalina Mertz, el desafío estratégico para las organizaciones es distinto: «Lo primero es estar atento al entorno competitivo, por la entrada de nativos digitales o por competidores que incorporarán la IA de manera más ágil. Segundo, identificar la estrategia dentro de este nuevo contexto y cuál es el rol que la IA jugará en ella», explica.

En su opinión, el verdadero reto para muchas empresas no es la falta de datos, sino entender cuáles son los que ya poseen y cómo gestionarlos adecuadamente. «La tarea es identificar los propios datos: dónde están, qué calidad tienen y cómo deben ordenarse, integrarse y transformarse en información útil y segura, incluyendo la generación de modelos propios de menor escala», afirma.

El rol irremplazable de las personas

Aunque los sistemas de inteligencia artificial son capaces de procesar grandes volúmenes de información, la naturaleza de los datos sigue siendo, en esencia, humana.

Las personas no solo generan datos, también los interpretan, seleccionan, validan y jerarquizan dentro de contextos organizacionales específicos. Por lo mismo, el criterio humano sigue siendo central para determinar qué información es relevante, confiable y útil para la toma de decisiones.

«Solamente las personas podemos decidir cuáles son las preguntas que importan, los datos relevantes y sus potenciales sesgos, y evaluar el desempeño de los modelos. Y para cumplir ese papel, el conocimiento y el pensamiento crítico serán centrales», afirma Catalina Mertz.

Desde esta perspectiva, la gobernanza de datos emerge como un elemento crítico para que el uso de datos sintéticos sea sostenible en el tiempo. No se trata únicamente de contar con más información, sino de definir reglas claras sobre cómo se producen, utilizan, validan y auditan los datos que alimentan los sistemas de inteligencia artificial.

Esto implica asumir que la gestión de datos, reales o sintéticos, no es solo un desafío tecnológico, sino también organizacional, cultural y ético.

«La calidad de la información depende directamente de los procesos internos, los controles y las personas encargadas de supervisarlos», explica Villalobos. Una buena gobernanza de datos permite reducir fricciones operativas y aumentar la confiabilidad de los modelos. Reduce incidentes, menos retrabajo, mayor confiabilidad de los modelos y más rapidez para pasar de piloto a escala. No es burocracia: es infraestructura de confianza para competir con IA sin incendiar la operación, dice el experto.

Sostenibilidad e inteligencia artificial

Uno de los ámbitos donde este debate adquiere especial relevancia es el de los reportes de sostenibilidad, que cada vez incorporan más herramientas de inteligencia artificial generativa.

IA y sostenibilidad: de la percepción a la adopción

 

«La elaboración de informes de sostenibilidad sigue siendo una tarea humana en esencia, pero ahora acompañada de IA vuelve más eficiente el proceso y aumenta su calidad», explica Estefanía Rubio Zea, fundadora de Sustechnability. Dice que estas herramientas permiten resumir, estructurar, traducir y estandarizar grandes volúmenes de información, además de identificar patrones y correlaciones en datos dispersos de forma más rápida.

También pueden contribuir a mejorar la calidad técnica de los reportes al detectar inconsistencias o validar el cumplimiento de estándares de reporte.

Desde el Pacto Mundial de Naciones Unidas destacan que el potencial de esta tecnología es significativo: «La inteligencia artificial generativa, si se aplica de forma responsable, puede acelerar el progreso del sector privado en materia de desarrollo sostenible y contribuir a cerrar la brecha existente hasta 2030», señalan desde la organización.

Rubio advierte que los datos sintéticos pueden ser útiles para probar sistemas o simular escenarios, pero no deben reemplazar la medición real de indicadores relevantes.

“Series de datos sintéticos sobre consumo de agua con estacionalidad y anomalías pueden servir para verificar si el sistema detecta picos, datos faltantes o errores de unidad, o para simular trayectorias de reducción bajo distintos supuestos. Pero no deben usarse para ‘rellenar’ datos faltantes del reporte ni como sustituto de mediciones de indicadores materiales», explica.

Alfabetización digital y nuevas capacidades

Aunque el debate sobre inteligencia artificial suele centrarse en el impacto sobre el empleo, los especialistas coinciden en que el foco debería estar en la alfabetización digital.

El estudio «Inteligencia artificial generativa para los objetivos mundiales: Guía del sector privado para acelerar el desarrollo sostenible con la tecnología»,  del Pacto Mundial, advierte que la alfabetización en datos es clave para una supervisión humana efectiva de cualquier aplicación analítica de inteligencia artificial generativa, lo que implica que las personas que interactúan con estos sistemas no solo deben saber utilizarlos, sino también comprender sus riesgos, sesgos y limitaciones.

Esto requiere formar a trabajadores, directivos y otras partes interesadas en ética, normativa y buenas prácticas en inteligencia artificial. Para las empresas, el desafío es claro: la adopción de inteligencia artificial y el uso creciente de datos sintéticos, exige invertir no solo en tecnología, sino también en capacidades humanas.

Compartir
Tag