javier-puyol-opinion-131119.jpg

Aprendizaje automático y gestión de datos: Pilares esenciales para el funcionamiento de la Inteligencia Artificial

16/06/2024
 Actualizado a 16/06/2024
Guardar

La relación entre la protección de datos y la Inteligencia Artificial (IA) es compleja y multidimensional, abarcando numerosos ámbitos de actuación, entre los que cabe destacar, los aspectos técnicos, éticos y legales que conforma el propio sistema de funcionamiento de la IA.

A continuación, vamos a hacer un análisis de las principales interrelaciones existentes entre la inteligencia artificial (IA) y algunos de los aspectos más relevantes de la protección de datos personales, profundizando en las principales conexiones y aquellas consideraciones en que se sustenta esta relación.

La IA depende de grandes volúmenes de datos para entrenar modelos algorítmicos, que tienen como objetivo la recopilación de estos datos, lo cual plantea cuestiones importantes sobre la privacidad y el consentimiento de los individuos cuyos datos son recopilados.

En este sentido, debe partirse del principio fundamental consistente en que la protección de datos busca garantizar que la recopilación de datos personales se haga de manera transparente y con el consentimiento informado de los sujetos titulares de dichos datos.

 

Datos, esenciales para las capacidades de la IA

Esta relación entre la recopilación de datos personales y el uso de la Inteligencia Artificial es fundamental, ya que los datos son el recurso clave que alimenta las capacidades y el desarrollo de la IA, y la misma se puede desglosar detalladamente en varios aspectos fundamentales que explican cómo los datos son esenciales para la operación y evolución en el funcionamiento y el propio desarrollo de la IA, dentro de unos estándares legales y éticos.

1. En primer término, cabe señalar la importancia que tiene el uso de datos personales, en relación con el aprendizaje automático del sistema de IA.

Es procedente el análisis de los fundamentos del Aprendizaje Automático y la IA, mediante el estudio de los diversos elementos que lo componen, que son los que se citan seguidamente:

a) Los datos históricos o datos para el aprendizaje, como primer elemento Incorporado al sistema de la IA.

Los sistemas de IA, especialmente aquellos basados en aprendizaje automático, aprenden de los datos históricos.

Estos datos proporcionan los ejemplos y escenarios necesarios para que el algoritmo identifique patrones, aprenda de las experiencias pasadas y haga predicciones o tome decisiones sobre datos nuevos.

Del mismo modo, la calidad de los datos recopilados influye directamente en la precisión y la utilidad de los modelos de IA, por ello es necesario contar siempre con datos precisos, completos y granulares, los cuales mejoran la capacidad del modelo para aprender y funcionar efectivamente en escenarios del mundo real.

b) La importancia y la influencia que tiene tanto el volumen, como la variedad de los datos.

La IA moderna, en particular los modelos profundos y complejos, requieren grandes cantidades de datos para entrenar de manera efectiva, consecuentemente con ello, cuanto más extenso es el conjunto de datos, mejor es la capacidad del modelo para generalizar y no solo memorizar respuestas específicas.

Del mismo modo, para que un modelo sea robusto y aplicable en diversos contextos, necesita ser entrenado con un conjunto de datos diversificado que represente variadas instancias, condiciones y variabilidades.

c) La preparación de los datos personales, que van a ser utilizados en el sistema de IA.

Antes de ser utilizados para entrenamiento, los datos a menudo requieren de dos actividades bien definidas. Su limpieza, consistente en eliminar errores, o datos irrelevantes y/o falsos; y su preprocesamiento relativo a la normalización, la transformación y la codificación de dichos datos.

Además, es necesario combinar datos de múltiples fuentes que puedan enriquecer el conjunto de datos, proporcionando una visión más completa que puede mejorar significativamente el desempeño de un modelo de IA.

d) El respeto a la ética y también a la normativa sobre privacidad en el uso de los datos personales vinculados a la IA.

La recopilación de datos, especialmente de datos personales, debe respetar la privacidad de los individuos y cumplir con las normativas legales como pueden tanto ser el Reglamento General de Protección de Datos (RGPD), como en nuestro caso la Ley Orgánica de Protección de Datos y Garantía de Derechos Digitales (LOPDGDD).

Esto implica obtener el consentimiento de los usuarios, asegurar la transparencia en el uso de los datos y permitir a los usuarios acceder a sus datos o solicitar su eliminación, y, por ello, en este proceso, es determinante ser consciente del sesgo potencial en los conjuntos de datos y cómo esto puede afectar las decisiones de la IA, teniendo siempre presente que es necesario trabajar para identificar y mitigar estos sesgos en la fase de recopilación de datos, lo cual es fundamental para desarrollar sistemas de IA justos, éticos y veraces.

e) La actualización, la retroalimentación continua y veracidad de los sistemas de IA.

Algunos modelos de IA están diseñados para aprender continuamente a partir de nuevos datos que se recopilan mientras el sistema está en operación, permitiendo que el modelo se adapte paulatinamente a los cambios en las tendencias o en el ambiente.

Así, la interacción y la retroalimentación de los usuarios pueden utilizarse para refinar y mejorar los modelos de IA, ajustando los sistemas según las necesidades y preferencias del usuario.

Otro de los retos importantes es mantener la veracidad de los datos que se incorporan a los sistemas de procesamiento, evitando que los mismos sean incorrectos, por ejemplo, porque las fuentes de las que provengan no sean fiables o habiéndolo sido originariamente fuesen estas fuentes posteriormente manipuladas, modificando la información, mediante por ejemplo otros sistemas de IA que generen falsedades.

f) Los nuevos desafíos técnicos y logísticos en el uso de datos personales vinculados a la IA

La gestión de grandes volúmenes de datos implica de manera evidente desafíos de almacenamiento, de procesamiento, energéticos, y también vinculados con la seguridad del sistema, y al hilo de ello, las infraestructuras de datos deben ser capaces de manejar la escala, la velocidad y la complejidad de los datos utilizados para la IA, y todo ello con la resiliencia exigible.

 

Requisitos de la RGPD

Todo ello conlleva, la necesidad de que cuando se proceda a la recopilación de datos, se deba tener en consideración que no es solo una actividad preliminar para el desarrollo de la IA, sino una interacción continua que requiere atención constante en lo referente a la calidad, a la ética y a la legalidad para garantizar que los sistemas de IA sean inexorablemente efectivos, justos y responsables.

En paralelo a la recopilación de datos, los tratamientos de datos personales vinculados a la AI necesitan prever el almacenamiento de los mismos, y al mismo tiempo, el acceso a dichos datos.

En este sentido, debe tenerse presente que, una vez recopilados, los datos deben almacenarse de manera segura para prevenir que se produzcan accesos no autorizados o filtraciones con relación a los mismos.

Las normativas de protección de datos, como el RGPD, establecen requisitos estrictos para el almacenamiento de datos personales, incluyendo la implementación de medidas de seguridad adecuadas, así como la limitación del acceso a los datos solo a personal autorizado.

La relación entre el almacenamiento y el acceso a los datos y la inteligencia artificial (IA) es crítica para el éxito de cualquier sistema de IA, y en este sentido la misma abarca cómo se guardan, se recuperan y se utilizan los datos dentro de los sistemas de IA.

Profundizando en la función de almacenamiento de datos se hace necesario explicar en detalle la realización de la misma, y la importancia que dicha actividad posee para la IA.

 

Análisis de las características fundamentales de la infraestructura de almacenamiento y acceso a los datos personales

En lo que se refiere a la infraestructura de almacenamiento, debe tenerse en cuenta que los sistemas de IA requieren grandes volúmenes de datos para el entrenamiento y operación, lo cual a su vez demanda una infraestructura de almacenamiento que pueda escalar según las necesidades y que sea energéticamente sostenible.

Las soluciones pueden incluir almacenamiento en la nube, en servidores locales o una combinación de ambos, conocida como almacenamiento híbrido, para ello la velocidad a la que los datos pueden ser transmitidos y accedidos es  determinante, especialmente para aplicaciones de IA que requieren respuestas en tiempo real, como los sistemas de recomendación o los vehículos autónomos, ya que ello implica disponer de una infraestructura que minimice la latencia y maximice el throughput (caudal y producción de información).

a). En lo que se refiere a los formatos y a las estructuras de datos, debe tenerse en consideración el hecho de que los datos deben estar en formatos que los modelos de IA puedan procesar eficientemente, y entre ellos, se puede incluir la conversión de datos no estructurados, como puede ser texto o imágenes, a formatos estructurados que sean más fáciles de manipular y analizar.

A menudo, los datos deben ser preprocesados y estructurados de manera que faciliten análisis rápidos y efectivos.

Esto puede incluir la indexación de datos, la agregación de estadísticas y la creación de características, denominadas como “feature engineering”, que sean directamente consumibles por algoritmos de IA.

b) La seguridad y protección de datos merecen estudio con especial atención, ya que, es esencial garantizar que solo los usuarios y sistemas autorizados puedan acceder a los datos, lo cual se gestiona mediante políticas de control de acceso y autenticación.

En este sentido, y para proteger los datos sensibles y personales, se deben implementar técnicas de cifrado tanto en reposo como en tránsito, y, además, debe recordarse que la anonimización de los datos puede ser necesaria para cumplir con las regulaciones de privacidad sin comprometer la utilidad de los datos para la IA.

Una anonimización que debe de garantizar que futuros avances tecnológicos, como la computación cuántica no haga reversible el proceso comprometiendo derechos de los titulares haciendo reversible este proceso, lo que supondría una importante brecha de seguridad.

c) En lo referente al acceso y a la recuperación de datos, es importante recordar, que las interfaces de programación de aplicaciones (API ’s) facilitan el acceso estructurado y controlado a los datos, permitiendo que los sistemas de IA interactúen con bases de datos y otras fuentes de datos de manera eficiente.

En lo que se refiere a los algoritmos de caché y de búsqueda, los sistemas de IA pueden requerir algoritmos avanzados para la recuperación rápida de datos, incluyendo sistemas de caché inteligentes que prevean las necesidades de datos basándose en patrones de uso.

d) En lo atinente al llamado “procesamiento distribuido”, se ha de tener en consideración el hecho de que, para manejar grandes volúmenes de datos y operaciones complejas de IA, a menudo se utilizan arquitecturas distribuidas como “Hadoop” o “Spark”, ya que estas tecnologías permiten el procesamiento paralelo y distribuido de datos, lo cual es crucial para reducir el tiempo de entrenamiento y operación de modelos de IA complejos.

e) El cumplimiento regulatorio cobra también una singular importancia en lo referente al almacenamiento y acceso a los datos personales, con relación a los tratamientos seguidos por la IA.

Al hilo de ello, debe ponderarse el hecho de que las organizaciones deben adherirse a regulaciones específicas sobre dónde y cómo se pueden almacenar los datos, especialmente cuando se trata de datos personales o sensibles.

De manera habitual, y como una derivada de ello, la normativa en materia de protección de datos personales tiene implicaciones directas en las estrategias de almacenamiento y acceso a datos.

f) En lo referente a la optimización continua, es esencial monitorear la integridad y el rendimiento de los sistemas de almacenamiento de datos, así como optimizar continuamente la forma en que los datos se almacenan y acceden para mejorar la eficiencia y el rendimiento de los sistemas de IA.

Por todo ello, cabe considerar que, el almacenamiento y acceso a datos forman el núcleo básico y la estructura principal de cualquier sistema de IA.

Consecuentemente con lo afirmado, puede considerarse que una gestión efectiva de estos aspectos no solo facilita la creación y operación de modelos de IA robustos, sino que también asegura la conformidad con normativas éticas y legales, maximizando el potencial y la sostenibilidad de las soluciones de IA en diversas aplicaciones.

Lo más leído