Comparte

Acceso permitido, acceso denegado… ¿Cómo controlan las empresas el Big Data?

por arantxa / 30 enero, 2019

Empresas, gobiernos e incluso ONG están poniendo en marcha diferentes proyectos de Big Data con el fin de beneficiarse y aprovechar los conocimientos que ofrece el análisis de los datos que se generan. Porque todo lo que hacemos puede convertirse en información susceptible de ser tratada y analizada bajo esta óptica: cada búsqueda en Google o cada segundo dedicado en una red social, por ejemplo, puede dejar tras de sí importantes lecciones.

De hecho, y gracias también a la popularización de los sensores (tanto a nivel personal con smartphones y wearables, como a nivel empresarial con el Internet de las Cosas), el mundo está generando cada vez más datos y lo hace a un ritmo que puede parecer que incluso excede nuestras posibilidades para almacenar, tratar y procesar toda esta información.

Más datos, ¿más éxito?

El Big Data y todas las herramientas a su alrededor han visto la luz para aprovechar todo este caudal de información, para poder separar, de manera rápida y efectiva, el grano de la paja y poder extraer más rápidamente conclusiones de las que las diferentes instituciones (tanto públicas como privadas) se puedan beneficiar.

Sin embargo, lo cierto es que, quizá por su complejidad, no son pocos los proyectos de Big Data que no acaban teniendo el éxito esperado. Las razones son amplias, diversas y numerosas. Cada experto podrá enumerar las suyas: no plantear las preguntas correctas, no implementar bien las herramientas, no saber exactamente para qué se quiere utilizar el Big Data…

“El éxito de un proyecto de Big Data se define por las preguntas de negocio a las que se quiere responder y con unos objetivos claros a conseguir”, sentencia Enrique Serrano Montes, vicepresidente de la Comisión de Inteligencia Artificial y Big Data en Ametic.

Dicho de otro modo, para que un proyecto de Big Data salga adelante con éxito se debe realizar una ingeniería inversa que determine que es lo que se requiere desde el punto vista de organización, procesos, personas y tecnología. “Si solo es un proyecto de tecnología será un fracaso seguro”, advierte este experto.

¿Quién es responsable de la gobernanza del dato?

Así que quizá una de las primeras cosas que se deben tener en cuenta a la hora de poner en marcha un proyecto de esta envergadura es tener a personas competentes en la materia. Estos roles no son solo las personas que van a tratar los proyectos y gestión tecnológica, sino que sobre todo deben estar liderados por un responsable que tenga tanto esa visión tecnológica como la legal y de negocio.

Así, y sobre todo si hablamos de proyectos de cierta envergadura, deberemos designar la figura de un Chief Data Quality o Master Data Manager. Este responsable es quien se encarga de todo lo referente al governance del dato en cuanto securitización, accesos, perfiles, GDPR compliance, etc. y que vela por la trazabilidad del dato desde que se crea hasta que se consume y almacena.

Al tratarse de accesos que pueden realizarse por múltiples plataformas y dispositivos, es vital contar con una capa de governance que regule quién puede acceder a qué datos y qué riesgos de brecha puede haber

Este mismo experto explica que en un proyecto son muchos los accesos que se pueden dar a los datos, sobre todo si tenemos en cuenta que puede haber fuentes externas e internas, datos estructurados y semiestructurados. “En una arquitectura tecnológica de Big Data, cada vez que el dato cambia de lugar ello supone un acceso. Por ejemplo, los datos se integran en un data lake, de aquí pasan a una fase de proceso, posteriormente se analizan y finalmente se visualizan. Muchos de estos accesos pueden estar automatizados y otros son manuales, y diferentes dispositivos pueden estar conectados y transferir información. Y estas transferencias pueden ser internas desde el punto de vista de sistemas y externas porque hay proveedores, clientes o partners o simplemente porque el sistema funciona en modo cloud”.

Democratización del dato, pero sobre seguro

Al tratarse de accesos que pueden realizarse por múltiples plataformas y dispositivos,el concepto de democratización del dato hace que se amplíe el rango de acceso a los datos, por lo que es vital contar con una capa de governance que regule quién puede acceder a qué datos y qué riesgos de brecha puede haber.

Y es aquí, de nuevo, donde es fundamental el desempeño del Master Data Manager, que será el responsable de determinar qué o quiénes pueden acceder a esos registros, para qué y bajo qué supuestos o condiciones. El Chief Data Officer o el Master Data Management o el responsable del área de negocio suele ser quien se responsabiliza de los accesos.

No obstante, esta decisión no es (como no podía ser de otra forma) algo basado en percepciones personales, sino que estos responsables se ayudan de soluciones de middleware de master data management que facilitan programar los diferentes accesos, administrarlos y monitorizarlos. Este tipo de herramientas son complejas para ponerlas en práctica y conllevan un gran entendimiento de los flujos de información y procesos y lógica de negocio de cada compañía.

De esta manera, se deja claro a qué datos puede acceder cada cual teniendo en cuenta su función dentro de la organización. No hay limitación salvo los límites que impone la GDPR en el tratamiento de información de índole personal o información confidencial o clasificada sujeta a las reglas que imponga cada organización o ente gubernamental.

Existen muchas técnicas sobre cifrado, tokenizacion, data masking, etcétera, para asegurar que cada perfil accede a los datos que le corresponden. Estas técnicas se pueden automatizar pero los criteros son introducidos y programados por humanos

Aunque la aplicación y cumplimiento de GDPR merece capítulo aparte, es bueno recordar que existen muchas técnicas sobre cifrado, tokenizacion, data masking, etcétera, para asegurar que cada perfil accede a los datos que le corresponden.

El objetivo de acceder al dato

Pero, ¿para qué acceden cada uno de estos perfiles a cada dato? El acceso puede darse para limpiar y normalizar la información o para programar una ETL (extracción, transformación y carga).

El acceso también puede ser necesario para integrar y relacionar esos datos con otros (modelos relacionales) y construir datamarts, o para buscar insights (dataDiscovery). Si cualquier departamento quiere establecer, por ejemplo, determinados cálculos, establecer KPI, para visualizar esta información de forma creativa o crear dashboards, también es necesario poder acceder al dato, por no hablar de meras consultas o para aplicaciones de analítica avanzada.

Aunque, como vemos, las razones de poder acceder a esta información son múltiples y variadas, se pueden resumir en dos tipos de acceso: unos más técnicos desde el punto de vista de aguas arriba en el ciclo de vida en la arquitectura, o más de negocio cuando el dato va siendo más elaborado.

Si al principio de este artículo veíamos que para que un proyecto de Big Data fuera exitoso era necesario realizar un proceso de ingeniería inversa, es básico tener claro que cada usuario accede a la información que le corresponde para tomar las mejores decisiones, lo que no solo democratiza y expande este proceso sino que también lo multiplica.

Imágenes / iStock/anyaberkut / iStock/chombosan / iStock/NicoElNino / iStock/metamorworks

big data

arantxa

Más artículos del autor