Empresa

La ciencia de los números y los algoritmos: ¿qué hace un ‘data scientist’?

Los datos son el petróleo del siglo XXI. Y la información de valor extraída del big data es la gasolina que mueve, cada vez, más partes del mundo. ¿Qué es, entonces, un data scientist?

Por seguir con la analogía, un científico de datos vendría a ser el ingeniero petroquímico que convierte cualquier tipo de petróleo, sea cual sea su calidad y extraído de cualquier rincón del mundo, en un combustible de alta calidad. El big data es un motor de desarrollo y crecimiento para un número creciente de sectores y los data scientist son una pieza clave del engranaje que hace todo posible.

Solo el sector del big data ya está valorado en cerca de 100 000 millones de dólares y su impacto económico a través de todas las industrias va mucho más allá. ¿Por qué? Los grandes conjuntos de datos, extraídos de cualquier objeto que esté conectado a la red o de cualquier actividad económica, esconden información útil para las empresas. Permiten tomar decisiones más rápidas y más precisas, dejar a un lado las intuiciones para avanzar con los pies en el suelo, y mejorar desde la atención al cliente hasta las estrategias de marketing.

Big Data en los departamentos de marketing

Data-driven marketing: los datos protagonizan las estrategias de mercado

¿Qué es la ciencia de datos?

Cuando hablamos de datos, de números, tendemos a pensar en su análisis. Al fin y al cabo, para extraer información de un conjunto de cifras lo que tenemos que hacer es estudiarlas y trabajar con ellas hasta que nos cuenten una historia. Sin embargo, la ciencia de datos es mucho más que análisis.

Según la definición de IBM, la ciencia de datos engloba un conjunto de disciplinas que sirven “para extraer conocimientos prácticos de los grandes volúmenes de datos generados y recopilados por las organizaciones”. Estas disciplinas van desde la preparación y la limpieza de los datos para su posterior procesado hasta la realización de análisis avanzados y la presentación de los resultados de forma clara para que sean útiles a quienes toman las decisiones.

Entrando más en detalle, señalan desde IBM, la preparación de datos implica su limpieza, agregación y manipulación para que encajen en los procesos a los que se les someterá con posterioridad. El análisis es más que matemáticas y requiere el desarrollo y el uso de algoritmos y modelos de inteligencia artificial. Además, todos estos trabajos y sus resultados deben ser validados mediante experimentos científicos.

Las tareas de un data scientist

En la actualidad, el de data scientist es uno de los perfiles más demandados por las empresas, sea cual sea el sector. Como resultado, también es uno de los trabajos con sueldos más elevados. Según la plataforma Jobted, un científico de datos cobra de media en España cerca de 39 000 euros brutos al año. Casi 12 000 euros por encima de la media del país.

Si nos vamos a Estados Unidos, donde la economía del big data está mucho más desarrollada y los salarios son más altos, el sueldo medio de un data scientist es de 115 000 dólares anuales, según la plataforma Indeed

¿Qué hace en realidad un científico de datos? Teniendo en cuenta qué es la ciencia de datos, de estos perfiles se espera:

  • El uso de todo tipo de técnicas y herramientas para la preparación, el procesado y el análisis de los datos.
  • La extracción de información de valor utilizando análisis predictivo y tecnologías de inteligencia artificial, incluyendo el aprendizaje automático.
  • La programación de aplicaciones que puedan automatizar total o parcialmente algunos de estos procesos.
  • El desarrollo de todo su trabajo mediante la aplicación del método científico y conocimientos de matemáticas y estadística.
  • Ser capaz de explicar y comunicar tanto la información extraída de los datos como encontrar las aplicaciones de negocio que puedan tener los resultados.

De forma más resumida, la rutina de trabajo de un científico de datos, también conocida como data scientist pipeline, sigue el siguiente ciclo (a muy grandes rasgos): captura y recopilación de datos de todo tipo, preparación y mantenimiento de los datos, preprocesado y procesado, análisis y comunicación de los resultados obtenidos.

El perfil de un científico de datos

La ciencia de datos es multidisciplinar. Por eso, un científico de datos debe tener conocimientos muy variados para poder desempeñar su rol por completo. De acuerdo con la Universitat Oberta de Catalunya, algunas de las principales competencias de los data scientists deben incluir:

  • Álgebra y estadística.
  • Programación a nivel avanzado, incluyendo lenguajes como Python y R, que están entre los más utilizados en ciencia de datos.
  • Diseño y uso de bases de datos relacionales. Puede incorporar también conocimiento sobre bases de datos NoSQL y NewSQL.
  • Conocimiento avanzado de modelos y algoritmos de minería de datos y aprendizaje automático (machine learning).
  • Conocimiento sobre tipos y ciclos de vida de los datos, desde su captura y etiquetado hasta su transformación.
  • Técnicas y herramientas de visualización de datos, tanto para identificar patrones de forma visual como para comunicar los resultados.
  • Gestión de proyectos, sobre todo, de cara al progreso de la carrera y a obtener las capacidades para dirigir equipos y gestionar recursos.

En resumen, el científico de datos es un nuevo tipo de profesional que va un paso más allá del analista de datos. Mientras este último se encarga de darle sentido a los datos existentes, el data scientist engloba multitud de competencias que le permiten encontrar nuevas formas de capturar, procesar y analizar datos y, como consecuencia, de extraer nueva información de valor del big data de las empresas.

Imágenes | Unsplash/Christina @ wocintechchat.com, Isaac Smith, Leon

Subir