Data Science
¿Qué es Data Science?
Data Science es un conjunto de herramientas y disciplinas que se enfocan en convertir gran cantidad de datos en información, que se utilizará para proveer mejores servicios y productos; y general predicciones usando técnicas de aprendizaje automático, llamadas machine learning.
En este artículo vamos a explorar el concept de data science y porqué está en auge en este momento, cual es la diferencia entre data science y econometría y algunas de las herramientas mas utilizadas en data science.
El Crecimiento del Interés en Data Science
El interés en Data Science explotó en los últimos años. Como puedes ver en el siguiente gráfico tomado de Google Trends, la cantidad de búsquedas del término "Data Science" se viene incrementando rápidamente desde 2013, multiplicándose por mas de ocho en cinco años.
Data Science en las Empresas
Grandes empresas como Google, Amazon y Facebook tienen acceso a una gran cantidad de datos de sus usuarios, y usan Data Science para analizar toda esa cantidad de datos. Por ejemplo, Google puede generar mejores resultados de búsqueda mediante técnicas para predecir la intención de búsqueda. También para saber el tema de una imagen.
Facebook usa data science para sugerir amigos, reconocimiento facial y sugerir tags en posts.
Amazon usa data science para detectar revisiones de productos falsas, detectar fraudes, optimizar campañas publicitarias, predecir inventarios, etc.
Las empresas proveedoras de tarjetas de crédito usan data science para prevenir fraudes, detectando anomalías en patrones de compras muchas veces en tiempo real.
Pero no solo gigantes tecnológicos como los recién mencionados utilizan data science: cada vez mas medianas y pequeñas empresas están comenzando a usar data science para comprender mejor los datos a los que tienen acceso. Una reciente encuesta (1) muestra que mas de la mitad de las empresas de Estados Unidos están invirtiendo en Data Science. Esta proporción es aún mayor en los sectores de telecomunicaciones (87%) y servicios financieros (76%).
Demanda Laboral de Data Science
La demanda de científicos de datos está aumentando a pasos agigantados. Las búsquedas de personal especializado en Data Science en LinkedIn está entre los perfiles mas demandados. Desde 2012, la demanda laboral de data science ha aumentando cerca de 650%, sin embargo, el crecimiento de la oferta ha sido mucho menor. Esta discrepancia ocasionó un fuerte aumento de los salarios de los técnicos capacitados en Data Science. (2)
Inversión en Investigación Relacionada con Data Science
Grandes centros de investigación están invirtiendo fuertemente para el desarrollo de Data Science. Además de la inversión de privados, como Google, universidades de Estados Unidos están destinando millones en centros de desarrollo, incluyendo a la Universidad de California Berkeley, la Universidad de Nueva York y la Universidad de Michigan.
¿Qué es Data Science?
Data Science es un conjunto de herramientas, técnicas y disciplinas que se enfocan en convertir grandes cantidades de datos en información útil para explicar la relación entre variables y generar modelos predictivos.
Data Science vs Estadística
Muchos piensan Data Science no es mas que un término de moda para referirse a la econometría o a la estadística aplicada. Por ejemplo, Irving Wladawsky-Berger publicó en el Wall Street Journal, un artículo titulado "¿Porqué Necesitamos Data Science si hemos tenido Estadística por Siglos?".
Por otro lado, otros piensan que la estadística es solo una parte de Data Science, y, según quienes mantienen esta postura, es una parte con poca importancia. Por ejemplo, Andrew Gelman afirma que la estadística es la parte menos importante de Data Science.
Hace mas de 50 años, John Tukey, un prestigioso matemático conocido por sus aportes a la estadística, llamó a una reforma de la forma de enseñar estadística. En su paper "The Future of Data Analysis" (3) menciona la existencia de una todavía no reconocida "ciencia", cuyo interés se centra en aprender de los datos.
Hace mas de una década, investigadores como John Chambers, Bill Cleveland y Leo Breiman, afirmaron de forma independiente que la estadística debe expandirse y poner énfasis en la preparación y presentación de los datos. Enfocarse en la predicción desde el punto de vista práctico y no tanto en la inferencia y el análisis teórico. (4)
Viendo la forma en que se enseña Estadística en las universidades, podemos afirmar que los esfuerzos por hacer de la Estadística una disciplina mas práctica, han fallado. Y quizás esta sea una de las razones por las que hayan surgido confusiones relacionadas al concepto de Data Science en los últimos años.
Data Science, a diferencia de la econometría, se enfoca en enormes cantidades de datos. Para muestras mas pequeñas, la econometría tiene una mayor productividad marginal. Mientras aumenta la cantidad de datos, la productividad marginal de Data Science va aumentando y en aplicaciones específicas, superan a los modelos de la econometría.
La aplicación de Machine Learning, necesita de enormes cantidades de información, pero a priori no requiere de un modelo predictivo establecido, sino que los programas informáticos se encargan de testera miles de combinaciones de variables y parámetros para encontrar el modelo con mayor capacidad predictiva, sin interesarse por la causalidad. En econometría, generalmente, se parte de modelos teóricos establecidos y luego se prueba su capacidad predictiva de acuerdo a los datos disponibles.
Data Science no es Big Data
Esto no significa que "Data Science" sea "Big Data", porque la estadística se ha involucrado desde hace tiempo con el análisis de grandes cantidades de datos.
Data Science no es solo aplicación práctica
En muchas tareas de un científico de datos son necesarios conocimientos técnicos específicos para procesar enormes cantidades de datos eficientemente. Muchos empleos de Data Scientist piden saber cosas muy técnicas, como usar múltiples procesadores simultáneamente, Hadoop, etc.
Sin embargo, estas habilidades son específicas para poder trabajar con las limitaciones impuestas por la tecnología en un período de tiempo determinado. Si bien son necesarias en ciertos puestos de Data Scientist, no representan la definición de Data Science, que permanece a través de los cambios tecnológicos.
Además, cada vez mas trabajos están dividiendo este tipo de tareas hacia Ingenieros de Datos y no a Científicos de Datos. Los primeros se encargan de poner en práctica todos los sistemas para procesar la información.
Entonces... ¿Qué es Data Science?
Para definir el término Data Science es necesario separar todos los términos "de moda" o comerciales acuñados reciéntemente, de lo subyacente y estable a través del tiempo, que están relacionados con buscar explicaciones o respuestas a ciertos fenómenos usando métodos científicos.
Entonces, podemos afirmar que Data Science es la ciencia que estudia como aprender de los datos.
Esta definición tiene muchas implicaciones. En cierto sentido, incluye a muchos aspectos de términos como "Big Data" y también a técnicas específicas, pero también excluye a otros.
El profesor Donoho (4) menciona seis actividades principales de Data Science:
-1 Exploración de Datos
-2 Transformación de Datos
-3 Computos
-4 Modelización
-5 Visualización
-6 Science acerca de Data Science
En la práctica, Data Science usa conocimientos de diversas disciplinas:
Referencias
(1) https://globenewswire.com/news-release/2017/12/20/1267022/0/en/Dresner-Advisory-Services-Publishes-2017-Big-Data-Analytics-Market-Study.html
(2) Fuente: LinkedIn’s 2017 U.S. Emerging Jobs Report https://economicgraph.linkedin.com/research/LinkedIns-2017-US-Emerging-Jobs-Report
(3) http://www.mat.ufrgs.br/~viali/estatistica/mat2274/material/textos/2237638.pdf
(4) David Donoho "50 Years of Data Science"
Federico "Data Science" [en linea]
Dirección URL: https://www.zonaeconomica.com/data-science (Consultado el 06 de Nov de 2024)