¿Qué es la Ciencia de los Datos?

Una pregunta que me hace mucho es ¿Qué es la Ciencia de los Datos? Intentemos resolver esta pregunta con varios conceptos.

QUÉ ES:

El término se utiliza mucho últimamente, es la palabra de moda que se utilizara para describirlo todo.

La descripción de Wikipedia es:  La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,​ lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Esta definición, aunque formalmente correcta, no nos da mucha información sobre lo que es realmente la Ciencia de los Datos.

Uno de los grandes errores que se encuentra uno tratando de definir la Ciencia de los Datos es relacionarla directamente con el Big Data. Realmente no es necesario tratar mucha información para realizar Data Science, aunque se pueda. La Ciencia de los Datos puede tratar cien, un millón o billones de registros.

Small Data

Ya que tiene la palabra ciencia en su nombre, habrá que considerar la definición de Ciencia y de Método Científico. De acuerdo con esto, Data Science no se trata solo de los métodos prácticos o empíricos, sino que necesita fundamentos científicos.

Método Científico

Para definir la Ciencia de los Datos es interesante diferenciar los conceptos datos e información. Los datos son un conjunto sin procesar o sin organizar de cosas que necesitan procesarse para tener un significado.
La información es cuando los datos han sido procesados, organizados, estructurados o presentados en un contexto dado para hacerlo útil
En base a esto, tendríamos ciencia de datos y ciencia de la información. En este momento, las personas tienen un prejuicio para hablar sobre ciencia de datos, incluida la ciencia de la información.

Datos vs Información

El término se está usando en muchos campos o mercados que hasta ahora usaban otros términos, como Análisis de Datos, Business Intellgence, etc:

  • Estadística / Matemáticas
  • Análisis de negocio
  • Inteligencia de mercado
  • Consultoría estratégica
  • Muchos otros…
  • La parte más loca es que ves profesionales de estas áreas actualizando sus hojas de vida con algo así como “trabajé con Data Science …”
Viejos Científicos de Datos?

La creación de ciencia de datos de una manera simple. Dos lados que no estaban totalmente conectados, pero que, con el nuevo mundo acelerado y tecnológico, tendrán que fusionarse:

  1. Estadísticas / Matemáticas: formule modelos adecuados para generar ideas.
  2. Informática: haga el puente entre los modelos y los datos en un tiempo factible para llegar con el resultado.

Temas / herramientas que una persona necesita comprender o tener algún conocimiento cuando trabaja con Data Science:

  • Álgebra lineal
  • Sistemas no lineales
  • Geometría analítica
  • Mejoramiento
  • Cálculo
  • Estadística
  • Lenguaje de programación (R, Python, SAS)
  • Softwares: Excel, SPSS de IBM
  • Plataformas generales: Watson Anlytics de IBM, Azure Machine Learning,
  • Google Cloud machine learning,
  • Visualización de datos: Power BI, Tableau, R / Python usando plotly / ggplot
  • Aprendizaje automático (aprendizaje supervisado, no supervisado y de refuerzo)
  • Big Data
  • Big Data Frameworks (Hadoop y Spark)
  • Hardware (CPU, GPU, TPU, FPGA, ASIC)
Caja de Herramientas

Una imagen vale más que mil palabras: Diagrama de Venn de Data Science de Drew ConwayLa experiencia sustantiva (o conocimiento del dominio) es el conocimiento específico del área en la que está aplicando Data Science. Para saber más acerca de la falta de experiencia sustantiva en la ciencia de datos ver el siguiente enlace.

Diagrama Venn Data Science

QUÉ NO ES:

Machine Learning no es una rama de la ciencia de datos. El aprendizaje automático se originó a partir de la Inteligencia Artificial. La ciencia de datos solo utiliza el Machine Learning como una herramienta. La razón es que produce resultados asombrosos y autónomos para tareas específicas

Machine Learning

No es la salvación de las empresas que nunca midieron nada y ahora quieren obtener información de sus datos. “Basura adentro, basura afuera” La ciencia de datos será tan buena como los datos generados en los años siguientes.

Basura dentro = Basura fuera

Desde luego, Ciencia de los Datos no es presentar datos usando algunos gráficos de Excel sin ninguna información sobre los datos.

No Excel

 

Desde Héroes del Dato esperamos que este artículo haya arrojado luz a la complicada tarea de definir la Ciencia de los Datos.

 

Ciencia de los Datos
Ciencia de los Datos