Héroes el Día de Internet

Sociedad Data Driven

El pasado 17 de mayo se celebró en muchos países (especialmente de habla hispana) el día internacional de Internet.

Día de Internet 2018
Día de Internet 2018

Udemy España me eligió para hablar de estos temas en una nota de prensa que dirigió a los principales medios de comunicación.

Ante tal honor, escribí un artículo respondiendo a una serie de preguntas relacionadas con los datos, la privacidad y la protección, en relación con la GDPR (La ley europea de protección de datos) en vigor desde hace pocos días.

Sociedad Data Driven
Sociedad Data Driven

Este artículo ha sido nombrado en varias publicaciones:

También he encontrado nuevas menciones de la entrevista que me realizaron por el día del trabajo:

Trabajo en Ciencia de los Datos
Trabajo en Ciencia de los Datos

Próximamente publicaré todo el artículo para que lo podamos comentar.

Hasta el 40 de Mayo, soy un Héroe todo el Año.

Seguimos con los refranes que usamos en España.

Hasta el 40 de Mayo no te quites el sayo, es un refrán que significa que en Mayo sigue haciendo frío, y hasta mediados de Junio no empieza el buen tiempo veraniego.

En mi particular versión, os progpongo un descuento en mis cursos por lo mínimo, 9,99$ (o equivalente en vuestro país), que es lo mínimo que me permite Udemy.

Están siendo estos días muy interesantes, porque estoy apareciendo en muchos medios de comunicación como experto Data Scientist. Hace unos días en los medios mexicanos. Ahora en los medios españoles. Y estoy emocionado porque uno de los objetivos de mi proyecto de Héroes del Dato (www.heroesdeldato.com) es, precisamente, la divulgación de lo que es la Ciencia de los Datos.

Y el nuevo curso de Shiny está ya en sus últimos detalles. Pronto lo publicaré. Y podéis seguir participando en el concurso, también con el nuevo código de Mayo. 40MAYO_HEROE.

Mis cursos en activo son:

  • Introducción a Data Scientist programando en R: La profesión delfuturo, ya está de moda en el presente. Con este curso aprenderás los fundamentos de R y conocerás todos los aspectos de esta profesión: adquisición, exploración, tratamiento y visualización de resultados. Y para terminar el curso, una aplicación de análisis de sentimientos de los tweets de películas que podrás ver en formato web.

El enlace del cupón:

https://www.udemy.com/introduccion-a-data-scientist-programando-en-r/?couponCode=40MAYO_HEROE

  • Introducción a Computer Vision con Machine y Deep Learning con R:Un completo curso para ver como funciona la visión por computador. Utilizando el famoso set de datos MNIST, que contiene imágenes de números del 0 al 9 escritos a mano, realizaremos diversos sistemas de clasificación, para comprobar su funcionamiento, y ver cómo se comportan. Utilizaremos un montón de algoritmos de Machine Learning, como Support Vector Machine, K Nearest Neighbours, Naïve Bayes, etc. Varias formas de reducir la dimensionalidad, y probaremos dos plataformas para aprendizaje electrónico, H2O y el famoso TensorFlow de Google. Todo con explicaciones de cada método y algoritmo, y explicación práctica en R.

El enlace del cupón:

https://www.udemy.com/iniciacion-a-computer-vision-con-machine-deep-learning-en-r/?couponCode=40MAYO_HEROE

¡Regálatelo a ti mismo!  Siéntete libre para compartirlo con tus amistades, familiares o con quien creas que le pueda interesar o convenir. Muchas gracias por apoyar mis cursos. ¡¡¡Juntos hacemos una gran comunidad!

¡Nos vemos en las clases!

Héroes del Dato en los medios

Hola ¡¡¡Héroes del Dato!!!

La jornada del Día del Trabajo ha sido bastante intensa. La he celebrado, como no puede ser de otra forma, trabajando.

He estado inmerso en varias acciones centradas en América Latina.

La primera es un proyecto para una importante empresa internacional de Detección de Fraude en Panamá, y el resultado ha sido espectacular.

Por otro lado, he estado colaborando con el Departamento de Comunicación de Udemy en la preparación de varios reportajes centrados en la figura del Científico de Datos en México.

Por ahora se han publicado en Computer World Mexico y en PyME Empresario, dos destacados medios de comunicación del país. Aquí tenéis los enlaces.

Por otro lado, se ha publicado en prensa escrita en el periódico Reforma, uno de los más importantes de México:

El enlace para ver el artículo on-line es éste:

https://hemerotecalibre.reforma.com/20180501/interactiva/REMP20180501-002.JPG

Pero hay que estar registrado.

También me entrevistaron para la revista Forbes, uno de los medios más importantes de la actividad Económica.

Realmente, la Ciencia de los Datos, es una de las profesiones más sexys de la actualidad. Y vosotros, Héroes del Dato, estáis en la cresta de la ola!!!!

Tipos de Machine Learning. Clasificación vs Regresión

El machine learning genera muchos rumores porque es aplicable en una gran variedad de casos de uso. Esto se debe a que el aprendizaje automático es en realidad un conjunto de muchos métodos diferentes que son especialmente adecuados para responder diversas preguntas sobre un negocio. Para comprender mejor los algoritmos de aprendizaje automático, es útil separarlos en grupos en función de cómo funcionan.

Machine Learning
Machine Learning

Uno de los puntos de vista para separar estos algoritmos es el de los datos, si disponemos de datos etiquetados (ejemplos resueltos) o no.  Entonces será aprendizaje supervisado o no supervisado. Incluso se puede hacer aprendizaje automático semi-supervisado. Pero también existen diferencias inherentes en estos algoritmos basados en el formato de sus salidas. Viéndolos de esta manera, los métodos principales de aprendizaje automático son dos: clasificación y regresión.

Clasificación

Los algoritmos de clasificación se usan cuando el resultado deseado es una etiqueta discreta. En otras palabras, son útiles cuando la respuesta a su pregunta sobre su empresa cae dentro de un conjunto finito de resultados posibles. Muchos casos de uso, como determinar si un correo electrónico es correo no deseado o no, solo tienen dos resultados posibles. Esto se llama clasificación binaria.

Clasificación
Clasificación

La clasificación multicategoría captura todo lo demás, y es útil para la segmentación del cliente, la categorización de imágenes y audio y el análisis de texto para optimizar el sentimiento del cliente. Si estas son las preguntas que espera contestar con el aprendizaje automático en su negocio, considere algoritmos como Bayes ingenuo, árboles de decisión, regresión logística, aproximación kernel y vecinos K más cercanos.

Regresión

Por otro lado, la regresión es útil para predecir productos que son continuos. Eso significa que la respuesta a su pregunta se representa mediante una cantidad que puede determinarse de manera flexible en función de las entradas del modelo en lugar de limitarse a un conjunto de posibles etiquetas. Los problemas de regresión con entradas ordenadas por tiempo se denominan problemas de pronóstico de series temporales, como el pronóstico ARIMA, que permite a los científicos de datos explicar los patrones estacionales en las ventas, evaluar el impacto de las nuevas campañas de marketing y más.

Regresión
Regresión

La regresión lineal es, con mucho, el ejemplo más popular de un algoritmo de regresión. Aunque a menudo se subestima debido a su relativa simplicidad, es un método versátil que se puede usar para predecir los precios de la vivienda, la probabilidad de que los clientes se desvíen o los ingresos que un cliente generará. Para casos de uso como estos, los árboles de regresión y la regresión vectorial de soporte son buenos algoritmos a considerar si está buscando algo más sofisticado que la regresión lineal.

Elegir un algoritmo es un paso crítico en el proceso de aprendizaje automático, por lo que es importante que realmente se adapte al caso de uso del problema en cuestión.

10 revoluciones del Aprendizaje Automático en el Marketing

Machine Learning Marketing o Aprendizaje Automático para Marketing en español, está revolucionando el Marketing tradicional, incluso el más moderno, hacia un modelo data-driven (orientado al dato), con el consiguiente conocimiento del usuario y su relación con los productos.

  • El 84% de las organizaciones de marketing están implementando o expandiendo la IA (Intelidencia Artificial) y el aprendizaje automático en 2018.
  • El 75% de las empresas que usan IA y el aprendizaje automático mejoran la satisfacción del cliente en más del 10%.
  • Según Capgemini, 3 de cada 4 organizaciones que implementan IA y aprendizaje automático aumentan las ventas de nuevos productos y servicios en más del 10%.

La medición de muchas contribuciones del marketing al crecimiento de los ingresos se está volviendo más precisa y en tiempo real gracias a los análisis y el aprendizaje automático.

Saber qué impulsa más leads de marketing calificado (MQL), leads calificados de ventas (SQL), la mejor manera de optimizar campañas de marketing y mejorar la precisión y rentabilidad de los precios son solo algunas de las muchas áreas en las que el aprendizaje automático está revolucionando el marketing.

Los mejores especialistas en marketing están utilizando el aprendizaje automático para comprender, anticiparse y actuar sobre los problemas que sus ingenieros preventas intentan resolver más rápido y con más claridad que cualquier otro competidor.

La aplicación de aprendizaje automático basado en aplicaciones aptas para aprender lo que es más efectivo para cada cliente y cliente potencial impulsa la capacidad de personalizar el contenido mientras califica a los clientes potenciales para que las ventas cierren rápidamente.

El aprendizaje automático está llevando el contenido contextual, la automatización del marketing, incluidas las campañas de marketing entre canales y la puntuación de clientes potenciales, la personalización y las previsiones de ventas, a un nuevo nivel de precisión y velocidad.

Los departamentos de marketing más sólidos dependen de un sólido conjunto de análisis e indicadores clave de rendimiento (KPI) para medir su progreso hacia los objetivos de crecimiento de los ingresos y los clientes.

Con el aprendizaje automático, los departamentos de marketing podrán realizar contribuciones aún más significativas al crecimiento de los ingresos, fortaleciendo las relaciones con los clientes en el proceso.

Las siguientes son 10 formas en que el aprendizaje automático está revolucionando el marketing hoy y en el futuro:

  1. El 57% de los ejecutivos de las empresas cree que el beneficio de crecimiento más significativo de AI y el aprendizaje automático mejorará las experiencias y el apoyo de los clientes. El 44% cree que la IA y el aprendizaje automático proporcionarán la capacidad de mejorar los productos y servicios existentes. Los departamentos de marketing y los Chief Marketing Officers (CMO) que los dirigen son los líderes que diseñan y lanzan nuevas estrategias para ofrecer excelentes experiencias de cliente y son uno de los primeros en adoptar el aprendizaje automático. Los marketers están mejorando la orquestación de todos los aspectos de atraer, vender y servir a los clientes mediante el uso de aplicaciones de aprendizaje automático para predecir con mayor precisión los resultados.

    Directivo
    Directivo
  2. El 58% de las empresas están abordando los problemas de marketing más desafiantes con AI y el aprendizaje automático primero, priorizando la atención personalizada al cliente, el desarrollo de nuevos productos. Estas áreas de “obligatorio cumplimiento” tienen mayor complejidad, pero también el mayor beneficio. Los especialistas en marketing no han puesto tanto énfasis en las áreas “imprescindibles” de alto beneficio y baja complejidad según el análisis de Capgemini. Estas áreas de aplicación incluyen Chatbots y asistentes virtuales, lo que reduce las pérdidas de ingresos, el reconocimiento facial y las recomendaciones de productos y servicios.

    Chatbots
    Chatbots
  3. Para 2020, se acelerará la publicidad personalizada en tiempo real en las plataformas digitales y la precisión, el contexto y la precisión optimizados de la orientación de mensajes. El efecto combinado de estas mejoras de la tecnología de comercialización aumentará la efectividad de las ventas en los canales minoristas y basados ​​en B2C. La generación de Leads Cualificados para Ventas (SQL) también aumentará, reduciendo potencialmente los ciclos de ventas y aumentando las tasas de ganancias.

    Publicidad Digital
    Publicidad Digital
  4. Analice y reduzca significativamente la rotación de clientes utilizando el aprendizaje automático para agilizar la predicción de riesgos y los modelos de intervención. En lugar de depender de enfoques costosos y que requieren mucho tiempo para minimizar la pérdida de clientes, las compañías de telecomunicaciones y aquellas en industrias de alta rotación están recurriendo al aprendizaje automático. El siguiente gráfico ilustra cómo la definición de los modelos de riesgo ayuda a determinar cómo las acciones destinadas a evitar el abandono afectan la probabilidad y el riesgo del impacto de la deserción. Un modelo de intervención permite a los especialistas en marketing considerar cómo el nivel de intervención podría afectar la probabilidad de abandono y la cantidad de valor de vida del cliente (CLV).

    Aplicaciones de Machine Learning
    Aplicaciones de Machine Learning
  5. La optimización de los precios y la elasticidad de los precios están creciendo más allá de las industrias con existencias limitadas, incluidas las aerolíneas y los hoteles, que proliferan en la fabricación y los servicios. Todos los especialistas en marketing confían cada vez más en el aprendizaje automático para definir precios más competitivos y contextualmente relevantes. Las aplicaciones de aprendizaje automático están escalando la optimización de precios más allá de las aerolíneas, hoteles y eventos para abarcar escenarios de precios de productos y servicios. El aprendizaje automático se utiliza actualmente para determinar la elasticidad de los precios de cada producto, teniendo en cuenta el segmento del canal, el segmento del cliente, el período de ventas y la posición del producto en una estrategia global de precios de línea de productos. El siguiente ejemplo es de la solución preconfigurada de análisis interactivo de precios (PCS) de Microsoft Azure. Fuente: Azure Cortana Interactive Pricing Analytics Solución preconfigurada.

    Modelo Azure
    Modelo Azure Análisis de Precios
  6. Mejorar el pronóstico de la demanda, la eficiencia del surtido y los precios en el marketing minorista tiene el potencial de ofrecer una mejora del 2% en ganancias antes de intereses e impuestos (EBIT), 20% de reducción de existencias y 2 millones menos de devoluciones de productos al año. En Consumer Packaged Goods (CPQ) y organizaciones de comercialización minorista, existe un gran potencial para AI y el aprendizaje automático para mejorar el rendimiento de toda la cadena de valor. McKinsey descubrió que utilizar un enfoque concertado para aplicar la IA y el aprendizaje automático a través de las cadenas de valor de un minorista tiene el potencial de ofrecer una mejora del 50% en la eficiencia del surtido y un aumento del 30% en las ventas en línea utilizando precios dinámicos.

    Pronóstico de Ventas
    Pronóstico de Ventas
  7. Creación y ajuste de modelos de propensión que guían las estrategias de ventas cruzadas y ventas por línea de productos, segmento de clientes y personalidad. Es común encontrar vendedores orientados a datos que construyen y usan modelos de propensión para definir los productos y servicios con la mayor probabilidad de ser comprados. Con demasiada frecuencia, los modelos de propensión se basan en datos importados, integrados en Microsoft Excel, por lo que su uso continuo consume mucho tiempo. El aprendizaje automático está simplificando la creación, la puesta a punto y las contribuciones de los ingresos de las estrategias de venta ascendente y de venta cruzada mediante la automatización de todo el progreso. La siguiente pantalla es un ejemplo de un modelo de propensión.

    www.tiboo.com
    www.tiboo.com
  8. La precisión en la puntuación de los leads está mejorando, lo que permite aumentar las ventas que se pueden rastrear hasta las campañas de marketing iniciales y las estrategias de ventas. Al utilizar el aprendizaje automático para calificar las listas de clientes y leads adicionales utilizando datos relevantes de la web, los modelos predictivos, incluido el aprendizaje automático, pueden predecir mejor los perfiles ideales de los clientes. El puntuaje predictivo de cada líder de ventas se convierte en un mejor predictor de nuevas ventas potenciales, lo que ayuda a las ventas a priorizar el tiempo, los esfuerzos de ventas y las estrategias de venta. Las siguientes dos diapositivas son de un excelente seminario web Mintigo presentado con Sirius Decisions y Sales Hacker. Es una mirada fascinante de cómo el aprendizaje automático está mejorando la efectividad de las ventas. Fuente: Give Your SDRs An Unfair Advantage with Predictive(Diapositivas de un webinar en Slideshare).

    Pantalla de slideshare
    Pantalla de slideshare
  9. Identificar y definir las proyecciones de ventas de segmentos específicos de clientes y microsegmentos usando modelos RFM (frescura, frecuencia y monetario) dentro de aplicaciones de aprendizaje automático se está generalizando. El uso de análisis de RFM como parte de una iniciativa de aprendizaje automático puede proporcionar definiciones precisas de los mejores clientes, los más fieles, los que más gastan, los casi perdidos, los clientes perdidos y los clientes baratos perdidos.

    Identificar
    Identificar
  10. Optimizar el marketing mix determinando qué ofertas de ventas, incentivos y programas se presentan a qué prospectos a través de qué canales es otra forma de aprendizaje automático está revolucionando el marketing. Las ofertas de venta específicas se crean con el respaldo de contenido contextual, ofertas e incentivos. Estos elementos están disponibles para un motor de optimización que utiliza la lógica de aprendizaje automático para intentar continuamente predecir la mejor combinación de elementos de mezcla de marketing que conduzca a una nueva venta, venta ascendente o venta cruzada. La función de recomendación de productos de Amazon es un ejemplo de cómo su sitio de comercio electrónico usa el aprendizaje automático para aumentar los ingresos por ventas ascendentes, ventas cruzadas y productos recomendados.
    Recomendación Amazon
    Recomendación Amazon

    Una forma de aprender Machine Learning es a través de mi curso de Computer Visicion con Machine Learning y Deep Learning en R, que puedes adquirir con descuento a través de la sección de Cursos de esta web.

El artículo original.

¡Oferta especial web! Conviértete en un Héroe del Dato por muy poquito.

Los cursos están a tope y para que podáis disfrutar de ellos sin dejaros demasiado dinero, os los pongo en una oferta con un 90% de descuento sólo a los que visitéis la web.
(Los precios pueden cambiar, según la moneda de tu país, esto es cosa de Udemy…)

Introducción a Data Scientist Programando en R

 

Aprende la Ciencia de los Datos utilizando R con ejemplos del análisis de Redes Sociales. Al finalizar el curso serás capaz de usar el lenguaje R como Data Scientist, desde la instalación del programa hasta la realización de los fundamentos de la Ciencia de los Datos, esto es, captación y limpieza de datos, análisis exploratorio, modelización y predicción y la visualización de los datos recogidos.
enlace Udemy 99,9€

9,99€

Introducción a Computer Vision con Machine y Deep Learning en R

 

Introdúcete de lleno en la Visión por Computador haciéndote un auténtico Ingeniero de Machine Learning. Usando el famoso set de datos MNIST, descubre un montón de algoritmos de ML como Support Vector Machine,
Naïve Bayes, K-Nearest Neighbours, etc. También aprenderás varios métodos de manipulación de los datos de entrada,
reduciendo su dimensionalidad o caracterizando los datos de otra manera. Y, utilizarás plataformas de aprendizaje automático, como H2O o el famoso TensorFlow de Google.
enlace Udemy 99,9€

9,99€

Rebajas Navideñas!!!

Nuestro curso: Introducción a Data Scientist programando en R ha superado los 250 alumnos.

Para celebrarlo, y dadas las fechas a las que estamos, lanzamos una promoción durante todas las Navidades.

¡Consigue el curso por 10€, con un 90% de descuento!

https://www.udemy.com/introduccion-a-data-scientist-programando-en-r/?couponCode=XMAS-SALE

¡¡¡Feliz Navidad, Héroes!!!

Diferencias ente AI, NLP, Machine Learning y Deep Learning

Machine Learning

En ocasiones, las diferencias entre Inteligencia Artificial, Machine Learning y Deep Learning son difíciles de establecer.

En la Ciencia de los Datos, es bastante típico trabajar al rededor de estos conceptos.

Tratemos de ver, rápidamente, cuales son estas diferencias.

AI (inteligencia artificial) es un subcampo de la ciencia de la computación que se creó en la década de 1960.  Su  preocupación es resolver tareas que son fáciles para los humanos pero difíciles para las computadoras.

AI
Inteligencia Artificial

En particular, una Strong IA (Inteligencia Artificial Fuerte) ​​sería un sistema que puede hacer cualquier cosa que un humano pueda (sin contar algunos aspectos físicos).

Esto es bastante genérico e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajos creativos (hacer arte o poesía), etc.

NLP (procesamiento del lenguaje natural) es simplemente la parte de AI que tiene que ver con el lenguaje (generalmente escrito).

NLP
Procesado del Lenguaje Natural

El aprendizaje automático (machine learning en inglés) se refiere a un aspecto concreto de todo esto: dado un problema de IA que puede describirse en términos discretos (por ejemplo, de un conjunto particular de acciones, cuál es el correcto), y dada mucha información sobre el mundo, figura cuál es la acción “correcta”, sin que el programador la programe.

Machine Learning
Aprendizaje Automático

Típicamente se necesita algún proceso externo para juzgar si la acción fue correcta o no.

En términos matemáticos, se trata de una función: introduces cierta información y quieres que produzca la salida correcta, por lo que todo el problema es simplemente construir un modelo de esta función matemática de forma automática.

Para establecer una distinción con AI: puedo escribir un programa muy inteligente que tenga un comportamiento similar al humano, puede ser AI, pero a menos que sus parámetros se aprendan automáticamente de los datos, no es machine learning.

El aprendizaje profundo (deep learning en inglés) es un tipo de aprendizaje automático (machine learning) que es muy popular últimamente. Implica un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de un cierto tipo, y donde algunos de estos bloques se pueden ajustar para predecir mejor el resultado final.

Deep Learning
Aprendizaje Profundo

La palabra profundo significa que la composición tiene muchos de estos bloques apilados uno sobre el otro, y la parte difícil es cómo ajustar los bloques que están lejos de la salida, ya que un pequeño cambio allí puede tener efectos muy indirectos en el salida.

Esto se hace a través de algo llamado Backpropagation dentro de un proceso más grande llamado descenso de gradiente que le permite cambiar los parámetros de una manera que mejora su modelo.

Este artículo está basado en una respuesta en la red Quora sobre estos temas y realizada por Dmitriy GenzelPhD. en Computer Science.

¿Qué es la Ciencia de los Datos?

Una pregunta que me hace mucho es ¿Qué es la Ciencia de los Datos? Intentemos resolver esta pregunta con varios conceptos.

QUÉ ES:

El término se utiliza mucho últimamente, es la palabra de moda que se utilizara para describirlo todo.

La descripción de Wikipedia es:  La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,​ lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Esta definición, aunque formalmente correcta, no nos da mucha información sobre lo que es realmente la Ciencia de los Datos.

Uno de los grandes errores que se encuentra uno tratando de definir la Ciencia de los Datos es relacionarla directamente con el Big Data. Realmente no es necesario tratar mucha información para realizar Data Science, aunque se pueda. La Ciencia de los Datos puede tratar cien, un millón o billones de registros.

Small Data

Ya que tiene la palabra ciencia en su nombre, habrá que considerar la definición de Ciencia y de Método Científico. De acuerdo con esto, Data Science no se trata solo de los métodos prácticos o empíricos, sino que necesita fundamentos científicos.

Método Científico

Para definir la Ciencia de los Datos es interesante diferenciar los conceptos datos e información. Los datos son un conjunto sin procesar o sin organizar de cosas que necesitan procesarse para tener un significado.
La información es cuando los datos han sido procesados, organizados, estructurados o presentados en un contexto dado para hacerlo útil
En base a esto, tendríamos ciencia de datos y ciencia de la información. En este momento, las personas tienen un prejuicio para hablar sobre ciencia de datos, incluida la ciencia de la información.

Datos vs Información

El término se está usando en muchos campos o mercados que hasta ahora usaban otros términos, como Análisis de Datos, Business Intellgence, etc:

  • Estadística / Matemáticas
  • Análisis de negocio
  • Inteligencia de mercado
  • Consultoría estratégica
  • Muchos otros…
  • La parte más loca es que ves profesionales de estas áreas actualizando sus hojas de vida con algo así como “trabajé con Data Science …”
Viejos Científicos de Datos?

La creación de ciencia de datos de una manera simple. Dos lados que no estaban totalmente conectados, pero que, con el nuevo mundo acelerado y tecnológico, tendrán que fusionarse:

  1. Estadísticas / Matemáticas: formule modelos adecuados para generar ideas.
  2. Informática: haga el puente entre los modelos y los datos en un tiempo factible para llegar con el resultado.

Temas / herramientas que una persona necesita comprender o tener algún conocimiento cuando trabaja con Data Science:

  • Álgebra lineal
  • Sistemas no lineales
  • Geometría analítica
  • Mejoramiento
  • Cálculo
  • Estadística
  • Lenguaje de programación (R, Python, SAS)
  • Softwares: Excel, SPSS de IBM
  • Plataformas generales: Watson Anlytics de IBM, Azure Machine Learning,
  • Google Cloud machine learning,
  • Visualización de datos: Power BI, Tableau, R / Python usando plotly / ggplot
  • Aprendizaje automático (aprendizaje supervisado, no supervisado y de refuerzo)
  • Big Data
  • Big Data Frameworks (Hadoop y Spark)
  • Hardware (CPU, GPU, TPU, FPGA, ASIC)
Caja de Herramientas

Una imagen vale más que mil palabras: Diagrama de Venn de Data Science de Drew ConwayLa experiencia sustantiva (o conocimiento del dominio) es el conocimiento específico del área en la que está aplicando Data Science. Para saber más acerca de la falta de experiencia sustantiva en la ciencia de datos ver el siguiente enlace.

Diagrama Venn Data Science

QUÉ NO ES:

Machine Learning no es una rama de la ciencia de datos. El aprendizaje automático se originó a partir de la Inteligencia Artificial. La ciencia de datos solo utiliza el Machine Learning como una herramienta. La razón es que produce resultados asombrosos y autónomos para tareas específicas

Machine Learning

No es la salvación de las empresas que nunca midieron nada y ahora quieren obtener información de sus datos. “Basura adentro, basura afuera” La ciencia de datos será tan buena como los datos generados en los años siguientes.

Basura dentro = Basura fuera

Desde luego, Ciencia de los Datos no es presentar datos usando algunos gráficos de Excel sin ninguna información sobre los datos.

No Excel

 

Desde Héroes del Dato esperamos que este artículo haya arrojado luz a la complicada tarea de definir la Ciencia de los Datos.

 

Ciencia de los Datos
Ciencia de los Datos

Diferencias entre Data Science y Business Intelligence

Hasta hace muy poco la Business Intelligence era considerada como un elemento de lujo que sólo las grandes empresas se podían permitir.

Pero los datos se están convirtiendo en algo habitual y accesible. Su enorme variedad y cantidad permite a las empresas trascender de sus propios datos y adquirir nuevos conocimientos.

Se empieza a utilizar la Ciencia de los Datos como algo esencial, como un administrativo o un gerente.

Esta nueva ciencia permite a las empresas salir de la retrospectiva y el análisis de sus propios datos y empezar a ser predictivo, pro-activo y empírico.

Moverse desde el BI tradicional hacia la Ciencia de los Datos es un gran esfuerzo necesario para convertirse en una empresa dirigida por los datos, el famoso data-driven.

Las 10 grandes diferencias entre ambas tecnologías son:

  1. Perspectiva

    Los sistemas de BI están diseñados para mirar hacia atrás basados ​​en datos reales de eventos reales. La ciencia de los datos mira hacia adelante, interpretando la información para predecir lo que podría suceder en el futuro.

    Perspectiva según Escher

  2. Foco

    BI ofrece informes detallados, KPIs y tendencias, pero no indica cómo serán estos datos en el futuro. La Ciencia de los Datos lo hace en forma de patrones y mediante la experimentación.

    Foco

  3. Proceso

    Los sistemas tradicionales de BI tienden a ser estáticos y comparativos. No ofrecen espacio para la exploración y experimentación en términos de cómo se recogen y administran los datos.

    Proceso

  4. Fuentes de datos

    Debido a su naturaleza estática, las fuentes de datos BI tienden a ser pre-planificadas y agregadas lentamente. La ciencia de datos ofrece un enfoque mucho más flexible, ya que significa que las fuentes de datos se pueden agregar en el camino según sea necesario.

    Fuente

  5. Transformar

    La forma en que los datos ofrece una diferencia para el negocio es clave también. BI le ayuda a responder a las preguntas que sabe, mientras que la ciencia de datos le ayuda a descubrir nuevas preguntas debido a la forma en que anima a las empresas a aplicar conocimientos sobre nuevos datos.

    Transformación

  6. Almacenamiento

    Al igual que cualquier activo comercial, los datos deben ser flexibles. Los sistemas de BI tienden a ser almacenados y apilados, lo que significa que es difícil de implementar soluciones basados en ellos en el negocio. Los datos de la Data Science se puede distribuir en tiempo real.

    Almacenaje

  7. Calidad de los datos

    Cualquier análisis de datos es tan bueno como la calidad de los datos que utiliza. BI proporciona una versión única de la verdad, mientras que la ciencia de datos ofrece precisión, nivel de confianza y probabilidades mucho más amplias con sus hallazgos.

     

    Calidad

  8. Propiedad de IT versus propiedad de negocios

    En el pasado, los sistemas de BI a menudo eran propiedad y operados por el departamento de IT, enviando la información a los analistas que la interpretaban. Con la Ciencia de los Datos, los analistas están al mando. Las nuevas soluciones Big Data están diseñadas para ser producidas por el analista, que pasan muy poco de su tiempo en recoger y almacenar los datos y la mayoría del tiempo analizando datos y haciendo predicciones sobre las cuales basar las decisiones de negocios.

    Propiedad IT

  9. Análisis

    Es mucho menos probable que un sistema retrospectivo y prescriptivo de BI sea colocado para hacer esto que un programa predictivo de ciencias de datos.

    Análisis

  10. Valor de negocio

    El análisis de los datos debe informar las decisiones empresariales en el mejor interés de la empresa, lo que significa demostrar valor en el aquí y ahora y predecir en el futuro. La ciencia de los datos está mucho mejor ubicada para hacer esto que BI.

    Valor de negocio

 

En vista de lo anterior, no debería sorprendernos que las empresas están impulsando sus inversiones en las estrategias de Big Data y plataformas de entrega, impulsado por Data Science.

Sin embargo, la inversión financiera es secundaria al cambio mental que se requiere para tener éxito realmente con los datos grandes. Las comprobaciones y los casos de uso deben ser introducidos para convencer a todos los interesados ​ a cambiar a la verdadera cultura basada en datos que es una base necesaria para una exitosa estrategia de Big Data Analytics.