Diferencias ente AI, NLP, Machine Learning y Deep Learning

Machine Learning

En ocasiones, las diferencias entre Inteligencia Artificial, Machine Learning y Deep Learning son difíciles de establecer.

En la Ciencia de los Datos, es bastante típico trabajar al rededor de estos conceptos.

Tratemos de ver, rápidamente, cuales son estas diferencias.

AI (inteligencia artificial) es un subcampo de la ciencia de la computación que se creó en la década de 1960.  Su  preocupación es resolver tareas que son fáciles para los humanos pero difíciles para las computadoras.

AI
Inteligencia Artificial

En particular, una Strong IA (Inteligencia Artificial Fuerte) ​​sería un sistema que puede hacer cualquier cosa que un humano pueda (sin contar algunos aspectos físicos).

Esto es bastante genérico e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajos creativos (hacer arte o poesía), etc.

NLP (procesamiento del lenguaje natural) es simplemente la parte de AI que tiene que ver con el lenguaje (generalmente escrito).

NLP
Procesado del Lenguaje Natural

El aprendizaje automático (machine learning en inglés) se refiere a un aspecto concreto de todo esto: dado un problema de IA que puede describirse en términos discretos (por ejemplo, de un conjunto particular de acciones, cuál es el correcto), y dada mucha información sobre el mundo, figura cuál es la acción “correcta”, sin que el programador la programe.

Machine Learning
Aprendizaje Automático

Típicamente se necesita algún proceso externo para juzgar si la acción fue correcta o no.

En términos matemáticos, se trata de una función: introduces cierta información y quieres que produzca la salida correcta, por lo que todo el problema es simplemente construir un modelo de esta función matemática de forma automática.

Para establecer una distinción con AI: puedo escribir un programa muy inteligente que tenga un comportamiento similar al humano, puede ser AI, pero a menos que sus parámetros se aprendan automáticamente de los datos, no es machine learning.

El aprendizaje profundo (deep learning en inglés) es un tipo de aprendizaje automático (machine learning) que es muy popular últimamente. Implica un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de un cierto tipo, y donde algunos de estos bloques se pueden ajustar para predecir mejor el resultado final.

Deep Learning
Aprendizaje Profundo

La palabra profundo significa que la composición tiene muchos de estos bloques apilados uno sobre el otro, y la parte difícil es cómo ajustar los bloques que están lejos de la salida, ya que un pequeño cambio allí puede tener efectos muy indirectos en el salida.

Esto se hace a través de algo llamado Backpropagation dentro de un proceso más grande llamado descenso de gradiente que le permite cambiar los parámetros de una manera que mejora su modelo.

Este artículo está basado en una respuesta en la red Quora sobre estos temas y realizada por Dmitriy GenzelPhD. en Computer Science.

¿Qué es la Ciencia de los Datos?

Una pregunta que me hace mucho es ¿Qué es la Ciencia de los Datos? Intentemos resolver esta pregunta con varios conceptos.

QUÉ ES:

El término se utiliza mucho últimamente, es la palabra de moda que se utilizara para describirlo todo.

La descripción de Wikipedia es:  La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,​ lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Esta definición, aunque formalmente correcta, no nos da mucha información sobre lo que es realmente la Ciencia de los Datos.

Uno de los grandes errores que se encuentra uno tratando de definir la Ciencia de los Datos es relacionarla directamente con el Big Data. Realmente no es necesario tratar mucha información para realizar Data Science, aunque se pueda. La Ciencia de los Datos puede tratar cien, un millón o billones de registros.

Small Data

Ya que tiene la palabra ciencia en su nombre, habrá que considerar la definición de Ciencia y de Método Científico. De acuerdo con esto, Data Science no se trata solo de los métodos prácticos o empíricos, sino que necesita fundamentos científicos.

Método Científico

Para definir la Ciencia de los Datos es interesante diferenciar los conceptos datos e información. Los datos son un conjunto sin procesar o sin organizar de cosas que necesitan procesarse para tener un significado.
La información es cuando los datos han sido procesados, organizados, estructurados o presentados en un contexto dado para hacerlo útil
En base a esto, tendríamos ciencia de datos y ciencia de la información. En este momento, las personas tienen un prejuicio para hablar sobre ciencia de datos, incluida la ciencia de la información.

Datos vs Información

El término se está usando en muchos campos o mercados que hasta ahora usaban otros términos, como Análisis de Datos, Business Intellgence, etc:

  • Estadística / Matemáticas
  • Análisis de negocio
  • Inteligencia de mercado
  • Consultoría estratégica
  • Muchos otros…
  • La parte más loca es que ves profesionales de estas áreas actualizando sus hojas de vida con algo así como “trabajé con Data Science …”
Viejos Científicos de Datos?

La creación de ciencia de datos de una manera simple. Dos lados que no estaban totalmente conectados, pero que, con el nuevo mundo acelerado y tecnológico, tendrán que fusionarse:

  1. Estadísticas / Matemáticas: formule modelos adecuados para generar ideas.
  2. Informática: haga el puente entre los modelos y los datos en un tiempo factible para llegar con el resultado.

Temas / herramientas que una persona necesita comprender o tener algún conocimiento cuando trabaja con Data Science:

  • Álgebra lineal
  • Sistemas no lineales
  • Geometría analítica
  • Mejoramiento
  • Cálculo
  • Estadística
  • Lenguaje de programación (R, Python, SAS)
  • Softwares: Excel, SPSS de IBM
  • Plataformas generales: Watson Anlytics de IBM, Azure Machine Learning,
  • Google Cloud machine learning,
  • Visualización de datos: Power BI, Tableau, R / Python usando plotly / ggplot
  • Aprendizaje automático (aprendizaje supervisado, no supervisado y de refuerzo)
  • Big Data
  • Big Data Frameworks (Hadoop y Spark)
  • Hardware (CPU, GPU, TPU, FPGA, ASIC)
Caja de Herramientas

Una imagen vale más que mil palabras: Diagrama de Venn de Data Science de Drew ConwayLa experiencia sustantiva (o conocimiento del dominio) es el conocimiento específico del área en la que está aplicando Data Science. Para saber más acerca de la falta de experiencia sustantiva en la ciencia de datos ver el siguiente enlace.

Diagrama Venn Data Science

QUÉ NO ES:

Machine Learning no es una rama de la ciencia de datos. El aprendizaje automático se originó a partir de la Inteligencia Artificial. La ciencia de datos solo utiliza el Machine Learning como una herramienta. La razón es que produce resultados asombrosos y autónomos para tareas específicas

Machine Learning

No es la salvación de las empresas que nunca midieron nada y ahora quieren obtener información de sus datos. “Basura adentro, basura afuera” La ciencia de datos será tan buena como los datos generados en los años siguientes.

Basura dentro = Basura fuera

Desde luego, Ciencia de los Datos no es presentar datos usando algunos gráficos de Excel sin ninguna información sobre los datos.

No Excel

 

Desde Héroes del Dato esperamos que este artículo haya arrojado luz a la complicada tarea de definir la Ciencia de los Datos.

 

Ciencia de los Datos
Ciencia de los Datos

Diferencias entre Data Science y Business Intelligence

Hasta hace muy poco la Business Intelligence era considerada como un elemento de lujo que sólo las grandes empresas se podían permitir.

Pero los datos se están convirtiendo en algo habitual y accesible. Su enorme variedad y cantidad permite a las empresas trascender de sus propios datos y adquirir nuevos conocimientos.

Se empieza a utilizar la Ciencia de los Datos como algo esencial, como un administrativo o un gerente.

Esta nueva ciencia permite a las empresas salir de la retrospectiva y el análisis de sus propios datos y empezar a ser predictivo, pro-activo y empírico.

Moverse desde el BI tradicional hacia la Ciencia de los Datos es un gran esfuerzo necesario para convertirse en una empresa dirigida por los datos, el famoso data-driven.

Las 10 grandes diferencias entre ambas tecnologías son:

  1. Perspectiva

    Los sistemas de BI están diseñados para mirar hacia atrás basados ​​en datos reales de eventos reales. La ciencia de los datos mira hacia adelante, interpretando la información para predecir lo que podría suceder en el futuro.

    Perspectiva según Escher

  2. Foco

    BI ofrece informes detallados, KPIs y tendencias, pero no indica cómo serán estos datos en el futuro. La Ciencia de los Datos lo hace en forma de patrones y mediante la experimentación.

    Foco

  3. Proceso

    Los sistemas tradicionales de BI tienden a ser estáticos y comparativos. No ofrecen espacio para la exploración y experimentación en términos de cómo se recogen y administran los datos.

    Proceso

  4. Fuentes de datos

    Debido a su naturaleza estática, las fuentes de datos BI tienden a ser pre-planificadas y agregadas lentamente. La ciencia de datos ofrece un enfoque mucho más flexible, ya que significa que las fuentes de datos se pueden agregar en el camino según sea necesario.

    Fuente

  5. Transformar

    La forma en que los datos ofrece una diferencia para el negocio es clave también. BI le ayuda a responder a las preguntas que sabe, mientras que la ciencia de datos le ayuda a descubrir nuevas preguntas debido a la forma en que anima a las empresas a aplicar conocimientos sobre nuevos datos.

    Transformación

  6. Almacenamiento

    Al igual que cualquier activo comercial, los datos deben ser flexibles. Los sistemas de BI tienden a ser almacenados y apilados, lo que significa que es difícil de implementar soluciones basados en ellos en el negocio. Los datos de la Data Science se puede distribuir en tiempo real.

    Almacenaje

  7. Calidad de los datos

    Cualquier análisis de datos es tan bueno como la calidad de los datos que utiliza. BI proporciona una versión única de la verdad, mientras que la ciencia de datos ofrece precisión, nivel de confianza y probabilidades mucho más amplias con sus hallazgos.

     

    Calidad

  8. Propiedad de IT versus propiedad de negocios

    En el pasado, los sistemas de BI a menudo eran propiedad y operados por el departamento de IT, enviando la información a los analistas que la interpretaban. Con la Ciencia de los Datos, los analistas están al mando. Las nuevas soluciones Big Data están diseñadas para ser producidas por el analista, que pasan muy poco de su tiempo en recoger y almacenar los datos y la mayoría del tiempo analizando datos y haciendo predicciones sobre las cuales basar las decisiones de negocios.

    Propiedad IT

  9. Análisis

    Es mucho menos probable que un sistema retrospectivo y prescriptivo de BI sea colocado para hacer esto que un programa predictivo de ciencias de datos.

    Análisis

  10. Valor de negocio

    El análisis de los datos debe informar las decisiones empresariales en el mejor interés de la empresa, lo que significa demostrar valor en el aquí y ahora y predecir en el futuro. La ciencia de los datos está mucho mejor ubicada para hacer esto que BI.

    Valor de negocio

 

En vista de lo anterior, no debería sorprendernos que las empresas están impulsando sus inversiones en las estrategias de Big Data y plataformas de entrega, impulsado por Data Science.

Sin embargo, la inversión financiera es secundaria al cambio mental que se requiere para tener éxito realmente con los datos grandes. Las comprobaciones y los casos de uso deben ser introducidos para convencer a todos los interesados ​ a cambiar a la verdadera cultura basada en datos que es una base necesaria para una exitosa estrategia de Big Data Analytics.

10 tecnologías de Big Data que debes conocer

Los Científicos de Datos aparecen en todo el mundo y empieza a ser usual hablar de modelado predictivo, minería de datos o aprendizaje automático. Pero ¿qué sería de todas estas tecnologías sin la ingeniería de datos, especialmente cuando hablamos de Big Data?

El análisis de grandes volúmenes de información, que conocemos por su terminología en inglés, Big Data, crece y se expande rápidamente por todo el mundo. Todos hablan de Big Data y de Data Science o Ciencia de los Datos. Pero, ¿cuáles son las tecnologías que permiten todo esto?

A continuación se enumeran algunas tecnologías de Big Data que todos los ingenieros de datos deben saber:

  1. Análisis Predictivo (Predictive analytics): Esta tecnología agrupa una serie de soluciones, hardware y software, de técnicas estadísticas, modelización, aprendizaje automático y minería de datos, que analizan los datos actuales e históricos reales para hacer predicciones acerca del futuro o  acontecimientos no conocidos (Wikipedia).
    predictive analytics
    predictive analytics

    Todo esto se aplica a grandes fuentes de datos y permite descubrir, analizar , evaluar, optimizar e implementar modelos predictivos que generan una mejora en los procesos y una mitigación del riesgo.

  2. Bases de Datos NoSQL: En contraposición con las relacionales tradicionales, el uso de las Bases de Datos NoSQL están disfrutando de un crecimiento exponencial.
    NoSQL
    NoSQL

    Este tipo de bases de datos ofrece un diseño de esquema dinámico, que ofrece el potencial para una mayor personalización, flexibilidad y escalabilidad, que es muy necesario al almacenar grandes datos.

  3. Búsqueda y descubrimiento del conocimiento: Necesitas conocer estas herramientas y tecnologías para la extracción de información. Son herramientas que se pueden utilizar de forma autónoma, sin complicaciones, y sin necesidad de tener conocimientos especiales.
    Knowledge Discovery
    Knowledge Discovery

    La búsqueda y el descubrimiento de conocimientos se centran en obtener nuevos conocimientos de los grandes repositorios de información, tanto de datos estructurados como no estructurados que residen en fuentes, tales como sistemas de archivos, flujos, bases de datos, APIs y otras plataformas y aplicaciones.

  4. Análisis de Flujos (Stream Analytics): Si necesitas agregar, filtrar, enriquecer y analizar un alto rendimiento de datos, necesitas utilizar el Análisis de Flujos.
    Azure Stream Analytics
    Azure Stream Analytics

    Stream Analytics analiza los datos que provienen de fuentes de datos múltiples, dispares y en vivo y en diversos formatos.

  5. Información de datos en memoria (In-memory data fabric):Muy relacionado con el punto anterior, esta tecnología proporciona acceso de baja latencia y le permite procesar grandes cantidades de datos. Distribuye datos a través de la memoria dinámica de acceso aleatorio (DRAM), SSD o Flash de un sistema informático distribuido.
    In-memory Data Computing
    In-memory Data Computing

    Se utiliza para análisis inmediatos, generalmente en-vivo, de la información procedente de un stream de datos.

  6. Almacenes de archivos distribuidos (Distributed file stores):Una red de ordenadores que almacena datos en más de un nodo, a menudo de forma replicada, para proporcionar redundancia y rendimiento.

    Distributed File Systems
    Distributed File Systems
  7. Virtualización de datos (Data virtualization):Si necesita información que se entrega de varias fuentes de datos grandes, como Hadoop y almacenes de datos distribuidos, en tiempo real o casi en tiempo real, la virtualización de datos es tu tecnología.

    Data Virtualization
    Data Virtualization
  8. Integración dedatos (Data integration) : La integración de datos se trata de herramientas que permiten la orquestación de datos a través de soluciones como Apache Hive, Apache Pig, Amazon Elastic Map Reduce (EMR), Hadoop, Couchebase, MongoDB, Apache Spark, etc.

    Data Integration
    Data Integration
  9. Preparación de datos: Para aliviar la carga de modelar, limpiar, abastecer y compartir conjuntos de datos desordenados y diversos que aceleran la utilidad de los datos para el análisis.

    Data Preparation
    Data Preparation
  10. Calidad de los datos (Data Quality): La tecnología que lleva a cabo la limpieza y el enriquecimiento de datos en grandes conjuntos de datos y en alta velocidad. Utiliza operaciones en paralelo y bases de datos distribuidas.

    Data Quality
    Data Quality

Grandes tecnologías de datos: cosas a tener en cuenta

Todas estas herramientas contribuyen a obtener una información en tiempo real, predictiva e integrada; exactamente lo que los grandes clientes de datos quieren ahora.

Para obtener la ventaja competitiva que ofrece el Big Data, es necesario introducir el análisis en todas partes, explotar el valor en todos los tipos de datos y desarrollar un punto diferenciador con el factor velocidad.

Todo esto requiere una infraestructura que pueda administrar y procesar volúmenes masivos de datos estructurados y no estructurados .

Las grandes tecnologías de datos deben soportar servicios de búsqueda, gestión, desarrollo y análisis de datos que van desde datos de transacciones y aplicaciones hasta datos de máquinas y sensores, datos geo-localizados, sociales y de imagen.

El artículo original.