Introducción al Aprendizaje Automático
Vivimos un momento en el que cada vez es más habitual escuchar hablar sobre el aprendizaje automático pero, ¿sabemos realmente qué es y para qué nos sirve?
Te puede interesar: Data Scientist: La profesión del futuro
El aprendizaje automático, también conocido como Machine Learning, es una rama de la inteligencia artificial que tiene como objetivo desarrollar técnicas que permitan a las máquinas aprender por sí solas.
En el mundo se generan a diario 2.5 trillones de bytes de información. El 90% de los datos a nivel mundial se han creado en los últimos 2 años y provienen de mil sitios: publicaciones en redes sociales, imágenes y vídeos digitales, registros de compra y transacciones y señales de GPS de los móviles…
A este conjunto masivo de datos se le llama Big Data. Es a partir de esta fuente masiva de datos cuando nace la necesidad de un profesional que debe conocer y generar un uso para esta información: el data scientist o científico de datos.
En la última Openclass de la Escuela de Negocios de la UEMC, el docente del Máster Oficial en Gestión y Análisis de Grandes Volúmenes de Datos: Big Data, Ignacio Gómez, hizo una pequeña introducción al Aprendizaje Automático.
Durante esta openclass, Ignacio Gómez explicó los conceptos básicos sobre la ciencia de los datos y el aprendizaje automático, encuadrándolos dentro del concepto general de la inteligencia artificial e intentando entender porqué están tan de actualidad.
El científico de los datos es una profesión clave en el mundo de las tecnologías y es una de las mejor pagadas. Este perfil destaca por ser una persona formada en las ciencias matemáticas y las estadísticas y domina la programación y sus diferentes lenguajes, ciencias de la computación y analítica de datos.
Además, el científico de datos debe tener la capacidad y los conocimientos necesarios para comunicar sus hallazgos a medida que los tiene, no solo al área de tecnología sino además al sector de los negocios. Debe dominar la tecnología y las bases de datos para modificar y mejorar la orientación de los negocios de la empresa para la que trabaja.
Por lo tanto, el científico de datos analiza, interpreta y comunica las nuevas tendencias en los datos y los traduce a la empresa para que ésta haga uso de ellos y adapte sus productos y servicios, y cree nuevas oportunidades de negocio.
En estos momentos, los científicos de datos se han convertido en el perfil más demandado pero… ¿salvarán la humanidad? La pregunta que hacía Ignacio Gómez es, ¿cómo hemos podido vivir sin ciencia de datos?
En esta imagen tenemos la curva de las expectativas.
Según el docente del Máster de Big Data, en la fotografía podemos observar cómo todo el mundo está hablando de estos términos aunque a lo mejor no se esté aplicando. Ignacio Gómez destaca que las empresas, “todavía se encuentran en la fase de proyectos piloto”. Cuando la curva cae significa que “los periodistas dedicados a las nuevas tecnologías se cansan y se ponen a hablar de otras cosas”.
Datos, datos, datos, estamos rodeados de datos, datos heterogéneos. Ya lo decía el filósofo y educador austriaco, Rudolf Steiner:
“Nunca ha habido un momento en la humanidad con más información y menos conocimiento”
Por lo tanto, vamos a desarrollar y a diferenciar términos de los que todo el mundo habla.
- Inteligencia artificial: Engloba todo aquello que pretende que una máquina, que en general es un ordenador con su correspondiente software, imite la forma de razonar de una mente humana.
- Ciencia de datos: La ciencia de datos o Análisis de datos es un concepto anterior al aprendizaje automático, pero que se ha popularizado muchísimo gracias a él. La ciencia de datos mezcla las matemáticas, la estadística y la programación, convirtiendo en información útil un enorme conjunto de datos. Python es una herramienta poderosa y versátil, fácil de utilizar y fundamental para cualquier científicos de datos.
- Aprendizaje automático: Es una parte de la ciencia de datos. Consiste en diseñar y programar modelos matemáticos, que, analizando grandes conjuntos de datos, y sin que un ser humano les indique las pautas, son capaces de aprender a detectar patrones y reglas ocultas en la estructura de esos datos.
Historia de la Inteligencia Artificial
Ignacio Gómez hizo un breve repaso por la historia de la Inteligencia Artificial para contextualizar a los asistentes a la openclass online.
- 1950 – Alan Turing anticipó, sin construirla, el concepto de máquina de aprendizaje (learning machine)
- 1951 – Marvin Minsky y Dean Edmonds construyen la primera red neuronal (40 neuronas ¡analógicas!) con capacidad de aprendizaje, el SNARC (Stochastic Neural Analog Reinforcement Computer)
- 1952 – Arthur Samuel construye en IMB el primer programa capaz de aprender a jugar a las damas sin ser instruido para ello de forma concreta, sino aprendiendo las posiciones ganadoras a base de analizar muchas partidas.
- 1995 – Se definen por primera vez los algoritmos Random Forest y Support Vector Machines, dos de los algoritmos de aprendizaje automático más utilizados hoy en día.
- 1997 – La máquina Deep Blue de IBM vence al campeón del mundo de ajedrez Gary Kasparov.
- 2006 – Netflix lanza el desafío Netflix Prize. El objetivo es construir un Sistema de aprendizaje automático capaz de vencer al sistema de recomendación de películas disponible en la plataforma. El premio es un millón de dólares y se consigue en 2009.
- 2010 – Se lanza Kaggle, una plataforma para la creación de competiciones y desafíos relacionados con el aprendizaje automático.
- 2011 – Utilizando una combinación de aprendizaje automático y técnicas de procesamiento del lenguaje natural, el sistema Watson de IBM vence a los mejores concursantes del concurso televisivo Jeopardy.
- 2012 – El equipo de Google Brain, liderado por Andrew Ng y Jeff Dean, crea una red neuronal capaz de reconocer gatos en fotogramas de vídeos de Youtube.
Una vez puestos en contexto, Ignacio Gómez habló de las técnicas del Aprendizaje Automático o Machine Learning. Los algoritmos aprenden por observación. Pero este aprendizaje puede ser supervisado o no supervisado.
- El aprendizaje supervisado se basa en una serie de datos ya etiquetado, es decir, aprenden a trabajar a partir de una información.
- El aprendizaje no supervisado, por el contrario, no se basa en datos ya etiquetados. En este caso, le damos datos al algoritmo y éste los agrupa.
Te puede interesar: Minería de datos: ¿Qué relación tiene con el Big Data?
Un científico de datos, en todo momento, debe saber qué quiere hacer, además de conocer el área de negocio a analizar. El primer paso es la adquisición de los datos, es decir, elegirlos y limpiarlos. En este sentido, Ignacio Gómez bromeó diciendo que los científicos de datos son “limpiadores de datos”, ya que son los que tienen “el arte de limpiar los datos”. Una vez tenemos los datos limpios, el siguiente paso es definir los modelos y entrenar los algoritmos.
Aprendizaje Profundo (deep learning)
Dentro de los algoritmos de aprendizaje automático, los algoritmos de aprendizaje profundo son de los más complicados.
Mientras que los algoritmos tradicionales de aprendizaje automático son lineales, los algoritmos de aprendizaje profundo son más complicados. Se apilan en una jerarquía de creciente complejidad y abstracción a través de una red neuronal de la cual van extrayendo información. Así, pueden identificar elementos de fotografías, por ejemplo, caras de personas. A partir de aquí, detectar características de la cara… y así sucesivamente.
¿Para qué podemos aplicar la ciencia de los datos y el aprendizaje automático?
- Recursos Humanos: Por ejemplo, encajando los mejores candidatos a un puesto de trabajo.
- Marketing: Medición y estimación del impacto de una campaña: Si una marca de ropa paga al youtuber Rubius para que se ponga un de sus chaquetas en un vídeo, a través de un algoritmo podemos analizar los comentarios de las fotografías para extraer información y ver si realmente la gente cuando comenta el vídeo, está hablando de un jarrón que sale por la derecha, de su pelo o de la chaqueta (que es lo que realmente nos interesa)
- Atención al Cliente: robots conversacionales.
- Finanzas y Seguros: Detección de fraude o blanqueo de capitales.
- Sanidad: Monitorización de enfermos: Las redes sociales juegan malas pasadas, ya que hay personas que se piden la baja por enfermedad y luego se les ha visto de viajes a través de las redes sociales.
Todo esto demuestra que no somos conscientes de la cantidad de datos que tienen sobre nosotros.
El mayor consejo que dió Ignacio Gómez antes de finalizar la openclass fue lo importante que es siempre tener cuidado en extrapolar los datos. “Siempre es mejor la calidad de los datos que la calidad de los algoritmos. Los algoritmos son más fáciles de crear de lo que parece”.
Herramientas de Aprendizaje Automático
En cuanto a las herramientas más utilizadas, Phyton y R son las que destacó el docente como sus preferidas, entre las de más bajo nivel.
Herramientas de bajo nivel en las que hace falta programar:
- Python + pandas + numpy+ scikit-learn
- R + librerías específicas
Librerías de aprendizaje automático:
- Tensorflow
- Caffe
- Keras
- Theano
Herramientas de los grandes fabricantes:
- Google Cloud ML engine.
- Azure ML Studio.
- IBM Watson Studio.
- Amazon Sagemaker
Herramientas de alto nivel:
- SAS
- Matlab
- H2O
Te puede interesar: ¿Cómo aplicar la Transformación Digital de un Negocio?
Si quieres estar al tanto de todas estas openclass gratuitas que organizamos desde la Escuela de Negocios de la UEMC, no te pierdas nuestra página de Eventos para poder inscribirte en todas aquellas que puedan ser de tu interés.