Diplomatura en Ciencia de Datos con R y Python

$899.00

 

  • Fecha de Inicio: Lunes 02 /11 / 2020
  • Carga Horaria: 250 Horas
  • Duración: 25 Semanas

 

Categoría: Etiquetas: , , ,
Descripción

Descripción

Aprenderás los principales algoritmos de aprendizaje supervisado y no supervisado. Entre los algoritmos supervisados verás árboles de decisión, redes neuronales, reglas de asociación, bayes ingenuo, bosques aleatorios. Y no supervisado como agrupamiento.

Descubrirás además cómo usar series las temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data. Estas aplicaciones podrás utilizarlas en múltiples campos. Como negocios, salud, recursos humanos, cobranzas, finanzas, publicidad, marketing, procesos de servicios y de producción, urbanismo, políticas públicas, etc.

 

  • Que los alumnos:

  1. Entiendan los conceptos del campo
  2. Manejen los principales algoritmos para crear modelos predictivos
  3. Utilicen las herramientas de aprendizaje no supervisado
  4. Sepan medir con criterio del negocio los resultados de sus modelos
  5. Participen de las experiencias aportadas por los instructores

  • Metodología:

Modalidad a distancia de forma Online.

Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.

El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
La dedicación recomendada a estas actividades es de ocho horas semanales.

Soporte docente por Grupo de WhatsApp, email y foro.

Los grupos de participantes son reducidos y de varios países hispanoparlantes. Lo que aporta diferentes visiones y la posibilidad de networking internacional.

 

  • Horarios de la Cursada (GTM-3)

Clase Día Hora
Introducción a la Ciencia de Datos 02/11/2020 19 hs
Iniciación en R 1 de 3 05/11/2020 19 hs
Iniciación en R 2 de 3 09/11/2020 19 hs
Iniciación en R 3 de 3 12/11/2020 19 hs
Iniciación en Python 1 de 4 06/11/2020 19 hs
Iniciación en Python 2 de 4 07/11/2020 12 hs
Iniciación en Python 3 de 4 13/11/2020 19 hs
Iniciación en Python 4 de 4 14/11/2020 12 hs
Clases teorico – prácticas regulares Sábados 11 hs
Clases teóricas regulares R Jueves 20 hs
Clases prácticas regulares R Martes 20 hs

 

  • Instancias de evaluación: Examen final.
  • Requisitos de aprobación: Mínimo 60 % de respuestas correctas.
Programa Analítico

- Unidad 1: Introducción

 
  • Introducción a la Ciencia de Datos
  • Niveles a los que opera la ciencia de datos
  • Introducción a Data Warehouse
  • Introducción a Data Mining
  • Introducción a Knowledge Discovery
  • Introducción a Herramientas OLAP y Tableros de comando
  • Repaso de herramientas disponibles
  • Taxonomía de las competencias de un científico de datos
  • Primeros pasos en R
  • Instalando y cargando paquetes en R
 

- Unidad 02: Introducción a R

 
  • Variables, vectores y matrices
  • Dataframes
  • Paquetes y librerías
  • Manejo de archivos csv
  • Conversiones de tipos
  • Conexión a bases de datos
  • Ejecución condicional
  • Bucles
  • Funciones en R
  • Medidas estadísticas
  • Correlaciones
  • Funciones estadísticas
 

- Unidad 03: Introducción a Python

 
  • Descarga e instalación
  • Principales librerías
  • Variables y tipos de datos
  • Listas, tuplas y diccionarios
  • Ejecución condicional
  • Ciclos definidos e indefinidos
  • Manejo de Excepciones
  • Funciones y Generadores
  • Clases y objetos
  • Manejo de archivos y directorios
  • Conexión a archivos planos
  • Conexión a Excel
  • Conexión a Bases de Datos
 

- Unidad 4:  Tests básicos

 
  • Repaso de conceptos de probabilidad y estadística
  • Test de Hipótesis
  • Correlaciones
  • AB Test
  • Cálculo de correlaciones en R con cor
  • Funciones de distribución en R
  • Histogramas en R
  • Gráficos de líneas en R
  • Gráficos de áreas en R
  • Uso de NumPy
  • Uso de Pandas
  • Uso de MatPlotLib
  • Módulo matplotlib
  • Módulo math
  • Módulo numpy
  • Módulo yt
  • Módulo mayavi
 

- Unidad 5: Regresiones

 
  • Regresión Lineal
  • Regresión polinómica
  • Regresión exponencial y logarítmica
  • Regresión de dos variables
  • Cálculo de regresiones en R con lm
  • Cálculo de regresiones logísticas en R con glm
  • Regresiones en Python
  • Regresión logística en Python
 

- Unidad 6: Arboles de decisión

 
  • Algoritmo básico en Excel
  • División en entrenamiento y prueba
  • Uso de Rpart y cp
  • Predicción y valoración de la solución
  • Uso de Party
  • Aplicación al problema del call center
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control
 

- Unidad 7: “Clusters”

 
  • Algoritmo básico en Excel
  • Uso de kmeans en R
  • Ejemplo de aplicación real en R
  • Otros algoritmos de agrupamiento en R
  • Ejercicio de aplicación de agrupamiento de mascotas
  • Uso de Scikit-Learn en Python
  • Análisis de componentes principales en Python
  • K-Medias en Python
  • Clustering jerárquico en Python
 

- Unidad 8: Reglas de Asociación

 
  • Algoritmo básico en Access
  • División en entrenamiento y prueba en R
  • Uso de arules en R
  • Ejemplo de una aplicación real votación de reglas en R
  • Ejemplo de una aplicación real a datos de ventas en supermercados en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control
  • Esquema de votación de reglas en Python
 

- Unidad 9: Redes Neuronales

 
  • Algoritmo básico en Excel
  • División en entrenamiento y prueba en R
  • Uso de neuralnet
  • Predicción y valoración de la solución en R
  • Discusión del problema de legibilidad de los resultados desde el negocio
  • Competencia entre árboles y redes en un caso concreto en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control en Python
  • Problema concreto en Python
 

- Unidad 10: Algoritmos genéticos

 
  • Algoritmo básico en Excel
  • Discusión del tipo de problemas en los que se aplica
  • Discusión de otros mecanismos de optimización
  • Implementación en R del uso de algoritmos genéticos como
    • Valores reales
    • Binarios
    • Permutaciones
  • Implementación en Python
 

- Unidad 11: Series temporales

 
  • Taxonomía
  • Separación de componentes
  • Predicciones
  • ARIMA implementado en R
  • Predicción en series con un único período
  • Predicción en series con múltiples períodos
  • Predicción en series con períodos variables: renormalización
  • Implementación en Python
 

- Unidad 12: Método de Simulación de Montecarlo

 
  • Algoritmo básico en Excel
  • Discusión de la utilidad del método
  • Comparación con el análisis de escenarios
  • Ejemplo de una aplicación real
  • Ejemplo simple implementado en R
  • Ejemplo simple implementación en Python
 

- Unidad 13: Minería de textos

 
  • Clasificación supervisada de piezas de texto
  • Construcción de una red semántica
  • Discusión de las posibilidades de reconocimiento de voz
  • Ejemplos de aplicación real del algoritmo de clasificación
  • Aplicación a la detección de sentimientos
  • Ejemplo de implementación en Python
 

- Unidad 14: Vecinos Cercanos (Knn)

 
  • Instalación y uso del paquete en R
  • Ejemplo conceptual en Excel
  • Ejemplo en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control
 

- Unidad 14: Bayes Ingenuo

 
  • Implementación en Excel
  • Ejemplo de aplicación en R
  • Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)
  • Ejemplo de aplicación en Python
 

- Unidad 15: Random Forest

 
  • Bootstrap y bagging
  • Descripción conceptual del método random forest
  • Paquete randomForest para R
  • Ejemplo de aplicación
  • Comparación con otras técnicas
  • Implementación en Python
 

- Unidad 16: Métodos bayesianos avanzados

 
  • Descripción conceptual del método:
  • Regresión lineal bayesiana
  • Regresión logística bayesiana
  • Inferencia bayesiana
  • Red bayesiana
  • Ejemplos de aplicación en R
    • Paquete BAS
    • Paquete brms
    • Paquete arm
    • Paquete bnlearnd
  • Comparación con otras técnicas
  • Ejemplos de aplicación en Python
 

- Unidad 17: Máquina de soporte vectorial

 
  • Descripción conceptual del método
  • Paquete e1071 para R
  • Ejemplo de aplicación en R
  • Ejemplo de aplicación en Python
  • Comparación con otras técnicas
 

- Unidad 18: Discriminante lineal y cuadrático

 
  • Instalación y uso del paquete
  • Ejemplo conceptual en Excel
  • Ejemplo en R
  • Ejemplo en Python
  • Principales parámetros de ajuste y control en R
  • Principales parámetros de ajuste y control en Python
  • Problema concreto
 

- Unidad 19: Análisis de Fourier

 
  • Descripción conceptual
  • Ejemplo conceptual en Excel
  • Instalación y uso del paquete en R
  • Instalación y uso del paquete en Python
  • Ejemplo en R
  • Ejemplo en Python
 

- Unidad 20: Herramientas geográficas

 
  • Distancias
  • Implementación en R
    • Paquete sf
    • Paquete nngeo
  • Aplicación práctica en R
  • Implementación en Python
  • Aplicación práctica en Python
 

- Unidad 21: Bases de datos documentales

 
  • Instalación de MongoDB
  • Conexión a R
  • Conexión a Python
  • Aplicación práctica en R
  • Aplicación práctica en Python
 

- Unidad 22: Bases de datos documentales

 
  • Instalación de MongoDB
  • Conexión a R
  • Conexión a Python
  • Aplicación práctica en R
  • Aplicación práctica en Python
 

- Unidad 23: Diseño de Datawarehouses

 
  • Diferencias entre los DW y los OLTP
  • Tipos de datos y soportes
  • Dimensiones y jerarquías
  • Estimación de recursos y tiempos según tipos de datos
  • Ejemplos de staging
  • Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
  • Ejercicios de diseño de DW
 

- Unidad 24: Diseño y construcción de ETL

 
  • Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
  • Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
  • Estrategias de update
  • Ejercicios de diseño de ETL para la carga inicial
  • Ejercicios de diseño de ETL para la actualización
  • Licencia, descarga e instalación de Open Refine
  • Uso general como herramienta de limpieza de datos
  • Pre-procesado de los datos
  • Casos de interés y ejemplos
  • Licencias, descarga e instalación de Pentaho-Kettle
  • Pentaho Kettle: funciones, características, utilización
  • Auditoría y documentación
  • Ejemplos de uso
 

- Unidad 25: “Big Data”

 
  • ¿Qué es Big Data?
  • ¿Cuándo usar Big Data?
  • ¿Cómo armar una infraestructura para Hadoop?
  • Ejemplo de una aplicación de Map Reduce: wordcount
  • Como evitar Hadoop