Uso de Cookies. Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies.

ACEPTAR Más información.

 
Data Scientist y lenguaje R | 9782409008382 | Portada

DATA SCIENTIST Y LENGUAJE R

Guía de autoformación para el uso de Big Data

Henri LAUDE

Precio: 54.00€

Oferta: 51.30€ (-5%)

Añadir a la cesta

Datos técnicos

  • ISBN 9782409008382
  • Año Edición 2017
  • Páginas 666
  • Encuadernación Rústica
  • Idioma Español
 

Sinopsis

Todos los expertos se ponen de acuerdo en afirmar que el 90 % de los usos del Big Data provienen del uso de las data sciences. El objetivo de este libro es proponer una formación completa y operacional en las data sciences que permita producir soluciones mediante el uso del lenguaje R.

De este modo, el autor plantea un recorrido didáctico y profesional que, sin más requisito previo que un nivel de enseñanza secundaria en matemáticas y una gran curiosidad, permita al lector:

- integrarse en un equipo de data scientists,
- abordar artículos de investigación con un alto nivel en matemáticas,
- llegado el caso, desarrollar en lenguaje R, incluso nuevos algoritmos y producir bonitos gráficos,
- o simplemente gestionar un equipo de proyecto en el que trabajen data scientists, siendo capaces de dialogar con ellos de manera eficaz.

El libro no se limita a los algoritmos del "machine learning", sino que aborda diversos asuntos importantes como el procesamiento del lenguaje natural, las series temporales, la lógica difusa, la manipulación de imágenes.

La dinámica del libro ayuda al lector paso a paso en su descubrimiento de las data sciences y en el desarrollo de sus competencias teóricas y prácticas. El profesional descubrirá a su vez muchas buenas prácticas que puede adquirir y el gestor podrá surfear el libro tras haber leído con atención el bestiario de las data sciences de la introducción, que sin inexactitud o excesiva banalización presenta el tema ahorrando en aspectos matemáticos o en formalismos disuasivos.

Los programas en R descritos en el libro están accesibles para su descarga en el sitio web www.ediciones-eni.com y pueden ejecutarse paso a paso.

Índice

Introducción
1. Data scientist, una disciplina de moda
2. Las data sciences
3. El Big Data
4. La dinámica de este libro
4.1 Nuestros objetivos
4.2 La estructura del libro
4.2.1 Los dos recorridos complementarios
4.2.2 Recursos complementarios
5. Pequeño bestiario de las data sciences
5.1 Los fundamentos
5.1.1 Aprendizaje y clasificación
5.1.2 Pequeño vocabulario gráfico del machine learning
5.1.3 Regresión
5.1.4 Regresión lineal generalizada
5.1.5 Árboles de decisión, poda, tala
5.1.6 Clustering, k-means
5.1.7 k-NN
5.1.8 Modelos paramétricos
5.1.9 Lazy algorithm (algoritmo perezoso)
5.1.10 Overfitting: sobredeterminación, sobreaprendizaje
5.1.11 Validación cruzada, regularización, bagging
5.1.12 Optimización, descenso por gradiente
5.1.13 Algoritmo voraz (greedy algorithm)
5.1.14 Programación lineal, símplex, punto interior
5.1.15 Estimación mediante el método de Monte-Carlo
5.1.16 Entropía, independencia e información mutua
5.1.17 Discretización
5.2 Métodos «conjunto»
5.2.1 Random forest
5.2.2 AdaBoost (adaptative boosting)
5.3 Leyes de probabilidad y de distribución
5.3.1 Generalidades
5.3.2 Pequeño bestiario de leyes de probabilidad
5.4 Los grafos
5.4.1 Vocabulario básico
5.4.2 Conversión de una tabla de observaciones en un grafo, semejanza
6. Informática profesional y datasciences
6.1 La tecnología
6.2 Business Intelligence versus Big Data
6.2.1 Diferencias en términos de arquitectura
6.2.2 Diferencias en términos de uso
6.2.3 En resumen
7. Notación
7.1 Notación de los parámetros
7.2 Otras notaciones
7.2.1 Funciones y aplicaciones ... f(x), d(x,y) ...
7.2.2 Algunas posibles confusiones
8. Ahora, ¡es su turno!
Primeros pasos con R
1. Instalación de los componentes
1.1 Instalación y ejecución de R
1.2 Instalación y ejecución de RStudio
1.3 Instalación de nuevos paquetes
1.4 Instalación de paquetes: complementos
2. Toma de contacto con R
2.1 R, una calculadora eficaz
2.2 R, un lenguaje vectorial
2.3 Funciones que trabajan sobre vectores
2.3.1 Un primer análisis rápido de los datos
2.3.2 Algunas estadísticas sencillas sobre los vectores
2.3.3 Ordenar un vector
2.3.4 Diversas funciones con suma, producto, min y max
2.4 Tipos de datos simples
2.4.1 Los booleanos
2.4.2 Conjuntos
2.4.3 Listas
2.4.4 Factores
2.4.5 Tablas
2.5 Las funciones
2.5.1 Creación y uso de una función simple
2.5.2 Creación de un operador a partir de una función de dos variables
2.5.3 Uso de las funciones y alcance de las variables
2.5.4 Aplicación de las funciones sobre las matrices: apply
2.5.5 Las funciones: completamente útiles
2.6 Estructuras de control
2.6.1 Instrucciones comunes con otros lenguajes
2.6.2 Recorrer una matriz mediante bucles for
2.7 Las cadenas de caracteres
2.8 El formato de los números
2.9 Fechas y tiempos
2.10 Mediar la duración de un algoritmo
2.11 Los números complejos
2.11.1 Manipulación básica de los números complejos
2.11.2 Visualización de números complejos
2.12 Programación orientada a objetos
2.12.1 Clases y objetos, breve descripción
2.12.2 Constructores
2.12.3 Herencia
2.12.4 Objetos mutables
2.12.5 Gestión de la pila: implementación Orientada a Objetos con RC
3. Manipulación de los datos
3.1 Lectura de los datos: fundamentos
3.2 Manipulación de las columnas de un data.frame
3.3 Cálculos simples sobre un data.frame
3.3.1 Cálculos sobre las columnas y las filas
3.3.2 Manipulación de las filas
3.3.3 Aplicación: comparación de elementos de clases y Khi-2
3.3.4 Creación de columnas calculadas
3.3.5 Ordenar un data.frame mediante order()
3.4 Análisis visual de los datos
3.4.1 Visualización simple de los datos
3.4.2 Visualización de variables numéricas 2 a 2 con mención de las clases
3.4.3 Correlación entre variables numéricas
3.4.4 Separación por clase, ggplot2, qplot
3.4.5 Visualización 3D, relación entre tres variables numéricas
3.4.6 Gráficos por pares
3.4.7 Diagramas de caja y eliminación de outliers
3.4.8 Creación de un modelo por árbol de decisión
Dominar los fundamentos
1. Ponerse en armonía con los datos
1.1 Algunas nociones fundacionales
1.1.1 Fenómeno aleatorio
1.1.2 Probabilidad, variable aleatoria y distribución
1.1.3 Un poco de matemáticas: notaciones y definiciones útiles
1.1.4 Momentos de una variable aleatoria discreta X
1.1.5 Primeras consideraciones sobre los errores y estimaciones
1.2 Familiarizarse con los datos
1.2.1 R Commander
1.2.2 Rattle
2. Matrices y vectores
2.1 Convenciones, notaciones, usos básicos
2.2 Matrices, vectores: una introducción a la noción de aprendizaje supervisado
2.3 Ir más lejos en la manipulación de matrices con R
2.3.1 Operaciones básicas
2.3.2 Algunos trucos útiles sobre las matrices de R
2.3.3 Normas de vectores y normas de matrices
2.3.4 Matrices y vectores: diversas sintaxis útiles
3. Estimaciones
3.1 Planteamiento del problema de estimación
3.1.1 Formulación general del problema
3.1.2 Aplicación y reformulación del problema de estimación
3.2 Indicadores de desviación utilizados en machine learning
3.2.1 MSE, RMSE, SSE, SST
3.2.2 MAE, ME
3.2.3 NRMSE/NRMSD, CV_MRSE
3.2.4 SDR
3.2.5 Accuracy, R2
4. Puesta en práctica: aprendizaje supervisado
4.1 Preparación
4.2 Comprobar las hipótesis, p_value
4.2.1 Análisis gráfico interactivo con iplots
4.2.2 Test de Breush-Pagan y zoom sobre p_value
4.3 Creación de un modelo (regresión lineal múltiple)
4.4 Establecer una predicción
4.5 Estudio de los resultados y representación gráfica
4.6 Indicadores habituales - cálculos
4.7 Estudio del modelo lineal generado
4.8 Conclusión sobre el modelo lineal
4.9 Uso de un modelo «Random Forest»
Técnicas y algoritmos imprescindibles
1. Construir la caja de herramientas
2. Representación gráfica de los datos
2.1 Un gráfico «simple»
2.2 Histogramas avanzados
2.2.1 Distribución multiclase
2.2.2 Mezcla de varias distribuciones por clase
2.2.3 Visualización de la densidad de una distribución
2.2.4 Otra mezcla por clase
2.2.5 Una variable, pero un histograma para cada clase
2.2.6 Gráfico con una densidad por clase
2.3 Diagrama de pares y de facetas
2.3.1 Diagrama por pares, versión simple
2.3.2 Clases en configuración XOR
2.3.3 Diagrama por pares con «factores»
2.3.4 Facetas y escala logarítmica
3. Machine learning: prácticas corrientes
3.1 Recorrido teórico acelerado
3.1.1 Linealidad
3.1.2 Errores in y out, noción de dimensión VC
3.1.3 Hiperplanos, separabilidad con márgenes
3.1.4 Kernel Trick, núcleos, transformaciones, feature space
3.1.5 Problemas de la regresión: introducción a la regularización
3.2 Práctica por práctica
3.2.1 Cross validation: k-fold CV
3.2.2 Naive Bayes
3.2.3 C4.5 y C5.0
3.2.4 Support Vector Machines (SVM)
3.2.5 Clusterización, k-means
4. ¿ Dónde nos encontramos en nuestro aprendizaje ?
4.1 Sus conocimientos operacionales
4.2 Las posibles lagunas que es preciso cubrir ahora
Marco metodológico del data scientist
1. El problema metodológico a nivel del proyecto
1.1 La expresión de una necesidad
1.2 La gestión del proyecto
2. El ciclo interno de data sciences
2.1 Revisión detallada del problema planteado
2.2 Trabajos previos sobre los datos
2.2.1 Exigencias sobre los datos
2.2.2 Recogida, limpieza y comprensión de los datos
2.3 El ciclo de modelado
2.3.1 Feature engineering
2.3.2 Modelado y evaluación
2.3.3 Escoger el mejor modelo
2.3.4 Test, interpretación y confrontación con negocio
2.4 Preparación de la industrialización y despliegue
2.5 Preparación de las siguientes iteraciones
2.5.1 Elementos que es preciso tener en cuenta
2.5.2 Documentación gestionada por los data scientists
3. Complementos metodológicos
3.1 Clasificar sus objetivos
3.2 Trucos y argucias
Procesamiento del lenguaje natural
1. Definición del problema
2. Análisis semántico latente y SVD
2.1 Aspectos teóricos
2.1.1 SVD: generalidades
2.1.2 Una justificación de la descomposición SVD
2.1.3 SVD en el contexto LSA
2.1.4 Interpretación
2.1.5 Alternativa no lineal, Isomap (MDS, geodésico, variedad, manifold)
2.2 Puesta en práctica
2.2.1 Inicialización
2.2.2 En el núcleo de LSA
2.2.3 Resultados
2.2.4 Manipulaciones, interpretaciones recreativas y no fundadas
Grafos y redes
1. Introducción
2. Primeros pasos
2.1 Algunas nociones y notaciones complementarias básicas
2.2 Manipulaciones simples de grafos con R
2.3 Estructura de los grafos
3. Grafos y redes (sociales)
3.1 Análisis de las redes sociales: conceptos básicos
3.2 Puesta en práctica
3.3 Detección de comunidades
Otros problemas, otras soluciones
1. Series temporales
1.1 Introducción
1.2 Modelo estacionario
1.2.1 Proceso estacionario: los fundamentos
1.2.2 Proceso autorregresivo AR: ir más lejos
1.2.3 Consideraciones (muy) útiles
1.3 Procesos no estacionarios
1.3.1 El modelo ARIMA
1.3.2 Procesos estacionales: SARIMA
1.3.3 Modelos ARCH y GARCH
1.3.4 Convolución y filtros lineales
1.4 Puesta en práctica
1.4.1 Los fundamentos de la manipulación de las series temporales en R
1.4.2 Estudio de las series temporales
1.4.3 Predicciones sobre ARIMA (AR MA SARIMA)
1.5 Minibestiario ARIMA
2. Sistemas difusos
3. Enjambre (swarm)
3.1 Swarm y optimización: el algoritmo PSO
3.1.1 Presentación de PSO
3.1.2 Descripción de PSO
3.2 Puesta en práctica de PSO
Feature Engineering
1. Feature Engineering, los fundamentos
1.1 Definición del problema
1.2 Sobre qué hay que estar muy atento
1.2.1 La calidad de la distribución
1.2.2 La naturaleza de las features
1.3 Dominar la dimensionalidad
1.4 Una solución práctica: el PCA
1.5 Un ejemplo simple del uso del PCA
1.6 Los valores desconocidos y las features mal condicionadas
1.7 Creación de nuevas features
1.8 A modo de conclusión
2. PCA clásico, elementos matemáticos
3. Reducción de los datos (data reduction)
4. Reducción de la dimensionalidad y entropía
4.1 Descripción teórica del problema
4.2 Implementación en R y discusión
Complementos útiles
1. GAM: generalización de LM/GLM
2. Manipulación de imágenes
2.1 Creación, visualización, lectura y escritura de imágenes
2.2 Transformaciones de imágenes
2.2.1 Ejemplos de manipulación del color y de las intensidades
2.2.2 Ejemplos de manipulación de la geometría de la imagen
2.2.3 Aplicación de filtros sobre las imágenes
3. Cómo crear una muestra: LHS (hipercubo latino)
4. Trabajar sobre datos espaciales
4.1 Variograma
4.1.1 Campo y variable regionalizada
4.1.2 Determinación del variograma
4.2 Krigeage (kriging)
4.2.1 La teoría, brevemente
4.2.2 Implementación en R
5. Buenas prácticas útiles
5.1 Trazar una curva ROC
5.2 Una red neuronal (primeros pasos hacia el deeplearning)
6. Gradient Boosting y Generalized Boosted Regression
6.1 Los grandes principios
6.2 Los parámetros y los usos (paquete GBM)
6.2.1 Covarianza
6.2.2 Loss
6.2.3 Optimización del algoritmo
6.3 Puesta en práctica
Anexos
1. Acerca de la utilidad de estos anexos
2. Fórmulas
3. Estrategias según la naturaleza de los datos
3.1 Recuentos
3.2 Proporciones
3.3 Variable de respuesta binaria
3.4 Datos que inducen un modelo mixto (mixed effect)
3.5 Datos espaciales
3.6 Grafos
3.7 Análisis de supervivencia (survival analysis)
4. Filtros (sobre imágenes)
5. Distancias
6. Trucos y pequeños consejos
6.1 Acerca de los tests
6.2 Gestión de las variables
6.3 Análisis y manipulación de resultados
6.3.1 Residuos
6.3.2 Manipulación de los modelos
7. Paquetes y temas para estudiar
7.1 Creación de gráficos JavaScript con R
7.2 Crear uniones como en SQL
7.3 Reglas de asociación
7.4 Exportar un modelo
7.5 Tensores
7.6 SVM para la detección de novedades (novelty detection)
8. Vocabulario y «tricks of the trade»
8.1 Complementos sobre las bases del machine learning
8.2 Complementos sobre los aspectos bayesianos
8.3 Vocabulario (en inglés) de los modelos gaussianos
9. Algoritmos para estudiar
10. Algunas formulaciones de álgebra lineal
Conclusión
índice

 

2017 © Vuestros Libros Siglo XXI | Desarrollo Web Factor Ideas

Producto añadido al carrito.

Si desea ver la cesta de la compra haga click aquí.