Aprenderemos la forma de integrar R con BigQuery y así descubrirás el potencial de uso de esta herramienta.

Estoy seguro que ya debes conocer R (caso contrario puedes descargar este PDF para revisar una introducción a R), así que solo se harán un par de comentarios sobre R y luego a trabajar con los datos.

Analítica

¿POR QUÉ USAR R?

R es una herramienta de uso general, que permite realizar análisis estadístico -gracias a módulos contribuidos por la gran comunidad de científicos y entusiastas en la ciencia de datos- incluso manejo de algoritmos de minería de datos (Data mining).

Sostengo esta afirmación basado en lo siguiente:

  • R tiene una comunidad muy importante de expertos, estadísticos, académicos y profesionales que comparten nuevos modelos, nuevas prácticas y van actualizando constantemente los algoritmos.
  • Corre en los sistemas operativos más importantes: Linux, OSX y Windows.
  • Puede instalarse y correr sin grandes requerimientos de hardware (Obviamente si no vas a trabajar con millones de datos). En tal sentido, el hardware deberá ser superior al de una laptop de escritorio cualquiera.

Si deseas descargar R puedes hacerlo desde aquí. Elige el instalador según el sistema operativo.

BigQuery + R

Preparando la data:

Para poder correr un modelo de minería de datos, antes es básico preparar la data, de hecho es una de las tareas más importantes por hacer. Bajo ello, entonces los pasos serían:

  • Planificar el trabajo a realizar: estructura de datos a partir de algoritmos a ejecutar.
  • Extraer datos (Desde BigQuery de Google a R).
  • Transformar los datos.
  • Crear un modelo (Léase: divertirse con los datos).

Ojo, para el ejemplo de este artículo, previamente se ha etiquetado (taggeado) un sitio web con e-commerce avanzado de Google Analytics, por lo cual tenemos datos de productos, de intentos de compra, compras, etc.

Guía: Cómo llevar a cabo tu estrategia UX
Guía: Cómo llevar a cabo tu estrategia UX

PLANIFICAR EL TRABAJO A REALIZAR: ESTRUCTURA DE DATOS A PARTIR DE ALGORITMOS

Vamos a hacer un análisis de canasta de compras (Market Basket Analysis). Que es básicamente ver si existen productos que se compran en conjunto.

Para esto es necesario, recoger de la data 2 valores: una clave (ID de transacción) y los productos que conforman la transacción.

Entonces, entramos en R

R

EXTRAER DATOS (BIGQUERY + R)

Para ello debemos instalar el paquete BigRQuery ingresando a R o R-Studio y ejecutando la siguiente línea:

install.packages(“bigrquery”)

BigRQuery 1

Ojo, son varias las librerías que se agregan

BigRQuery 2

Luego debemos cargar la librería library (bigquery) ejecutando la siguiente línea:

BigRQuery 3

Con lo cual, ahora tenemos la capacidad de poder leer datos desde BigQuery de Google Analytics.

En R tendrías que ejecutar el siguiente código:

BigRQuery 4

Lo que hace el código es seleccionar los IDs de cada visitante, con los productos que revisó en una visita web con las siguientes condiciones:

  • Productos vistos en determinado rango de fechas.
  • Dispositivo no es mobile.

¿Por qué hacerlo con bigrquery?

Porque de otra manera tendrías que hacer el reporte manualmente y guardarlo en algún lugar accesible para R.

Analítica: Atribución del online al store
Analítica: Atribución del online al store

TRANSFORMAR DATOS

SQLDF es un paquete que permite manejar los datos a través de comandos SQL en R.  Sino lo tienes instalado debes ejecutar la siguiente línea de código:

SQLDF 1

Para cargar la librería ejecutamos la siguiente línea:

SQLDF 2
5

CREAR UN MODELO: REGLAS DE ASOCIACIÓN

Esta es la razón por la cual en WalMart   pusieron alguna vez la cerveza junto a los pañales J.  Creció entre 10% y 15% las ventas de ambos productos cuando se pusieron juntos.

Este query resuelve la consulta: ¿Cuáles de mis productos se compran juntos? En el caso de un e-commerce puede ser: ¿Cuáles de mis productos se ven en conjunto?

R y BigQuery 1

Como resultado verás algo así en la consola de R:

Resultado R

Por ahora, quédate con aquellas piezas que tengan las columnas (support, confidence y lift) con mayor valor.

Una breve explicación de estos parámetros:

  • El porcentaje de las veces que se vieron los productos de la izquierda (lhs) en conjunto sobre el total de las combinaciones
  • El porcentaje de las veces que se vio el producto de la derecha (rhs) en conjunto  sobre el total de combinaciones de la izquierda (lhs)
  • Un valor que va alrededor del 1 que nos indica que tan fiable es la combinación. Si es mayor que 1 entonces quiere decir que los datos forman un conjunto más de lo normal.

Para tener un proceso efectivo de minería de datos, es necesario asignar más tiempo para analizar los resultados de la data que tiempo para los procesos manuales o semi-manuales como los de extracción, importación y exportación y preparación de la data.

Como has podido observar, en 9 líneas de código, 4 de y 5 de ejecución, tienes la data lista para empezar a analizar. Mira el código completo:

R y BigQuery 2

CONCLUSIONES

Como podemos ver, BigQuery + R ofrece una fuerte solución y no es tan complicado de entender si lo hacemos paso por paso. Si todavía tienes problemas para hacerlo, te recomendamos volver a la introducción y releer un poco más, estoy seguro de que podrás.

¿ESTÁS PENSANDO EN TRABAJAR CON R? PONTE EN CONTACTO CON NOSOTROS ¡EN ATTACH TE AYUDAMOS CON TU PROYECTO!

TEMAS: BigQuery, R, Analítica Digital

Guía: Cómo llevar a cabo tu estrategia UX
Guía: Cómo llevar a cabo tu estrategia UX