OFI.com
El E-commerce para las empresas

Amazon Athena

Ejecutar R en Amazon Athena

Un paso a paso a realizar

A menudo, los científicos de datos se preocupan por manejar la infraestructura que se esconde detrás de las grandes plataformas de datos mientras ejecutan SLQ o R. Amazon Athena es un servicio de búsqueda interactiva que funciona directamente con los datos almacenados en S3 y facilita el análisis de datos usando SLQ estándar y sin necesidad de administrar la infraestructura. La integración R con Amazon Athena proporciona una poderosa plataforma para que los científicos de datos construyan soluciones analíticas e interactivas.

En este blog, conectarás R/RStudio ejecutándose en una instancia de Amazon EC2 con Athena.

Prerrequisitos

Antes de comenzar, complete los siguientes pasos

    1. Haz que el administrador de tu cuenta AWS le dé los permisos necesarios a tu cuenta AWS para acceder a Athena mediante la consola de administración de identidades y accesos de Amazon (IAM). Eso puede llevarse a cabo al adjuntar las políticas asociadas de Athena a tu grupo de usuarios de científicos de datos en IAM.

Amazon2. Proporciona un directorio provisional en la forma de un contenedor de Amazon S3. Athena lo usará  para realizar una búsqueda de datos y resultados almacenados. En las instrucciones que siguen, llamaremos a este contenedor de etapas s3: // athenauser-athena-r.

NOTA: En este blog, estoy creando todos los recursos de AWS en la región Este de Estados Unidos. Utiliza la Tabla de Regiones para revisar la disponibilidad de Athena en otras áreas.

 

Configurar R y RStudio en EC2 

  1. Para configurar R en una instancia de EC2 (t2.medium or greater), ejecutando Amazon Linux, sigue las instrucciones que se encuentran en el blog “Ejecutar R en AWS”. Antes de empezar, lee el siguiente paso.
  2. En ese blog, publicado en “Detalles Avanzados”, al llegar al paso 3, usa el siguiente bash script para instalar la última versión de RStudio. Modifica la contraseña según sea necesario.

RStudio

Instalar Java 8 

  1. SSH en esta instancia EC2.
  2. Elimina las versiones anteriores de Java
  3. Instala Java 8. Es necesario para trabajar con Java.
  4. Ejecuta los siguientes comandos en la línea de comando.

java

Configurar Renviron

Necesitas configurar la variable de entorno R.Renviron con las credenciales requeridas por Athena.

  1. Obtén las credenciales requeridas de tu administrador AWS en la forma de AWS_ACCESS_KEY_ID and AWS_SECRET_ACCESS_KEY.
  2. Ingresa el siguiente comando en el comando de entrada Linux y abre el editor vi.

Renviron      3. Guarda este archivo y cierra el editor. 

Iniciar sesión en RStudio

A continuación, iniciarás sesión en RStudio en tu instancia EC2 .

  1. Obtén la dirección pública IP de tu instancia en el panel de control de EC2 y pégala en la ventana de tu navegador, seguida :8787 (número de puerto de RStudio).
  2. Confirma que tu dirección IP ha sido incluida en las listas seguras para el acceso de entrada al puerto 8787 como parte de la configuración para el grupo de seguridad asociado con tu instancia EC2.
  3. Inicia sesión en RStudio con el usuario y la contraseña que proporcionaste anteriormente.

Instala paquetes R

A continuación, instalarás y cargarás los paquetes R que sean necesarios.

amazon

Conéctate con Athena

Los siguientes pasos en R descargan el controlador Athena y configuran la conexión requerida. Usa la URL JDBC asociada a tu región.

 

Athena

Ahora, estás listo para comenzar a consultar Athena desde RStudio. 

Conclusión

Has aprendido cómo construir una aplicación simple e interactiva con Athena y R. Athena puede utilizarse para almacenar y consultar datos subyacentes de tus aplicaciones de macrodatos usando SLQ estándar; por su parte, R puede usarse para consultar Athena interactivamente y para generar conocimiento analítico hacienda uso del poderoso conjunto de bibliotecas que R proporciona.

 

Leave A Reply

Your email address will not be published.