Construyendo un canal de procesamiento de big data — Capítulo 3.

En el artículo anterior nos centramos en empezar con Apache Kafka. Ahora nos centraremos en Apache Flink: la tecnología principal de la que disponemos. Configuraremos un clúster de Flink y aprenderemos a crear y enviar una aplicación. También veremos rápidamente algunas herramientas de Scala y Scala necesarias para crear esta aplicación de forma adecuada.

Recuerde que la canalización tiene el siguiente aspecto:

‍

Un poco de arquitectura Flink

De manera similar a lo que ocurrió con Kafka, la arquitectura de Flink debe explicarse en detalle. Dado que el propósito de esta guía es mostrar una configuración fácil y rápida para empezar a usar Flink, solo mencionaremos el gestor de tareas y los gestores de tareas.

El administrador de trabajos es el proceso responsable de coordinar la ejecución de las solicitudes. En particular, las aplicaciones distribuidas. Programa los trabajos, media el acceso a los recursos, reacciona ante eventos críticos (como la falla de un nodo), etc.

Los administradores de tareas son responsables de las operaciones reales con los datos. Tienen ranuras, que son los anfitriones para el procesamiento real.

Hay mucho más en Flink. No esperamos más que una comprensión intuitiva de su arquitectura. Flink tiene una documentación excelente sobre su arquitectura, ¡y es una lectura recomendada! ¡Compruébalo aquí.

‍

Configuración de un clúster de Flink local

Vale la pena mencionar que Flink 1.15.0 se ejecuta en Scala 2.12. Podemos configurar la versión que usa nuestra aplicación con SBT, en caso de que hayamos instalado una versión diferente de Scala.

Antes de ponernos manos a la obra con Flink, tenemos que poner en marcha un clúster. La primera tarea es instalar Flink. Al igual que Kafka, Flink se puede descargar desde Sitio de descargas de Apache Flink.

La carpeta fuente de Flink tiene dos subcarpetas que vale la pena señalar: basura y conf. Ambos contienen la misma información que tenían sobre Kafka. Hay una carpeta más que vale la pena mencionar: registro. Cuando se lanza el Flink Cluster, esta carpeta se rellena. Los registros se escriben allí cuando se lanza o termina el clúster, así como cuando se ejecutan los trabajos.

Para lanzar el Flink Cluster, abre una nueva pestaña de terminal en la carpeta fuente de Flink y ejecuta:

no-line-numbers|bash./bin/start-cluster.sh

‍

El clúster debe estar en funcionamiento y listo para recibir trabajos para ejecutarse. Podemos comprobar que está funcionando accediendo a la interfaz de usuario web de Flink que se ejecuta en localhost:8081.
‍

‍

Es hora de crear una aplicación Flink sencilla que se ejecute como un trabajo. La idea es consumir los discos de Kafka con los que publicamos nuestro tema kafkiano. Por último, escribiremos el valor de dichos registros en una tabla de Cassandra.

‍

Creación de una aplicación Scala con Flink

Para empezar fácilmente con Scala, recomendamos instalar SBT. SBT es el gestor de paquetes preferido de la comunidad de Scala. SBT se puede instalar fácilmente a través de Homebrew en Mac, Chocolatey en Windows o rpm en Linux. Descubra más detalles aquí.

SBT ofrece algunos proyectos de plantillas para empezar a usar Scala. Para crear la forma más sencilla, abre una pestaña de terminal en el directorio en el que quieres crear el proyecto. Luego ejecuta:

no-line-numbers|bashsbt new scala/hello-world.g8

‍

Se te pedirá que pongas un nombre a tu proyecto. Después de eso, ¡estás listo para comenzar! Ve al directorio raíz de tu proyecto (el que tiene un archivo build.sbt) e intenta ejecutar:
‍

no-line-numbers|dark|textsbt run

‍

Ahora el proyecto se está compilando y ejecutando. Pronto verás:
‍

¿Quién dijo que empezar con Scala era difícil?

‍

Configuración SBT

Antes de pasar a la sintaxis específica de sbt, hay un detalle que debemos tener en cuenta. Flink nos permite enviar archivos.JAR. La mayoría de las veces, necesitamos añadir dependencias que no sean nativas de Flink (por ejemplo, conectores). Esta información debe estar dentro del Jar. Un Jar que contiene todas sus dependencias se conoce como tarro de grasa o tarro de Uber. Con el fin de construir un tarro de grasa, necesitamos un complemento específico: el complemento sbt-assembly. SBT-Assembly funciona como el sombreado de dependencias de Maven.

Según el documentación del complemento sbt un enfoque válido para instalar complementos dentro de un proyecto es crear un archivo plugins.sbt. Este archivo debe estar ubicado en el directorio /project del directorio raíz del proyecto. El único complemento que necesitamos por ahora es el complemento de ensamblaje. Por lo tanto, nuestro plugins.sbt debería tener este aspecto:

agrega SBTPlugin («com.eed3si9n»% «sbt-assembly»% «1.2.0»);

Como se mencionó anteriormente, Flink requiere Scala 2.12.x para ejecutarse. Toda la configuración de Scala a nivel de proyecto se realizará en el archivo build.sbt.

Cada entrada de este archivo se denomina establecer expresión. Cada expresión de configuración consta de una clave, un operador y un valor. La expresión de configuración más común es la expresión de dependencia. Veamos cómo se ven:

‍

no-line-numbers|bashlibraryDependencies += “org.apache.flink” % “flink-core” % “1.15.0”

‍

Esta línea añade la biblioteca base de Flink a nuestro proyecto. Verifique que coincida con la definición que acabamos de crear: Dependencias de la biblioteca es una clave. += es un operador y «org.apache.flink»% «flink-core»% «1.15.0» es un valor. Estas tres últimas cadenas son los artefactos de Maven, GroupID, ArtifactID y version.

Con esta breve introducción, veamos el código que necesitamos en nuestro archivo build.sbt para empezar:

‍

no-line-numbers|scalascalaVersion := “2.12.15”name := “FlinkApp”organization := “MontevideoLabs”version := “1.0”libraryDependencies += “org.scala-lang.modules” %% “scala-parser-combinators” % “2.1.1”;libraryDependencies += “org.apache.flink” % “flink-core” % “1.15.0”libraryDependencies += “org.apache.flink” %% “flink-streaming-scala” % “1.15.0”;libraryDependencies += “org.apache.flink” % “flink-connector-kafka” % “1.15.0”;libraryDependencies += “org.apache.flink” %% “flink-connector-cassandra” % “1.15.0”;libraryDependencies += “org.apache.flink” % “flink-clients” % “1.15.0”;assemblyMergeStrategy in assembly := {case PathList(“META-INF”, xs @ _*) => MergeStrategy.discardcase x => MergeStrategy.first}

‍

Este código es bastante sencillo. En primer lugar, especificamos la versión de Scala. Recuerde que necesitamos Scala 2.12.x para ejecutar Flink. El segundo fragmento son los metadatos del archivo jar. El tercer bloque son las dependencias que necesitamos. El cuarto fragmento resuelve los conflictos introducidos por el complemento de ensamblaje.

Puede encontrar más información sobre SBT en el documentación oficial.

‍

La aplicación Scala

El siguiente fragmento de código es el código más básico (prácticamente sin procesamiento de datos real) para transferir eventos de un tema de Kafka a una tabla de Cassandra. En este contexto, hundir datos es otra palabra (bastante sofisticada) para referirse a enviar datos de un sistema a otro.

Este código debe estar en el directorio /src/main/scala. Hemos llamado al archivo Main.scala, pero puedes elegir cualquier nombre diferente siempre que el archivo y el nombre del objeto Scala sean los mismos. Asegúrese de que su objeto de Scala amplíe la característica App.

no-line-numbers|scalaimport org.apache.flink.api.common.eventtime.WatermarkStrategyimport org.apache.flink.api.common.functions.FlatMapFunctionimport org.apache.flink.connector.kafka.source.KafkaSourceimport org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializerimport org.apache.flink.streaming.api.CheckpointingModeimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.streaming.connectors.cassandra.CassandraSinkimport org.apache.flink.streaming.util.serialization.SimpleStringSchemaimport org.apache.flink.util.Collectorimport org.apache.flink.streaming.api.scala._object Main extends App{ //Environment init. Checkpointing configuration. val env = StreamExecutionEnvironment.getExecutionEnvironment env.enableCheckpointing(60000, CheckpointingMode.EXACTLY_ONCE) env.getCheckpointConfig.setMaxConcurrentCheckpoints(1) //Building KafkaSource. val source : KafkaSource[String] = KafkaSource.builder() .setBootstrapServers(“localhost:9092”) .setTopics(“flink-input”) .setGroupId(“group1”) .setStartingOffsets(OffsetsInitializer.earliest()) .setValueOnlyDeserializer(new SimpleStringSchema()) .build() //CassandraSink only works with Tuples or POJOs. In Scala, it only works for Tuples. val tuples = env.fromSource(source, WatermarkStrategy.noWatermarks(), “KafkaSource”) .flatMap( new FlatMapFunction[String,Tuple1[String]]{ override def flatMap(t: String, collector: Collector[Tuple1[String]]): Unit = collector.collect(Tuple1[String](t)) } ) //actual sinking CassandraSink.addSink(tuples) .setHost(“127.0.0.1”) .setQuery(“INSERT INTO cassandraKafkaSink.messages (payload) values (?);”) .build() .name(“flinkTestSink”) //executing Flink job env.execute(“Flink test”)}

‍

Están pasando muchas cosas aquí. Vamos a desglosarlo un poco.

El principal es un Objeto Scala. Los objetos son similares a las clases de Java, pero solo tienen una instancia. Este es el mecanismo nativo de Scala para implementar el patrón Singleton.
Para este esfuerzo, un Rasgo de Scala funciona igual que una interfaz Java.
En Scala 2, extender el rasgo App significa lo mismo que implementar el método principal en Java.
En este ejemplo se supone que hay un servidor Cassandra local que se ejecuta en el puerto 9042 del host local. Más adelante veremos una forma muy sencilla de lograrlo.
El tema fuente de Kafka se llama flink-input.
El valor de los eventos de Kafka es un objeto de cadena simple. Es posible deserializar diferentes formatos de entrada, pero por motivos de simplicidad elegimos enviar una cadena.

‍

Solución de problemas

Depurar las aplicaciones de Flink puede resultar complicado. El siguiente es un consejo personal para los usuarios de sistemas operativos tipo Unix. Para comprobar rápidamente los registros de trabajos más recientes de Flink, cambie el directorio al directorio fuente de Flink y ejecute:

‍

no-line-numbers|bashtail log/flink-*-taskexecutor-*.out

‍

Esto generará los registros más recientes de su TaskExecutor.

A pesar de que la aplicación Flink está completa, la aplicación en sí misma no es suficiente para probarla. Todavía necesitamos algún tipo de instancia de Cassandra en ejecución para almacenar valores. La siguiente entrada de esta serie de artículos abordará este tema.

‍

Antes de continuar, ¿puede pensar en una implementación similar de esta canalización utilizando alguna otra tecnología para el procesamiento de flujos de datos? ¿Qué ventajas y desventajas ofrecería? Te dejaremos una idea para que comiences:

Transmisión de Apache Spark

Código fuente: La aplicación Flink se encuentra dentro de código fuente repositorio.

¿Te perdiste alguno de nuestros artículos anteriores sobre este oleoducto? Échales un vistazo aquí:

‍

Recuerde que la canalización tiene el siguiente aspecto:

‍

Un poco de arquitectura Flink

Los administradores de tareas son responsables de las operaciones reales con los datos. Tienen ranuras, que son los anfitriones para el procesamiento real.

‍

Configuración de un clúster de Flink local

Vale la pena mencionar que Flink 1.15.0 se ejecuta en Scala 2.12. Podemos configurar la versión que usa nuestra aplicación con SBT, en caso de que hayamos instalado una versión diferente de Scala.

Para lanzar el Flink Cluster, abre una nueva pestaña de terminal en la carpeta fuente de Flink y ejecuta:

no-line-numbers|bash./bin/start-cluster.sh

‍

‍

Creación de una aplicación Scala con Flink

no-line-numbers|bashsbt new scala/hello-world.g8

‍

Se te pedirá que pongas un nombre a tu proyecto. Después de eso, ¡estás listo para comenzar! Ve al directorio raíz de tu proyecto (el que tiene un archivo build.sbt) e intenta ejecutar:
‍

no-line-numbers|dark|textsbt run

‍

Ahora el proyecto se está compilando y ejecutando. Pronto verás:
‍

¿Quién dijo que empezar con Scala era difícil?

‍

Configuración SBT

agrega SBTPlugin («com.eed3si9n»% «sbt-assembly»% «1.2.0»);

Como se mencionó anteriormente, Flink requiere Scala 2.12.x para ejecutarse. Toda la configuración de Scala a nivel de proyecto se realizará en el archivo build.sbt.

‍

no-line-numbers|bashlibraryDependencies += “org.apache.flink” % “flink-core” % “1.15.0”

‍

Con esta breve introducción, veamos el código que necesitamos en nuestro archivo build.sbt para empezar:

‍

Puede encontrar más información sobre SBT en el documentación oficial.

‍

La aplicación Scala

‍

Están pasando muchas cosas aquí. Vamos a desglosarlo un poco.

El principal es un Objeto Scala. Los objetos son similares a las clases de Java, pero solo tienen una instancia. Este es el mecanismo nativo de Scala para implementar el patrón Singleton.
Para este esfuerzo, un Rasgo de Scala funciona igual que una interfaz Java.
En Scala 2, extender el rasgo App significa lo mismo que implementar el método principal en Java.
En este ejemplo se supone que hay un servidor Cassandra local que se ejecuta en el puerto 9042 del host local. Más adelante veremos una forma muy sencilla de lograrlo.
El tema fuente de Kafka se llama flink-input.
El valor de los eventos de Kafka es un objeto de cadena simple. Es posible deserializar diferentes formatos de entrada, pero por motivos de simplicidad elegimos enviar una cadena.

‍

Solución de problemas

‍

no-line-numbers|bashtail log/flink-*-taskexecutor-*.out

‍

Esto generará los registros más recientes de su TaskExecutor.

‍

Transmisión de Apache Spark

Código fuente: La aplicación Flink se encuentra dentro de código fuente repositorio.

¿Te perdiste alguno de nuestros artículos anteriores sobre este oleoducto? Échales un vistazo aquí:

‍

¡Gracias! El archivo comenzará a descargarse en breve

¡Uy! Algo salió mal al enviar el formulario.

Creación de una canalización de procesamiento de big data — Capítulo 3

Un poco de arquitectura Flink

Configuración de un clúster de Flink local

Creación de una aplicación Scala con Flink

Configuración SBT

La aplicación Scala

Solución de problemas

Descarga tu¡reserve hoy mismo!

Un poco de arquitectura Flink

Configuración de un clúster de Flink local

Creación de una aplicación Scala con Flink

Configuración SBT

La aplicación Scala

Solución de problemas

Artículos relacionados

Artículos relacionados

AI Transformation Challenge

AI Transformation Challenge

Descarga tu
¡reserve hoy mismo!