Real-time data processing pipeline – Part 2 – OSC to ActiveMQ

Real-time data processing pipeline – Part 2 – OSC to ActiveMQ

Welcome back to the second part of my series, showcasing a real-time data processing pipeline!
In part 1, I explored visual real-time sensor data simulation, as the entry point into our pipeline.
Now it’s time to find out, how we can get the generated data into Apache ActiveMQ, by transferring it via the OSC protocol.

Apache ActiveMQ™ is the most popular open source, multi-protocol, Java-based messaging server. It supports a variety of Cross Language Clients and Protocols, and therefore makes it an excellent choice for our pipeline.

Get ActiveMQ up and running

I won’t … more

Real-time data processing pipeline – Part 1 – Visual time series data generation

This is the first part of my series to showcase a potential pipeline for real-time data processing. An overview about the different components that I am going to use can be found here.
So let’s get started and find out how real-time sensor data can be simulated, as each pipeline needs to start somewhere.

Introduction

There may be times when you need to generate continuous numeric data that allows you to test your real-time streaming processing pipeline. One common approach is to generate this data by code, which, however, can come with some drawbacks.

  • A
more

Real-time data processing pipeline showcase – Series Overview

With the multitude of existing projects and solutions related to real-time data processing out there, it can be very easy to get lost in all the available options.

That is why I have started this blog series. I want to showcase an example pipeline that covers the topic of real-time data processing, from beginning (data generation) to the end (data presentation).

Generation on the left, data presentation on the right side


Below is an overview of the pipeline that I am going to use.

The example pipeline I am going to use

Here are the links to the related articles.

more

Apache Zeppelin mit PySpark und PostgreSQL benutzen – Teil 1

In dieser kleinen Artikelserie beschreibe ich, wie man Apache Zeppelin mit dem PySpark Interpreter benutzen kann, um eine PostgreSQL Datenbank abzufragen.

Im ersten Teil werde ich das offizielle Docker Image von Apache Zeppelin 0.8.1 um Spark 2.4.0 erweitern. Danach geht es dann weiter mit der Konfiguration des Spark Interpreters um auf PostgreSQL zugreifen zu können. Anschließend werden wir uns mit PgBench eine Datenbank mit Test Daten generieren und zu guter Letzt werden wir diese Daten mit PySpark abfragen

Beginnen wir also mit dem Erweitern des Docker Images. Dazu habe ich folgendes Dockerfile verwendet:

FROM apache/zeppelin:0.8.1

ENV 
more

Timeseries Data Processing – Überlegungen zu Datentypen – Teil 4 – RingBuffer

Nachdem ich schon Datentypen/Klassen wie das Array, die LinkedList und ConcurrentQueue etwas näher beleuchtet habe, komme ich nun zum letzten Typen. Einer speziellen C# Implementierung eines Ring-Puffers.

Wer will kann die Problemstellung, den groben Testaufbau und die Auswirkung der verschiedenen Typen gerne nochmal in Teil 1, 2 und 3 nachverfolgen.

Das beste Ergebnis konnte ich bisher mit der ConcurrentQueue erreichen.
Dabei habe ich mit 10 Millionen Einträge vom Typ double, bei einer Frequenz von 2 Millionen neuen Daten pro Sekunde, getestet. Wie sich aber gezeigt hat, scheint der Garbage Collector doch einen nicht zu vernachlässigenden … more

Scroll to top