Hoe maak jij onze klanten blij?
Bol.com wil 10 miljoen Nederlandse en Belgische klanten de best mogelijke winkelervaring bieden. Of een klant nu een schattig cadeau voor een nieuwe vlam zoekt of het volgende maatje luiers voor de kleine – achter elke aankoop schuilt een persoonlijk verhaal. Om de klantervaring continu te verbeteren, werken we met M2 (Measurements 2.0, bekijk deze video ) waarmee we in real-time monitoren hoe klanten en partners met ons platform interacteren.
De grootste uitdaging
Met duizenden klikken per seconde, dient M2 enorm veel interacties te verwerken, waardoor de hoeveelheid streaming data sterk toeneemt (nu: 2TB per dag en de teller loopt op). Soms sneller dan ons team aankan. En meten op een streaming data platform is ‘pas’ de eerste stap, want het gaat er uiteindelijk om dat we daar de juiste inzichten uit destilleren. Oftewel: streaming data gaat bij bol.com een glansrijke toekomst tegemoet. Maar om die data op het juiste moment en in een begrijpelijk format ter beschikking te stellen, dienen zowel de streaming fundamenten als de wijze waarop we data voor stakeholders aggregeren te worden verbeterd.
Wat je doet als Data Engineer Streaming Measurements
In deze rol help je onze teams om die rijke en smakelijke ‘datamaaltijd’ binnen steeds meer processen te consumeren. Vanuit technisch perspectief, ben je als Data Engineer verantwoordelijk voor het bouwen van een schaalbaar streaming platform. Je ontwikkelt en onderhoudt de real-time streaming stack (libraries, services, streaming, processen en documentatie) en borgt dat de juiste data op de juiste (begrijpelijke) manier binnen de teams landt. En ja, we hebben het over ECHTE big data; terabytes per dag, waarbij we altijd scherp zijn op de prestaties van onze data cloud infrastructuur.
De tooling? Je tech stack bestaat uit:
- Data streaming en processing tools, zoals Beam, Dataflow, Flink, Kafka en PySpark
- Data formats als Avro
- Storage tools als Google BigQuery
- Een mix van Java, Kotlin, Python en SQL
- Bovendien staan we open voor experimenteren met alternatieve tools en technologieën die onze doelstellingen dichterbij brengen. Zo onderzoeken we momenteel de mogelijke meerwaarde van Apache Airflow en KafkaStreams.
Los van de techniek, vereist de rol dat je klantinteractie data op de juiste manier presenteert. Ook het adviseren en begeleiden van de teams die onze data gebruiken, is dus in scope. Al onze afnemers hebben behoefte aan data die beslissingsprocessen ondersteunt met relevante inzichten. Omdat dit de dataplatformen zijn die een groot deel van onze data science en machine learning initiatieven (denk aan productaanbevelingen, de zoekfunctie, allerlei experimenten) en onze operationele kernprocessen (zoals advertenties en attributies) voeden, gaat het echt om data die strategische keuzes beïnvloedt. Bovendien zoom je niet alleen in op ‘hardcore’ data, want je dient ook de diverse types, formats, structuren en doelstellingen te begrijpen. Inclusief de doelen van data-gebruikers. Willen ze requirements ophalen, de performance analyseren, enzovoorts?
3 redenen waarom dit (n)iets voor jou is
- Omdat je ervaring hebt met het engineeren van enorme datastructuren en van query tot output kunt komen
- Omdat je begrijpt dat het realiseren van databetrouwbaarheid een enorme uitdaging is in een omgeving waar terabytes in omgaan en tijd een schaars goed is
- Omdat je development skills niet ter discussie staan. Als je Kotlin of Java een beetje moet worden afgestoft, ben je snel weer up-to-date
- Omdat je businessoverwegingen bijzaak vindt; #letthemeatcode
- Omdat je een hekel hebt aan Agile en nooit de meest praktische route naar je doel kiest
- Omdat je drie jaar ervaring hebt, maar ook drie jaar hetzelfde kunstje hebt herhaald (eerlijk gezegd geven we meer om je skills en niveau, dan om de tijd dat je erover hebt gedaan om zover te komen)