Welche Technologie-Skills braucht ein Data Engineer?
Während „Data Scientist“ in der Vergangenheit bereits als „The Sexiest Job of the 21st Century“ (1) tituliert wurde, ist die Rolle des Data Engineers häufig eher im Verborgenen.
Dabei ist die tatsächliche Nachfrage nach Data Engineers sogar messbar höher als nach Data Scientists, was sich unter anderem auch in höheren Durchschnittsgehältern widerspiegelt (2).
PROCON Data Insights hat die Projektsituation im Bereich Data Engineering ausgewertet und die relevantesten Programmiersprachen, Cloud Provider und Technologien identifiziert.
Top 5 Programmiersprachen für Data Engineers
Wie auch bei den Data Scientists (siehe letzter Beitrag) ist Python die mit Abstand wichtigste Programmiersprache im Bereich Data Engineering und wird in 55% der Projekte explizit nachgefragt.
Bei den weiteren relevanten Programmiersprachen zeigen sich jedoch Unterschiede zwischen den beiden Feldern: während Java und Scala zumindest in etwa jedem zehnten Data-Engineering-Projekt nachgefragt werden, spielt R, im Gegensatz zur Data Science, für Data Engineers nur eine untergeordnete Rolle.
Top 3 Cloud Provider für Data Engineers
Bei den Cloud Providern liefern sich erneut Azure und AWS ein Kopf-an-Kopf-Rennen mit Anteilen von 33% bzw. 32%, während die Google Cloud Platform (GCP) mit 9% auch im Data Engineering das Nachsehen hat.
Insgesamt unterstreichen diese Zahlen aber die enorme Bedeutung des Cloud Computings im Data Engineering (alle drei großen Cloud Provider werden nach unseren Daten etwa doppelt so häufig nachgefragt wie bei Data Science-Projekten) und zeigen, dass Cloud Computing-Kenntnisse für Data Engineers inzwischen unabdingbar geworden sind.
Top 5 Technologien für Data Engineers
Bei den weiteren Technologien dominiert erwartungsgemäß SQL, welches mit 53% in mehr als der Hälfte der Projekte gefordert wird. Mindestens ebenso relevant wie im Bereich Data Science ist für Data Engineers Distributed Computing mithilfe von Technologien wie Apache Spark, Apache Hadoop und Databricks.
Zudem von Bedeutung sind Kenntnisse im Bereich Containierisierung mit Technologien wie Kubernetes und Docker (nicht abgebildet, Platz 6), die beide in ca. 10% der ausgeschriebenen Projekte angefragt werden.
Unser Fazit
Zusammenfassend zeigt sich auf Basis dieser Zahlen eine große Schnittmenge zwischen den Technologieanforderungen in den Bereichen Data Science und Data Engineering, insbesondere hinsichtlich Python, Distributed Computing und den Marktanteilen der drei wichtigsten Cloud Provider. Gleichzeitig sind Kenntnisse in den Bereichen Cloud Computing, Containerisierung und SQL für Data Engineers noch einmal von größerer Bedeutung als für Data Scientists.
(1) https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century