Sök utbildning

Big Data Hadoop & Spark Developer – eLearning utbildning

Längd
Egen takt
Pris
4 900 SEK exkl. moms
Nästa kurstillfälle
Börja när du vill, i din egen takt! se detaljer
Utbildningsform
Onlineutbildning
Språk
Engelska
Längd
Egen takt
Pris
4 900 SEK exkl. moms
Nästa kurstillfälle
Börja när du vill, i din egen takt! se detaljer
Utbildningsform
Onlineutbildning
Språk
Engelska
Från 4 900 SEK exkl. moms / person

Kursbeskrivning

Big Data Hadoop and Spark Developer 

eLearning 

Innehåller GRATIS KURS - Apache Kafka och Core Java


Med denna Big Data Hadoop-kurs kommer du att lära dig ramverket för stora data med Hadoop och Spark, inklusive HDFS, YARN och MapReduce. Kursen kommer också att behandla Pig, Hive och Impala för att bearbeta och analysera stora datamängder lagrade i HDFS och använda Sqoop och Flume för datainmatning.

Du kommer att visas databehandling i realtid med Spark, inklusive funktionell programmering i Spark, implementering av Spark-applikationer, förstå parallell bearbetning i Spark och använda Spark RDD-optimeringstekniker. Du kommer också att lära dig de olika interaktiva algoritmerna i Spark och använda Spark SQL för att skapa, omvandla och fråga dataformulär.

Slutligen kommer du att behöva genomföra verkliga, branschbaserade projekt med CloudLab inom domänerna bank, telekommunikation, sociala medier, försäkringar och e-handel.

VAD INGÅR?

  • 74 timmars blandad inlärning
    o  22 timmars e-learning
    eller
    o  52 timmars lärarledd online-utbildning
  • Ett år/ 12 månader tillgång till e-learning plattformen
  • Fyra branschbaserade projekt i slutet av kursen
  • Interaktiv inlärning med integrerade laborationer
  • Läroplanen är anpassad till certifieringsprovet Cloudera CCA175.
  • Utbildning om viktiga verktyg för big data och Hadoop-ekosystemet samt Apache Spark.
  • Särskilda mentorskapssessioner från lärare med branschexperter.
  • Gratis kurs ingår - Apache Kafka
  • Gratis kurs ingår - Core Java
  • Tillgång dygnet runt

Detaljer och kriterier för certifiering:

  • Det är viktigt att du har slutfört minst 85 procent av den självstyrda onlineutbildningen eller deltagit i en live-utbildning.
  • virtuellt klassrum
  • Ett resultat på minst 75 procent i bedömningen i slutet av kursen.
  • Framgångsrik utvärdering i minst ett projekt.

Certification Alignment:

Vår läroplan är anpassad till Cloudera CCA175-certifieringsprovet.

MÅL MED KURSEN Du lär dig:

I slutet av kursen kommer du att kunna förstå:

  • De olika komponenterna i Hadoop-ekosystemet som Hadoop 2.7, Garn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume och Apache Spark
  • Hadoop Distribuerat Filsystem (HDFS) och YARN-arkitektur
  • MapReduce och dess egenskaper och assimilerar avancerade MapReduce-koncept
  • Olika typer av filformat, Avro-schema, med Avro med Hive, och Sqoop och Schema-utveckling
  • Flume, Flume-arkitektur, källor, flush-sänkor, kanaler och flume-konfigurationer
  • HBase, dess arkitektur och datalagring och lär dig skillnaden mellan HBase och RDBMS
  • Resilient distribution datasets (RDD) i detalj
  • Vanliga användningsfall för Spark och olika interaktiva algoritmer

Du kommer också att kunna:

  • Ta in data med Sqoop och Flume
  • Skapa databas och tabeller i Hive och Impala, förstå HBase och använd Hive och Impala för partitionering
  • Få en fungerande kunskap om gris och dess komponenter
  • Gör funktionell programmering i Spark och implementera och bygga Spark-applikationer
  • Få en djupgående förståelse för parallell bearbetning i Spark och Spark RDD-optimeringstekniker
  • Skapa, transformera och fråga dataramar med Spark SQL

Vem det riktar sig till

Karriärmöjligheter för big data ökar och Hadoop blir snabbt en måste-teknologi inom big data-arkitektur. Big Data-utbildning är lämplig för IT-, datahantering- och analytiker, inklusive:

  • Programvaruutvecklare och arkitekter
  • Analytics-proffs
  • Senior IT-proffs
  • Test- och mainframe-proffs
  • Datahanteringspersonal
  • Business intelligence-proffs
  • Projektledare
  • Blivande datavetare
  • Kandidater som vill bygga en karriär inom stor dataanalys

Innehåll

Kursen behandlar följande ämnen:

  • Kursintroduktion
  • Lektion 1 - Introduktion till big data och Hadoop-ekosystem
  • Lektion 2 - HDFS och GARN
  • Lektion 3 - MapReduce and Sqoop
  • Lektion 4 - Grunderna i bikupan och impalaen
  • Lektion 5 - Arbeta med bikupa och impala
  • Lektion 6 - Typer av dataformat
  • Lektion 7 - Avancerat Hive-koncept och datafilpartitionering
  • Lektion 8 - Apache Flume och HBase
  • Lektion 9 - 'Gris'
  • Lektion 10 - Grunderna i Apache Spark
  • Lektion 11 - RDD i Spark
  • Lektion 12 - Implementering av Spark-applikationer
  • Lektion 13 - Spark parallell bearbetning
  • Lektion 14 - Spark RDD-optimeringstekniker
  • Lektion 15 - Sparkalgoritm
  • Lektion 16 - Spark SQL

GRATIS KURS - Apache Kafka

GRATIS KURS - Core Java

Mer detaljerad kursplan:

Lektion 01 - Introduktion till Bigdata och Hadoop

  • Introduktion till Big Data och Hadoop
  • Introduktion till Big Data
  • Analys av stora data
  • Vad är Big Data?
  • Fyra olika typer av Big Data
  • Fallstudie Royal Bank of Scotland
  • Utmaningar med traditionella system
  • Distribuerade system
  • Introduktion till Hadoop
  • Komponenter i Hadoops ekosystem - del ett
  • Komponenterna i Hadoops ekosystem Del två
  • Komponenter i Hadoops ekosystem - del tre
  • Kommersiella Hadoop-distributioner
  • Demo: Genomgång av Simplilearn Cloudlab: Demonstration
  • Viktiga slutsatser
  • Kunskapskontroll

Lektion 02 - Hadoop-arkitekturen distribuerad lagring (HDFS) och YARN

  • Hadoops arkitektur för distribuerad lagring (HDFS) och YARN
  • Vad är HDFS?
  • Behovet av HDFS
  • Vanligt filsystem kontra HDFS
  • Egenskaper hos HDFS
  • HDFS-arkitektur och komponenter
  • Implementering av kluster med hög tillgänglighet
  • HDFS-komponentens namnområde för filsystem
  • Uppdelning av datablock
  • Topologi för datareplikering
  • HDFS-kommandoraden
  • Demo: Vanliga HDFS-kommandon
  • Övningsprojekt: HDFS-kommandoraden
  • Introduktion till Yarn
  • Användningsfall för Yarn
  • Yarn och dess arkitektur
  • Resurshanterare
  • Hur Resource Manager fungerar
  • Applikationshanterare
  • Hur Yarn kör en applikation
  • Verktyg för Yarn-utvecklare
  • Demo: Del ett: Genomgång av Cluster
  • Demo: Del två: Genomgång av Cluster
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn

Lektion 03 - Inmatning av data i Big Data-system och ETL

  • Inmatning av data i Big Data-system och ETL
  • Översikt över datainmatning - del ett
  • Översikt över datainmatning, del två
  • Apache Sqoop
  • Sqoop och dess användningsområden
  • Sqoop-bearbetning
  • Sqoop-importprocessen
  • Sqoop-anslutningar
  • Demo: Import och export av data från MySQL till HDFS
  • Övningsprojekt: Apache Sqoop
  • Apache Flume
  • Flume-modellen
  • Skalbarhet i Flume
  • Komponenter i Flumes arkitektur
  • Konfiguration av Flume-komponenter
  • Demo: Ingest Twitter-data
  • Apache Kafka
  • Aggregering av användaraktivitet med hjälp av Kafka
  • Kafka-datamodell
  • Partitioner
  • Apache Kafkas arkitektur
  • Demo: Konfigurera Kafka Cluster
  • Exempel på API på producentsidan
  • API på konsumentsidan
  • Exempel på API på konsumentsidan
  • Kafka Connect
  • Demo: Skapa exempel på Kafka-datapipeline med hjälp av producent och konsument
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Data Ingestion into Big Data Systems och ETL

Lektion 04 - Distribuerad bearbetning MapReduce ramverk och Pig

  • Ramverket för distribuerad bearbetning av Mapreduce och Pig
  • Distribuerad bearbetning i Mapreduce
  • Exempel på ordräkning
  • Faserna för utförande av kartor
  • Utförande av kartor i en distribuerad miljö med två noder
  • Mapreduce-jobb
  • Hadoop Mapreduce Job Arbetsinteraktion
  • Inställning av miljön för Mapreduce-utveckling
  • Uppsättning av klasser
  • Skapa ett nytt projekt
  • Avancerad Mapreduce
  • Datatyper i Hadoop
  • Utdataformat i Mapreduce
  • Användning av distribuerad cache
  • Sammanfogningar i Mapreduce
  • Replikerad sammanfogning
  • Introduktion till Pig
  • Komponenter i Pig
  • Datamodell för Pig
  • Interaktiva metoder för Pig
  • Pig-verksamheter
  • Olika relationer som utförs av utvecklare
  • Demo: Analysera webbloggdata med hjälp av Mapreduce
  • Demo: Analysera försäljningsdata och lösa Kpis med hjälp av Pig
  • Övningsprojekt: Apache Pig
  • Demo: Wordcount
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Distribuerad behandling - Mapreduce Framework och Pig

Lektion 05 - Apache Hive

  • Apache Hive
  • Hive SQL över Hadoop Mapreduce
  • Hive-arkitektur
  • Gränssnitt för att köra Hive-förfrågningar
  • Kör Beeline från kommandoraden
  • Hive Metastore
  • Hive DDL och DML
  • Skapa en ny tabell
  • Datatyper
  • Validering av data
  • Typer av filformat
  • Serialisering av data
  • Hive-tabeller och Avro-schema
  • Hive-optimering Partitionering Bucketing och provtagning
  • Icke-partitionerad tabell
  • Insättning av data
  • Dynamisk partitionering i Hive
  • Hive-bucketing
  • Vad gör hinkar?
  • Hive Analytics UDF och UDAF
  • Andra funktioner i Hive
  • Demo: Analys i realtid och datafiltrering
  • Demo: Problem i den verkliga världen
  • Demo: Representation och import av data med hjälp av Hive
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Apache Hive

Lektion 06 - NoSQL-databaser HBase

  • NoSQL-databaser HBase
  • Introduktion till NoSQL
  • Demo: Yarn Tuning
  • Översikt över Hbase
  • Hbase-arkitektur
  • Datamodell
  • Anslutning till HBase
  • Praktikprojekt: HBase Shell
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: NoSQL-databaser - HBase

Lektion 07 - Grunderna i funktionell programmering och Scala

  • Grunderna i funktionell programmering och Scala
  • Introduktion till Scala
  • Demo: Installation av Scala
  • Funktionell programmering
  • Programmering med Scala
  • Demo: Grundläggande bokstäver och aritmetisk programmering
  • Demo: Logiska operatörer
  • Typinferensklasser Objekt och funktioner i Scala
  • Demo: Typinferensfunktioner Anonyma funktioner och klasser
  • Samlingar
  • Typer av samlingar
  • Demo: Fem typer av samlingar
  • Demo: Operationer på listor: Demonstration av operationer på listor
  • Scala REPL
  • Demo: Funktioner i Scala REPL
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Apache Hive

Lektion 08 - Apache Spark Nästa generations Big Data Ramverk

  • Apache Spark nästa generations ramverk för stora data
  • Historien om Spark
  • Begränsningar med Mapreduce i Hadoop
  • Introduktion till Apache Spark
  • Komponenter i Spark
  • Tillämpning av bearbetning i minnet
  • Hadoop-ekosystemet kontra Spark
  • Fördelar med Spark
  • Spark-arkitektur
  • Spark-kluster i den verkliga världen
  • Demo: Kör ett Scala-program i Spark Shell
  • Demo: Konfigurera exekveringsmiljö i IDE
  • Demo: Spark Web UI
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Apache Spark Next-Generation Big Data Framework

Lektion 09 - Spark Core Processing RDD

  • Introduktion till Spark RDD
  • RDD i Spark
  • Skapa Spark RDD
  • Para RDD
  • RDD-verksamhet
  • Demo: Spark Transformation Detaljerad utforskning med hjälp av Scala-exempel
  • Demo: Spark Action Detaljerad utforskning med hjälp av Scala
  • Caching och persistens
  • Lagringsnivåer
  • Linjering och DAG
  • Behovet av DAG
  • Felsökning i Spark
  • Partitionering i Spark
  • Schemaläggning i Spark
  • Blandning i Spark
  • Sortera blandning
  • Aggregering av data med parade RDD:er
  • Demo: Spark-applikation med data som skrivs tillbaka till HDFS och Spark UI
  • Demo: Ändring av Spark-applikationsparametrar
  • Demo: Hantering av olika filformat
  • Demo: Spark RDD med verklig tillämpning
  • Demo: Optimering av Spark-jobb
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Spark Core Processing RDD

Lektion 10 - Spark SQL-bearbetning av dataframes

  • Spark SQL-bearbetning av dataframes
  • Introduktion till Spark SQL
  • Spark SQL-arkitektur
  • Dataframes
  • Demo: Hantering av olika dataformat
  • Demo: Implementera olika dataframesoperationer
  • Demo: UDF och UDAF
  • Samarbete med RDD:er
  • Demo: Bearbetning av datarutor med hjälp av SQL-förfrågan
  • RDD vs Dataframe vs Dataset
  • Övningsprojekt: Bearbetning av dataframes
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Spark SQL - Behandling av dataframes

Lektion 11 - Spark MLib Modellering av BigData med Spark

  • Spark Mlib Modellering av stora data med Spark
  • Datavetarnas och dataanalytikernas roll inom Big Data
  • Analyser i Spark
  • Maskininlärning
  • Övervakad inlärning
  • Demo: Klassificering av linjär SVM
  • Demo: Linjär regression med fallstudier från den verkliga världen
  • Oövervakad inlärning
  • Demo: Oövervakad klusterbildning: K-means
  • Förstärkningsinlärning
  • Semi-övervakad inlärning
  • Översikt över Mlib
  • Mlib-pipelines
  • Viktiga slutsatser
  • Kunskapskontroll
  • Övningsprojekt: Spark Mlib - Modellering av stora data med Spark

Förutsättningar

Det finns inga förutsättningar för denna kurs. Det är dock bra att ha viss kunskap om Core Java och SQL. Vi erbjuder en gratis självkörande onlinekurs "Java essentials for Hadoop" om du behöver förstärka dina Core Java-färdigheter.

Kommande kursstarter

1 tillgänglig kursstart

Börja när du vill, i din egen takt!

  • Onlineutbildning
  • Distans
  • Engelska

Intresseanmälan

Beställ information

Fyll i formuläret för att få mer information om Big Data Hadoop & Spark Developer – eLearning utbildning, direkt från arrangören. Det är gratis och inte bindande!

reCAPTCHA logo Den här hemsidan är skyddad av reCAPTCHA och Googles Integritetspolicy och Användarvillkor tillämpas.
Adding Value Consulting AB
Embassy House, Box 24243
Linnégatan 89C
104 51 Stockholm

Adding Value Consulting (AVC) är en ledande ATO (Accredited Training Organization). Vi har introducerat ett stort antal 'Best Practice'-metoder i Skandinavien. Vi är experter inom utbildning och certifiering. Under åren har AVC förvärvat omfattande kunskap om olika ledningsmetoder, relevant praxis...

Läs mer om Adding Value Consulting AB och visa alla utbildningar.

Highlights