Kursbeskrivning
Big Data Hadoop and Spark Developer
eLearning
Innehåller GRATIS KURS - Apache Kafka och Core Java
Med denna Big Data Hadoop-kurs kommer du att lära dig ramverket för stora data med Hadoop och Spark, inklusive HDFS, YARN och MapReduce. Kursen kommer också att behandla Pig, Hive och Impala för att bearbeta och analysera stora datamängder lagrade i HDFS och använda Sqoop och Flume för datainmatning.
Du kommer att visas databehandling i realtid med Spark, inklusive funktionell programmering i Spark, implementering av Spark-applikationer, förstå parallell bearbetning i Spark och använda Spark RDD-optimeringstekniker. Du kommer också att lära dig de olika interaktiva algoritmerna i Spark och använda Spark SQL för att skapa, omvandla och fråga dataformulär.
Slutligen kommer du att behöva genomföra verkliga, branschbaserade projekt med CloudLab inom domänerna bank, telekommunikation, sociala medier, försäkringar och e-handel.
VAD INGÅR?
- 74 timmars blandad inlärning
o 22 timmars e-learning
eller
o 52 timmars lärarledd online-utbildning - Ett år/ 12 månader tillgång till e-learning plattformen
- Fyra branschbaserade projekt i slutet av kursen
- Interaktiv inlärning med integrerade laborationer
- Läroplanen är anpassad till certifieringsprovet Cloudera CCA175.
- Utbildning om viktiga verktyg för big data och Hadoop-ekosystemet samt Apache Spark.
- Särskilda mentorskapssessioner från lärare med branschexperter.
- Gratis kurs ingår - Apache Kafka
- Gratis kurs ingår - Core Java
- Tillgång dygnet runt
Detaljer och kriterier för certifiering:
- Det är viktigt att du har slutfört minst 85 procent av den självstyrda onlineutbildningen eller deltagit i en live-utbildning.
- virtuellt klassrum
- Ett resultat på minst 75 procent i bedömningen i slutet av kursen.
- Framgångsrik utvärdering i minst ett projekt.
Certification Alignment:
Vår läroplan är anpassad till Cloudera CCA175-certifieringsprovet.
MÅL MED KURSEN Du lär dig:
I slutet av kursen kommer du att kunna förstå:
- De olika komponenterna i Hadoop-ekosystemet som Hadoop 2.7, Garn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume och Apache Spark
- Hadoop Distribuerat Filsystem (HDFS) och YARN-arkitektur
- MapReduce och dess egenskaper och assimilerar avancerade MapReduce-koncept
- Olika typer av filformat, Avro-schema, med Avro med Hive, och Sqoop och Schema-utveckling
- Flume, Flume-arkitektur, källor, flush-sänkor, kanaler och flume-konfigurationer
- HBase, dess arkitektur och datalagring och lär dig skillnaden mellan HBase och RDBMS
- Resilient distribution datasets (RDD) i detalj
- Vanliga användningsfall för Spark och olika interaktiva algoritmer
Du kommer också att kunna:
- Ta in data med Sqoop och Flume
- Skapa databas och tabeller i Hive och Impala, förstå HBase och använd Hive och Impala för partitionering
- Få en fungerande kunskap om gris och dess komponenter
- Gör funktionell programmering i Spark och implementera och bygga Spark-applikationer
- Få en djupgående förståelse för parallell bearbetning i Spark och Spark RDD-optimeringstekniker
- Skapa, transformera och fråga dataramar med Spark SQL
Vem det riktar sig till
Karriärmöjligheter för big data ökar och Hadoop blir snabbt en måste-teknologi inom big data-arkitektur. Big Data-utbildning är lämplig för IT-, datahantering- och analytiker, inklusive:
- Programvaruutvecklare och arkitekter
- Analytics-proffs
- Senior IT-proffs
- Test- och mainframe-proffs
- Datahanteringspersonal
- Business intelligence-proffs
- Projektledare
- Blivande datavetare
- Kandidater som vill bygga en karriär inom stor dataanalys
Innehåll
Kursen behandlar följande ämnen:
- Kursintroduktion
- Lektion 1 - Introduktion till big data och Hadoop-ekosystem
- Lektion 2 - HDFS och GARN
- Lektion 3 - MapReduce and Sqoop
- Lektion 4 - Grunderna i bikupan och impalaen
- Lektion 5 - Arbeta med bikupa och impala
- Lektion 6 - Typer av dataformat
- Lektion 7 - Avancerat Hive-koncept och datafilpartitionering
- Lektion 8 - Apache Flume och HBase
- Lektion 9 - 'Gris'
- Lektion 10 - Grunderna i Apache Spark
- Lektion 11 - RDD i Spark
- Lektion 12 - Implementering av Spark-applikationer
- Lektion 13 - Spark parallell bearbetning
- Lektion 14 - Spark RDD-optimeringstekniker
- Lektion 15 - Sparkalgoritm
- Lektion 16 - Spark SQL
GRATIS KURS - Apache Kafka
GRATIS KURS - Core Java
Mer detaljerad kursplan:
Lektion 01 - Introduktion till Bigdata och Hadoop
- Introduktion till Big Data och Hadoop
- Introduktion till Big Data
- Analys av stora data
- Vad är Big Data?
- Fyra olika typer av Big Data
- Fallstudie Royal Bank of Scotland
- Utmaningar med traditionella system
- Distribuerade system
- Introduktion till Hadoop
- Komponenter i Hadoops ekosystem - del ett
- Komponenterna i Hadoops ekosystem Del två
- Komponenter i Hadoops ekosystem - del tre
- Kommersiella Hadoop-distributioner
- Demo: Genomgång av Simplilearn Cloudlab: Demonstration
- Viktiga slutsatser
- Kunskapskontroll
Lektion 02 - Hadoop-arkitekturen distribuerad lagring (HDFS) och YARN
- Hadoops arkitektur för distribuerad lagring (HDFS) och YARN
- Vad är HDFS?
- Behovet av HDFS
- Vanligt filsystem kontra HDFS
- Egenskaper hos HDFS
- HDFS-arkitektur och komponenter
- Implementering av kluster med hög tillgänglighet
- HDFS-komponentens namnområde för filsystem
- Uppdelning av datablock
- Topologi för datareplikering
- HDFS-kommandoraden
- Demo: Vanliga HDFS-kommandon
- Övningsprojekt: HDFS-kommandoraden
- Introduktion till Yarn
- Användningsfall för Yarn
- Yarn och dess arkitektur
- Resurshanterare
- Hur Resource Manager fungerar
- Applikationshanterare
- Hur Yarn kör en applikation
- Verktyg för Yarn-utvecklare
- Demo: Del ett: Genomgång av Cluster
- Demo: Del två: Genomgång av Cluster
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn
Lektion 03 - Inmatning av data i Big Data-system och ETL
- Inmatning av data i Big Data-system och ETL
- Översikt över datainmatning - del ett
- Översikt över datainmatning, del två
- Apache Sqoop
- Sqoop och dess användningsområden
- Sqoop-bearbetning
- Sqoop-importprocessen
- Sqoop-anslutningar
- Demo: Import och export av data från MySQL till HDFS
- Övningsprojekt: Apache Sqoop
- Apache Flume
- Flume-modellen
- Skalbarhet i Flume
- Komponenter i Flumes arkitektur
- Konfiguration av Flume-komponenter
- Demo: Ingest Twitter-data
- Apache Kafka
- Aggregering av användaraktivitet med hjälp av Kafka
- Kafka-datamodell
- Partitioner
- Apache Kafkas arkitektur
- Demo: Konfigurera Kafka Cluster
- Exempel på API på producentsidan
- API på konsumentsidan
- Exempel på API på konsumentsidan
- Kafka Connect
- Demo: Skapa exempel på Kafka-datapipeline med hjälp av producent och konsument
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Data Ingestion into Big Data Systems och ETL
Lektion 04 - Distribuerad bearbetning MapReduce ramverk och Pig
- Ramverket för distribuerad bearbetning av Mapreduce och Pig
- Distribuerad bearbetning i Mapreduce
- Exempel på ordräkning
- Faserna för utförande av kartor
- Utförande av kartor i en distribuerad miljö med två noder
- Mapreduce-jobb
- Hadoop Mapreduce Job Arbetsinteraktion
- Inställning av miljön för Mapreduce-utveckling
- Uppsättning av klasser
- Skapa ett nytt projekt
- Avancerad Mapreduce
- Datatyper i Hadoop
- Utdataformat i Mapreduce
- Användning av distribuerad cache
- Sammanfogningar i Mapreduce
- Replikerad sammanfogning
- Introduktion till Pig
- Komponenter i Pig
- Datamodell för Pig
- Interaktiva metoder för Pig
- Pig-verksamheter
- Olika relationer som utförs av utvecklare
- Demo: Analysera webbloggdata med hjälp av Mapreduce
- Demo: Analysera försäljningsdata och lösa Kpis med hjälp av Pig
- Övningsprojekt: Apache Pig
- Demo: Wordcount
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Distribuerad behandling - Mapreduce Framework och Pig
Lektion 05 - Apache Hive
- Apache Hive
- Hive SQL över Hadoop Mapreduce
- Hive-arkitektur
- Gränssnitt för att köra Hive-förfrågningar
- Kör Beeline från kommandoraden
- Hive Metastore
- Hive DDL och DML
- Skapa en ny tabell
- Datatyper
- Validering av data
- Typer av filformat
- Serialisering av data
- Hive-tabeller och Avro-schema
- Hive-optimering Partitionering Bucketing och provtagning
- Icke-partitionerad tabell
- Insättning av data
- Dynamisk partitionering i Hive
- Hive-bucketing
- Vad gör hinkar?
- Hive Analytics UDF och UDAF
- Andra funktioner i Hive
- Demo: Analys i realtid och datafiltrering
- Demo: Problem i den verkliga världen
- Demo: Representation och import av data med hjälp av Hive
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Apache Hive
Lektion 06 - NoSQL-databaser HBase
- NoSQL-databaser HBase
- Introduktion till NoSQL
- Demo: Yarn Tuning
- Översikt över Hbase
- Hbase-arkitektur
- Datamodell
- Anslutning till HBase
- Praktikprojekt: HBase Shell
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: NoSQL-databaser - HBase
Lektion 07 - Grunderna i funktionell programmering och Scala
- Grunderna i funktionell programmering och Scala
- Introduktion till Scala
- Demo: Installation av Scala
- Funktionell programmering
- Programmering med Scala
- Demo: Grundläggande bokstäver och aritmetisk programmering
- Demo: Logiska operatörer
- Typinferensklasser Objekt och funktioner i Scala
- Demo: Typinferensfunktioner Anonyma funktioner och klasser
- Samlingar
- Typer av samlingar
- Demo: Fem typer av samlingar
- Demo: Operationer på listor: Demonstration av operationer på listor
- Scala REPL
- Demo: Funktioner i Scala REPL
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Apache Hive
Lektion 08 - Apache Spark Nästa generations Big Data Ramverk
- Apache Spark nästa generations ramverk för stora data
- Historien om Spark
- Begränsningar med Mapreduce i Hadoop
- Introduktion till Apache Spark
- Komponenter i Spark
- Tillämpning av bearbetning i minnet
- Hadoop-ekosystemet kontra Spark
- Fördelar med Spark
- Spark-arkitektur
- Spark-kluster i den verkliga världen
- Demo: Kör ett Scala-program i Spark Shell
- Demo: Konfigurera exekveringsmiljö i IDE
- Demo: Spark Web UI
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Apache Spark Next-Generation Big Data Framework
Lektion 09 - Spark Core Processing RDD
- Introduktion till Spark RDD
- RDD i Spark
- Skapa Spark RDD
- Para RDD
- RDD-verksamhet
- Demo: Spark Transformation Detaljerad utforskning med hjälp av Scala-exempel
- Demo: Spark Action Detaljerad utforskning med hjälp av Scala
- Caching och persistens
- Lagringsnivåer
- Linjering och DAG
- Behovet av DAG
- Felsökning i Spark
- Partitionering i Spark
- Schemaläggning i Spark
- Blandning i Spark
- Sortera blandning
- Aggregering av data med parade RDD:er
- Demo: Spark-applikation med data som skrivs tillbaka till HDFS och Spark UI
- Demo: Ändring av Spark-applikationsparametrar
- Demo: Hantering av olika filformat
- Demo: Spark RDD med verklig tillämpning
- Demo: Optimering av Spark-jobb
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Spark Core Processing RDD
Lektion 10 - Spark SQL-bearbetning av dataframes
- Spark SQL-bearbetning av dataframes
- Introduktion till Spark SQL
- Spark SQL-arkitektur
- Dataframes
- Demo: Hantering av olika dataformat
- Demo: Implementera olika dataframesoperationer
- Demo: UDF och UDAF
- Samarbete med RDD:er
- Demo: Bearbetning av datarutor med hjälp av SQL-förfrågan
- RDD vs Dataframe vs Dataset
- Övningsprojekt: Bearbetning av dataframes
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Spark SQL - Behandling av dataframes
Lektion 11 - Spark MLib Modellering av BigData med Spark
- Spark Mlib Modellering av stora data med Spark
- Datavetarnas och dataanalytikernas roll inom Big Data
- Analyser i Spark
- Maskininlärning
- Övervakad inlärning
- Demo: Klassificering av linjär SVM
- Demo: Linjär regression med fallstudier från den verkliga världen
- Oövervakad inlärning
- Demo: Oövervakad klusterbildning: K-means
- Förstärkningsinlärning
- Semi-övervakad inlärning
- Översikt över Mlib
- Mlib-pipelines
- Viktiga slutsatser
- Kunskapskontroll
- Övningsprojekt: Spark Mlib - Modellering av stora data med Spark
Förutsättningar
Det finns inga förutsättningar för denna kurs. Det är dock bra att ha viss kunskap om Core Java och SQL. Vi erbjuder en gratis självkörande onlinekurs "Java essentials for Hadoop" om du behöver förstärka dina Core Java-färdigheter.
Kommande kursstarter
Intresseanmälan
Adding Value Consulting (AVC) är en ledande ATO (Accredited Training Organization). Vi har introducerat ett stort antal 'Best Practice'-metoder i Skandinavien. Vi är experter inom utbildning och certifiering. Under åren har AVC förvärvat omfattande kunskap om olika ledningsmetoder, relevant praxis...
Läs mer om Adding Value Consulting AB och visa alla utbildningar.