Search
  • Welly Tambunan

Training Apache Hadoop dan Spark Gratis dari Microsoft

Hi Teman2,


Seperti yang telah saya sampaikan bahwa saya diminta bantuan oleh microsoft untuk menyampaikan program komunitas terutama untuk Azure. Dengan nama indonesia belajar microsoft cloud



Anda tidak perlu takut jadi lock in dengan materi microsoft azure saja. Anda dapat memilih path yang hanya mengandung konten open source software. Saya akan memberikan beberapa learning path yang baik digunakan dari sisi data engineering dan sedikit motivasi nya.


Di sini saya akan menyajikan dari sudut pandang saya sebagai data engineering. Saya hanya mencari materi yang bisa dicari padanan nya di semua cloud yang ada. Bahkan yang ada di cloudera dan juga open source software dan juga vendor big data lain.


Disini jika anda ingin melihat mana path data engineering ada baiknya langsung bidik certification nya. karena disitu akan disediakan learning objective dan juga module dan learning path yang sesuai.



Jika anda melihat di bagian bawah dari link berikut untuk implementasi data solution. Scroll saja ke bawah.






Masing-masing learning path akan memiliki beberapa modul yang akan diselesaikan. Mari kita bahas satu2 ya.


Distributed System

Bagian ini cukup bagus karena memberikan gambaran bahwa dunia big data atau data engineering tersebut merupakan teknologi backend dan berhubungan dengan distributed system. Spark, Kafka etc. Semua adalah distributed system.


Azure for Data Engineering

Pada bagian ini kita akan diajak mengenal apa itu dunia big data. Service yang lazim ada di cloud. Secara garis besar ya hanya storage dan compute. Storage tergantung struktur data. Bisa tabular atau unstructured.


Disini juga dibahas mengenai HDInsight dimana bagian ini kita akan menggunakan OSS Big Data dari Hadoop Ecosystem. Kita juga belajar mengenai tugas dan tanggung jawab data engineer.


Object Storage

Di sini anda tidak perlu berlama-lama, cukup sekilas karena semua cloud akan menyajikan object storage dan lain2. Tapi lihat bagian theory yang dibutuhkan untuk mencari storage yang tepat


Relational DB

Jangan berlama-lama disini. Sekilas saja melihat bahwa ada pilihan database standard seperti PostgreSQL dari open source. Kuncinya adalah selalu cari pilihan database yang standard dalam hal engine atau wire protocol. Jadi kita bisa pindah dari satu cloud ke tempat lain.


NoSQL

Disini CosmosDB rules them all. Jadi anda bisa memperlakukan nya sebagai document, key value atau juga seperti Cassandra. Jadi anda bisa menggunakan wire protocol yang ada. Hanya saja tetap lihat kebutuhan dari use case dan struktur data anda. Disini ada juga dibahas mengenai partition dan indexing harus dibaca.


ADLS

Ini sama saja seperti S3 atau GCS. Jadi sekilas saja.


Streaming Processing

Cukup ambil konsep yang ada di awal. Ini terlalu spesifik ke teknologi Azure.


Data Warehouse

Ini juga bahas secara singkat. Terlalu spesifik ke azure. Konsepnya saja yang perlu dipahami. Ini ada pandanan di AWS Redshift dan GCP BigQuery.


Apache Hadoop, Hive, Hbase

Kalau yang ini bener2 pilihan open source. So enjoy all the menu


Apache Spark

Nah ini dia yang ditunggu-tunggu. Apache Spark. The popular data engineering tools for distributed data processing. Pahami konsep dan praktekkan. Gunakan labs dengan baik dan coba use case yang anda rasa menarik. Ada juga tambahan menu lain jika anda masih belum kenyang


Yaps. That's all.


Jika tertarik dengan data scientist dan data analyst bisa juga coba learning path berikut


https://docs.microsoft.com/en-us/learn/browse/?roles=data-analyst


https://docs.microsoft.com/en-us/learn/browse/?roles=data-scientist


So, let's do it. Go to the top leaderboard


Cheers









488 views0 comments

Recent Posts

See All