Jadi Enterprise Data Engineer (AWS, Cloudera dan Talend)

Halo temen2,
Aku jadi teringat mengenai beberapa bulan lalu sebelum COVID ada ide menelurkan data engineer dari lulusan SMK ataupun non-IT background. Hal ini di dorong agar lapangan pekerjaan dapat terbuka untuk semua kalangan. Pengen jadikan momen data explotion dan AI ini jadi kesempatan buat semua pihak mendapatkan pekerjaan terutama di masa pandemi.
Data Scientist Hype
Kebanyakan orang pasti sangat tertarik mendengar istilah big data, AI dan data scientist. Tidak banyak orang yang mengambil training dengan harapan mendapatkan pekerjaan sebagai data scientist. Hal ini seperti janji surga yang sulit diwujudkan pada kenyataannya. Saya akan jelaskan kenapa demikian.
Kebanyakan perusahaan akan menyeleksi dengan ketat setiap kandidat yang melamar. Seleksi awal adalah seleksi berkas dimana yang dilihat sama HR biasanya lulusan apa, darimana dan pengalaman kerja. Perusahaan biasanya nyaris tidak menggubris lulusan S1 ke bawah untuk posisi data scientist. Rata2 yang saya cermati hire S2 atau S3 dan ada juga yang memiliki spesialisasi.
Tetap saja lulusan STEM yang akan lebih diperhitungkan selama itu setara S2 dan S3. Bahkan jurusan S2 Math dan Physics lebih jitu dibandingkan lulusan informatika atau computer science. Karena emang background mereka ya scienctific dan dah biasa sama namanya research. Kalau gw sih engineering ya "gets the job done and see the result faster" mindsetnya.

Barrier ini yang membuat data scientist wanna be banyak tapi sulit mendapatkan pekerjaan. Wajar saja. Karena emang negara kita sangat mengeluk2kan yang namanya titel atau strata. Jadi jangan berkecil hati kalau anda melamar sebagai data scientist dan tidak dipanggil. Kecuali anda punya kenalan orang dalam tentunya.
Mulai dari Data Analyst atau Engineer
Jadi aku selalu sarankan bahwa ambil aja dulu lowongan data analyst dan data engineering yang level junior baru nanti lanjut sampai S2 dan bidik ke bidang data science. Kalau emang anda gigih pasti bisa sih. Hanya saja jangan ngotot harus sekarang. Ntar frustasi. Harus punya planning dan strategy. Gak cukup dengan doa aja. Harus ada usaha yang terarah dan terukur juga.
Sekarang aku coba kasih learning path gimana caranya dari SMK atau lulusan non-IT jadi junior data engineer tanpa programming. Ini dimungkinkan dengan kemajuan teknologi sekarang ini. Hanya dengan bermodalkan pengetahuan Linux, SQL dan ETL Tools. Tentu saja ini harus tetap serius dipelajari. Dan lagi-lagi tidak ada shortcut selain harus belajar gigih.
Target yang paling gampang masuk dan relatif aman sekarang adalah enterprise, bank, finance, telko dan coorporate lain. Banyak yang membutuhkan big data developer, ETL dan SQL developer. Yang penting cari kerjaan yang aman dan stabil dulu. Ada juga bisa cari pengalaman dengan bergabung dengan perusahaan consulting atau outsourcing.
Ok? Sip. Mari kita mulai.
Belajar Cepat
Linux
Untuk yang satu ini memang harus dipelajari di awal karena semua big data tools kebanyakan jalan di Linux. Jadi usahakan familiar dengan perintah atau command di linux. Karena anda harus bisa minimal membuat directory, edit file, membaca log dan juga melakukan operasi file dan juga membuat script sederhana. Kalau mau belajar bisa dari katacoda.
Tapi saran saya anda harus tetap belajar untuk menggunakan VM di digital ocean atau AWS. Sehingga anda mengetahui bagaimana melakukan remote ssh ke Linux VM di Cloud dan mendapatkan sense yg baik dalam pekerjaan anda nanti sebagai data engineer.
Database, SQL dan Big Data dengan Cloudera

Terlepas dari big data atau tidak, pengetahuan database merupakan fundamental jika anda bekerja dengan data. Anda harus bisa mengetahui apa itu database tabel dan field dan istilah-istilah lain yang ada di relational database. Anda bisa melihat sekilas video yang saya buat untuk memberikan pemahaman mudah mengerti big data.
Dan Ini ada course bagus dari cloudera mengenai sejarah database, big data dan juga pernak-pernik yang ada di Hadoop. Saya merasa video tersebut sangat runut dah mudah dimengerti. Cloudera ini banyak banget digunakan di enterprise Indonesia. Banking, Telco, Finance, Gov dan yang lain. Jadi lebih mudah cari kerjaan klo emang tau ini.
Course yang dikasih cloudera ada 3 dan gratis untuk di audit. Gak ush bayar sama sekali. Kita hanya butuh materi dan latihan nya. Disitu disediakan VM juga yang bisa dipakai. Kalau Laptop kamu gak kuat bisa coba buat VM di AWS free tier, install docker dan manfaatkan image dari cloudera quickstart image. Dah cukup deh rasanya AWS free tier utk EC2. Tinggal install aja.

Seperti biasa bahwa kesulitan belajar Big Data biasanya ada di keterbatasan infra seperti spec laptop yang tidak cukup dan setup yang susah. Hanya dengan beberapa tools di Hadoop dalam paket Cloudera dan SQL kita bisa memanfaatkan kemampuan dari Big Data tersebut. 4 tools tersebut adalah HDFS untuk penyimpanan data, Sqoop untuk memasukkan data ke HDFS, Hive untuk melakukan ETL/ELT dan Impala untuk Interactive Query.
Simple kan?
Yuk ikutin coursenya. Nanti disitu ada dikasih VM dan bisa dijalankan di VMware Player. Anda juga bisa melihat tutorial yang sudah lama saya buat. Masih cukup relevan sekarang.
Tapi jangan puas hanya dengan beberapa tabel dan SQL sederhana saja. Anda juga harus memahami banyak studi kasus mengenai SQL baik DML dan DDL. Tidak hanya di Relational database tapi juga di Big Data Platform. Anda bisa latihan SQL di website sqlbot dan hackerrank.
Beberapa contoh database yang dapat digunakan untuk latihan bisa di akses di web katalog ini. Pastikan anda melatih SQL dan banyak study kasus karena pada kenyataan nanti di enterprise bakalan banyak tabel dan juga query SQL yg kompleks. Jadi pastikan anda siap dengan kenyataan di pekerjaan.
Oh ya selalu coba jalankan di local anda ya. Jangan hanya cobain di browser. Beda ntar feelnya. Dunia kerja pasti anda kerja dengan remote server atau local anda sendiri. Gak di browser. Experiencenya beda.
Saran saya setelah ini anda bisa ikut certification dari cloudera CCA Data Analyst. Ini modalnya hanya apa yang kamu pelajari di atas saja. Ini ujiannya handson dan praktek. Dan jangan sepele karena gak gampang. Kamu harus bisa kerjain task yg disuruh dengan hanya memanfaatkan dokumentasi standard yang diberikan. Jadi gak ada google or stackoverflow.

Karena anda belum punya pengalaman kerja jadi data engineer maka certification akan membantu menaikkan nilai jual anda. Dan tentu saja certificate yg ada di cloudera gak mudah. Jadi bisa jadi kebanggaan juga dan mendongkrak confidence anda.
Talend Open Studio for Big Data
Setelah anda mendapatkan keahlian SQL dan Cloudera. Tinggal belajar ETL/ELT. Tools ETL ini biasanya mempunya UI atau sering dikenal dengan Visual Programming. Jadi tinggal drag and drop. Karena emang kalau data pipeline tetep aja modelnya data flow. Jadi tidak perlu banyak programming. Hanya butuh latihan dan konsep ETL sederhana ditambah dengan SQL.

Untuk ini tidak perlu belajar banyak teori hanya perlu latihan saja. Berikut ada free tutorial.
Begitu juga big data open studio bisa di ikuti di tutorial berikut
Sama seperti yang saya sarankan dengan Cloudera anda bisa mengikuti ujian sertfiikasi untuk Talend integration dan khusus mengenai Big Data.

Kesimpulan
Setelah anda mengikuti langkah di atas dan paham dengan SQL dan ETL, saya akan bersedia untuk membantu anda untuk mencari pekerjaan seputar Data Engineer (Talend/Cloudera). Tentu saja anda akan saya coba mantapkan lagi.
Akan tetapi tetap kuncinya adalah perjuangan yang anda lakukan sendiri. Saya akan bantu mengarahkan saja dan membukakan jalan buat anda semampu saya.
Kalau butuh bantuan bisa bergabung ke group Data Engineering Indonesia. Nanti kita coba arahkan dan bantu.
Tetap Semangat dan Selamat berjuang.
Cheers