top of page

Cara Cepat untuk Enterprise membuat Data Lake di AWS



Saya dari dulu selalu berusaha untuk tidak tergantung kepada salah satu cloud provider atau vendor. Sehingga yang saya lakukan adalah mencari solusi open source yang ada di setiap cloud provider dan juga bisa di install on premise.


Akan tetapi semua hal tentunya memiliki trade-off. Managed solution selalu akan memberikan solusi yang mudah dan cepat. Oleh karena itu semua tergantung objective dari perusahaan dan business tersebut.


Belakangan saya membantu ada teman yang ingin membuat data lake akan tetapi hanya memiliki tim yang isinya hanya sendiri yaitu dirinya sendiri. Well, seperti biasa hal tersebut adalah hal yang wajar terjadi di setiap software or digital company. Task selalu lebih banyak daripada human capital yang ada. Jadi jangan takut kalau AI akan menggusur lapangan pekerjaan. Malah sebaliknya.


Saya coba bantu teman saya dengan berusaha memanfaatkan cloud yang telah dia miliki. Terkadang ego open source tidak selamanya harus di turuti. Ada hal lain yang tidak selalu teknikal. Oleh karena itu saya mencoba mengeksplore kemampuan AWS untuk membuat data lake.


Seperti biasa cloud selalu berusaha menyediakan supermarket dimana orang dapat memilih barang-barang yang mereka suka tetapi membebaskan mereka juga berbuat salah jika tidak mengetahui apa kelebihan dan kekurangan. Banyak pilihan banyak membuat orang bingung. Terutama di area big data.




Ya saya beruntung sudah pernah merasakan software open source dan mencicipi banyak tools di big data, jadi sudah tau apa yang harus dipakai menyelesaikan satu masalah. It's comes down to experience. Hanya itu yang bisa saya sharing ke teman-teman. Hanya karena modal lebih tau duluan saja. Haha


Tapi saya tahu bahwa teman saya masih baru saja kecemplung dan tidak sengaja terjerumus ke lembah data. Jadi saya coba cari mie instan dan cepat saji tanpa repot-repot mikir. Pilihan tersebut jatuh ke AWS Lake Formation.


Kenapa? Ya tentu saja karena sudah lengkap dan tidak sulit untuk menggunakan nya. Ya seperti biasa yang paling susah adalah IAM dan segala tetek bengek security. Tapi ya itu emang good practices. Dan tidak selamanya yang dikedepankan adalah kenyamanan tapi juga keamanan.




Udah lengkap dan mencakup data storage, data ingestion, etl, catalog etc. Tinggal pake dan langsung bisa di nikmati. Coba anda baca artikel berikut dan coba jika tertarik lebih dalam.


Jika anda ingin sesuatu yang lebih real-time maka anda dapat memanfaatkan fitur Change Data Capture (CDC) yang ada di AWS Data Migration Service. Cara menggunakan nya juga tidak sulit dapat dibaca di beberapa artikel berikut ini.


https://aws.amazon.com/blogs/database/aws-dms-now-supports-native-cdc-support/


https://aws.amazon.com/blogs/database/load-cdc-data-from-relational-databases-to-amazon-kinesis-using-database-migration-service/


https://aws.amazon.com/blogs/big-data/stream-cdc-into-an-amazon-s3-data-lake-in-parquet-format-with-aws-dms/

Saya rasa ini menjadi kombinasi yang sangat powerful untuk membangun data warehouse atau data lake atau bahkan hanya untuk menguji architecture dan experimen. Cloud memberikan kepada kita options untuk menunda keputusan sehingga semua menjadi lebih jelas seiring berjalan nya waktu.


Anda juga bisa tetap menggunakan pilihan open source sama seperti saya jika hal tersebut memang yang sesuai dengan business objective anda. Dan tentunya ada cukup credit atau duit.


Have fun!


Cheers




8 tampilan0 komentar

Postingan Terakhir

Lihat Semua
Post: Blog2_Post
bottom of page