Data Extraction Dalam Data Engineering – Data extraction merupakan proses integrasi data dimana sistem (atau data engineer) melakukan pengambilan data dari satu atau lebih sumber, pembersihan dan penyeragaman data dan kemudian melakukan proses penyimpanan ke dalam sistem data warehouse.

Data Extraction Dalam Data Engineering
ETL
Metode yang umum dilakukan dalam proses data extraction adalah ETL. ETL sendiri merupakan kepanjangan dari Extract, Transform, Load. Dari namanya kita sudah dapat menduga akan ada 3 proses yang dilakukan yaitu proses extract, transform dan load.
Extract
Proses pertama yang dilakukan adalah proses extract dimana data dari database sumber diambil. Data bisa dari satu source (sumber) dapat juga dari beberapa sumber. Jenis datanya pun beragam dapat berupa relational database, text file maupun non relational database.
Transform
Proses kedua adalah proses transform. Dalam proses ini data yang sudah diambil kemudian diseragamkan. Proses ini melibatkan sejumlah kriteria / filter yang telah ditentukan oleh data engineer sebelum proses dijalankan agar data yang akan di load seragam.
Load
Proses terakhir adalah load dimana data yang telah di ekstrak dan di transform kemudian disimpan ke dalam sistem data warehouse. Proses load umumnya dilakukan dengan dua cara:
- Full load
Full load dilakukan saat awal impelementasi ETL dimana semua data di load ke dalam sistem. - Incremental load
Incremental load dilakukan setelah full load dimana data secara periodik di load ke dalam sistem. Incremental load bisa dilakukan secara harian, mingguan atau bulanan tergantung dari intensitas data yang terbentuk di sistem sumber dan kebutuhan untuk analisa.
ELT?
Metode lain yang digunakan data engineer dalam proses data extraction adalah ELT. Apa bedanya dengan ETL? Jawaban singkatnya adalah urutan prosesnya. Jika di ETL kita melakukan Extract, Transform baru kemudian Load pada ELT prosesnya diubah menjadi Extract, Load baru Transform.
ETL vs ELT
Mana yang lebih baik? ETL atau ELT? Jawabanya relatif. Tapi saya sendiri lebih suka proses ETL dari pada ELT alasanya:
- Menghindari data sampah
Data yang masuk data warehouse sudah bersih, tinggal pakai. - Lebih hemat storage
Lebih sedikit data sampah berarti lebih sedikit penyimpanan yang terpakai.
Semoga bermanfaat. 🙂
Image source:
microsoft.com