Data Extraction Dalam Data Engineering – Data extraction merupakan proses integrasi data dimana sistem (atau data engineer) melakukan pengambilan data dari satu atau lebih sumber, pembersihan dan penyeragaman data dan kemudian melakukan proses penyimpanan ke dalam sistem data warehouse.

Data Extraction Dalam Data Engineering
Data Extraction Dalam Data Engineering

Data Extraction Dalam Data Engineering

ETL

Metode yang umum dilakukan dalam proses data extraction adalah ETL. ETL sendiri merupakan kepanjangan dari Extract, Transform, Load. Dari namanya kita sudah dapat menduga akan ada 3 proses yang dilakukan yaitu proses extract, transform dan load.

Extract

Proses pertama yang dilakukan adalah proses extract dimana data dari database sumber diambil. Data bisa dari satu source (sumber) dapat juga dari beberapa sumber. Jenis datanya pun beragam dapat berupa relational database, text file maupun non relational database.

Transform

Proses kedua adalah proses transform. Dalam proses ini data yang sudah diambil kemudian diseragamkan. Proses ini melibatkan sejumlah kriteria / filter yang telah ditentukan oleh data engineer sebelum proses dijalankan agar data yang akan di load seragam.

Load

Proses terakhir adalah load dimana data yang telah di ekstrak dan di transform kemudian disimpan ke dalam sistem data warehouse. Proses load umumnya dilakukan dengan dua cara:

  • Full load
    Full load dilakukan saat awal impelementasi ETL dimana semua data di load ke dalam sistem.
  • Incremental load
    Incremental load dilakukan setelah full load dimana data secara periodik di load ke dalam sistem. Incremental load bisa dilakukan secara harian, mingguan atau bulanan tergantung dari intensitas data yang terbentuk di sistem sumber dan kebutuhan untuk analisa.

ELT?

Metode lain yang digunakan data engineer dalam proses data extraction adalah ELT. Apa bedanya dengan ETL? Jawaban singkatnya adalah urutan prosesnya. Jika di ETL kita melakukan Extract, Transform baru kemudian Load pada ELT prosesnya diubah menjadi Extract, Load baru Transform.

ETL vs ELT

Mana yang lebih baik? ETL atau ELT? Jawabanya relatif. Tapi saya sendiri lebih suka proses ETL dari pada ELT alasanya:

  • Menghindari data sampah
    Data yang masuk data warehouse sudah bersih, tinggal pakai.
  • Lebih hemat storage
    Lebih sedikit data sampah berarti lebih sedikit penyimpanan yang terpakai.

Semoga bermanfaat. 🙂

Image source:
microsoft.com

Tags:

Leave a Reply

All fields marked with an asterisk (*) are required