Storage Blog..

a peaceful place to turn knowledge into power. All about storage technology, best practices, ideas.. you name it.

data deduplication

Ditulis oleh Iwan Sulistyawan di/pada Oktober 6, 2007

Perlu nggak sih deduplication??…
data di industri telekomunikasi besarnya luar biasa. beberapa tahun lalu saat beli disk sekian terabyte rasanya sudah melimpah ruah. Dalam 5 tahun saja existing storage sudah lebih dari tiga ratusan terabyte. Pergerakannya bisa 2 kali lipat setiap tahunnya. Kalau dihitung beberapa tahun kedepan hitungan petabyte sudah didepan mata.

Gilanya, dari sisi aplikasi kalau diminta house keeping susahnya minta ampun. Seakan tidak concern dengan cost yang dikeluarkan oleh perusahaan untuk data-data garbage & lawas yang seharusnya tidak berada di server lagi. Selain cost untuk online storage, cost untuk backupnya juga perlu diperhitungkan. Dari jumlah cartridge yang harus disiapkan, LAN/SAN infrastructure, jumlah tape drive untuk cover data existing sampai tape librarynya. Kalau management di perusahaan yang datanya gila-gilaan ini nggak aware, bisa kecolongan operasionalnya nanti.

Ini ada satu video menarik yang diposting di youtube tentang kebutuhan storage yang membengkak akibat distribusi data via email. Hanya dari satu email ber-attachment foto bayi dengan high resolution, di forward kemana-mana sampai di cerita ini 1 file ini butuh storage 1 TB. GILA!!!..

Lupakan iklannya dell di belakang cerita ini. pls notice kalimat-kalimat bahayanya..
Storage admin : “I replicate our email system in every 15 minutes.. almost a hundred times a day.”
Backup engineer : “I backup everything… every day..”
Auditor : “our corporate governance requires the data be held for 25 years..”

Huwahhh.. kebayang deh kebutuhan backup/replicate data untuk data-data garbage semacam ini bakalan butuh disk, tape drive, cartridge yang costnya luar biasa besar..

Salah satu solusi cost cutting yang bisa diterapkan adalah deduplication. data deduplication bekerja dengan membuang redundant data dan menggantinya dengan unique pointer dari data yang sudah disimpan sebelumnya. Deduplication ini paling pas kalau disandingkan dengan backup. Backup data merupakan kegiatan rutin yang repetitive sehingga sangat besar data yang dibackup berulang kali. Meskipun backup memiliki kemampuan untuk melakukan incremental backup, tetapi hanya di file system level. data deduplication ini bisa lebih dalam sampai ke block level.

Vendor

Berikut ini pemain-pemain dedup di lapangan. Tidak semua ada representativenya di indonesia yang saya tahu. Tapi boleh laah untuk referensi.

Data Domain Inc. merupakan vendor data deduplication paling lama dan paling banyak install basenya. Appliancenya bisa digunakan untuk VTL atau NAS. Maximum speed dengan produk ini untuk setiap individual stream hanya 110 MBps. menurut informasinya tahun depan mereka akan mengeluarkan produk yang support cluster antar appliancenya sehingga bisa meningkatkan performancenya.

Diligent Technologies Corp. menawarkan produk deduplicationnya bernama ProtecTier VTL yang juga dijual bersama HDS. HDS dan Dilligent Technology Corp. bekerja sama dalam penjualan VTL product yang dibundle menggunakan HDS array. protectier menggunakan FC disk sebagai media penyimpanan index datanya. Cara ini diklaim membuat performance lebih cepat tapi mengakibatkan costnya lebih mahal. speednya bisa sampai 400MBps.

Avamar, didirikan tahun 1999 tapi sudah dibeli oleh EMC crop. tahun 2006 yang lalu. avamar merupakan backup software yang melakukan data deduplication di sisi server menggunakan agent yang diinstall di sisi server. Cara ini juga mereduksi jumlah data yang di transfer ke backup media. Akan tetapi karena avamar merupakan backup software maka untuk menggunakan produk ini perlu mereplace backup software yang sudah digunakan. Duh!!..

ExaGrid Systems Inc. merupakan NAS backup appliance yang melakukan data deduplication secara post processing setelah data selesai di backup dan tersimpan di storage.

FalconStor Software Corp. juga menggunakan post processing pada proses deduplication di produk IpStor dan VTLnya. produk ini telah di OEM oleh IBM dan SUN Microsystem meskipun tidak semua featurenya mau dimanfaatkan oleh IBM dan SUN sampai saat ini.

Quantum Corp. yang telah di akuisisi oleh ADIC (Advanced Digital Information Corp.) tahun 2006 lalu mengeluarkan produk DXi sebagai VTL appliance yang memiliki feature deduplication. Produk ini di klaim bisa melakukan backup hingga 800Gb per jam.

Network Appliance Inc. (NetApp) mengumumkan Nearstore R200 & FAS storage system yang mampu melakukan block level data deduplication pada bulan mei 2007 ini. Akan tetapi NetApp belum menambahkan feature dedup ini di produk VTL mereka karena issue performance.

Sepaton Inc. memasukkan option data deduplication di produk VTL mereka, S2100-ES2, menggunakan software tambahan yang di sebut DeltaStor. S2100-ES2 ini diklaim memiliki rasio dedup 25:1 dan speednya bisa 30x lebih cepat daripada menulis ke single tape drive.

Symantec Corp. menambahkan feature baru pada veritas Netbackupnya yang disebut-sebut dengan nama Veritas Netbackup PureDisk. Seperti Avamar, proses deduplication dilakukan disisi source.

Ada yang menarik dari penggunaaan feature deduplication pada proses backup. pada saat inisial full backup, seluruh data di simpan dalam media server. Backup berikutnya, baik incremental maupun full backup, hanya deltanya saja yang dibackup. Sehingga meskipun dilakukan backup menggunakan policy full backup setiap hari, data yang disimpan ke media layaknya incremental backup. pada saat restore, proses restore diambil dari policy full backup. lebih simple dan cepat. :)

by the way, dari banyak pilihan tersebut pastinya ada kekurangan dan kelebihan satu sama lain. Pilih yang mana yaa??..
:)

2 Tanggapan ke “data deduplication”

  1. M.S.Aribowo berkata

    Wah…bukan main ya perkembangannya, kalau utk de-duplication khan sdh ada software EMC-AVAMAR?, mungkin tertarik.

    Atau bisa juga di-baca2, tengok2, lihat2 dahulu ttg email-extender and/or disk-extender sbg File systems archiving, ech sopo ngiro iso urun rembug rame2 bantu2 ide utk share….lha wong jenenge’ Blog, rhak ya tho ??

  2. @Aribowo : sudah pernah dapet sekilas info ttg avamar sih dari EMC waktu ada acara di bandung. Tapi Avamar mereplace backup software yang ada. Nggak worthed lah.. kecuali kalau avamar bisa integrated dengan veritas netbackup.
    VTLnya EMC kabarnya akan support dedupication tahun 2008 seperti sepaton, dilligent dan falconstor. Bener nggak yaa??

Tinggalkan Balasan

XHTML: Anda dapat gunakan tag ini: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <pre> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>