Data Mining dari Beberapa Database Relasional yang Heterogen Menggunakan Klasifikasi Pohon Keputusan
Klasifikasi memainkan peran penting
dalam pengambilan data dan keperluan untuk membangun kelompok di beberapa
database didorong oleh aplikasi dari berbagai domain. Contoh termasuk data
transaksi keranjang pasar dari berbagai cabang penjualan seluruh Toko, Deteksi
intrusi jaringan dan data molekuler genetik analisis.
Contoh sistem belanja Yahoo (Yin dan
Han, 2005) ditunjukkan dalam gambar 1, dimana Yahoo database berhubungan dengan
dua vendor database. Yahoo belanja mungkin ingin, misalnya, untuk membangun penggolong
untuk memprediksi perilaku pelanggan. Untuk tujuan ini, menjadi sebuah hal
penting untuk melakukan pendekatan klasifikasi
multi database pada semua database.
Untuk melakukan pengambilan data dari
banyak database, cara tradisional adalah dengan mengintegrasikan semua
database, dan kemudian menerapkan algoritma yang memadai (Rahm dan Bernstein,
2001; Castillo et al., 2003). Namun, dataset besar setelah terintegrasi akan
sulit untuk dipantau. Oleh karena itu kita perlu pendekatan fundamental berbeda
untuk pengambilan multi database. Gagasan utama dari pendekatan ini adalah
membuat jembatan di seluruh beberapa database dengan beberapa hubungan yang
berguna, dalam rangka membangun model pengambilan data. Namun, ada dua tantangan
utama untuk pendekatan ini:
·
Menemukan hubungan yang
berguna: kita dapat mendeteksi beberapa hubungan untuk bergabung dengan tabel.
Namun, meski beberapa hubungan dapat memberikan informasi yang besar untuk
melakukan tugas pengambilan data, tetapi yang lain mungkin samar-samar dan terkadang
menghubungkan ke objek yang tidak berhubungan. Dengan demikian, penting
tentunya untuk menemukan teknik yang dapat memperkirakan kegunaan dari hubungan
di tabel, dan kemudian menggunakan hubungan yang paling berguna untuk mencapai
tugas pengambilan data yang lebih baik.
·
Mentransfer informasi dengan
efisien: situs database mungkin jauh dari satu sama lain, karena itu transfer
informasi antara mereka mungkin saja sangat mahal. Dengan demikian, kita harus
mengembangkan strategi dengan biaya komunikasi antar database semurah mungkin.
Saat ini, perluasan jaringan komputer dan keragaman
sumber data memerlukan pendekatan pengambilan data baru dalam sistem multi
database. Kami mengusulkan pendekatan klasifikasi terhadap beberapa database
relasional heterogen. Lebih khusus lagi, diberi satu set database saling
terkait, menggunakan model regresi untuk memprediksi hubungan yang paling
berguna yang akan terhubung untuk membangun sebuah pohon keputusan multi
relasional. Eksperimen dilakukan pada database nyata dan sintetis yang sangat
memuaskan dibandingkan dengan pendekatan klasifikasi sebelumnya dalam beberapa
database.
Tidak ada komentar:
Posting Komentar