Senin, 19 Maret 2018


Data Mining dari Beberapa Database Relasional yang Heterogen Menggunakan Klasifikasi Pohon Keputusan

Klasifikasi memainkan peran penting dalam pengambilan data dan keperluan untuk membangun kelompok di beberapa database didorong oleh aplikasi dari berbagai domain. Contoh termasuk data transaksi keranjang pasar dari berbagai cabang penjualan seluruh Toko, Deteksi intrusi jaringan dan data molekuler genetik analisis.
Contoh sistem belanja Yahoo (Yin dan Han, 2005) ditunjukkan dalam gambar 1, dimana Yahoo database berhubungan dengan dua vendor database. Yahoo belanja mungkin ingin, misalnya, untuk membangun penggolong untuk memprediksi perilaku pelanggan. Untuk tujuan ini, menjadi sebuah hal penting  untuk melakukan pendekatan klasifikasi multi database pada semua database.
Untuk melakukan pengambilan data dari banyak database, cara tradisional adalah dengan mengintegrasikan semua database, dan kemudian menerapkan algoritma yang memadai (Rahm dan Bernstein, 2001; Castillo et al., 2003). Namun, dataset besar setelah terintegrasi akan sulit untuk dipantau. Oleh karena itu kita perlu pendekatan fundamental berbeda untuk pengambilan multi database. Gagasan utama dari pendekatan ini adalah membuat jembatan di seluruh beberapa database dengan beberapa hubungan yang berguna, dalam rangka membangun model pengambilan data. Namun, ada dua tantangan utama untuk pendekatan ini:
·        Menemukan hubungan yang berguna: kita dapat mendeteksi beberapa hubungan untuk bergabung dengan tabel. Namun, meski beberapa hubungan dapat memberikan informasi yang besar untuk melakukan tugas pengambilan data, tetapi yang lain mungkin samar-samar dan terkadang menghubungkan ke objek yang tidak berhubungan. Dengan demikian, penting tentunya untuk menemukan teknik yang dapat memperkirakan kegunaan dari hubungan di tabel, dan kemudian menggunakan hubungan yang paling berguna untuk mencapai tugas pengambilan data yang lebih baik.
·        Mentransfer informasi dengan efisien: situs database mungkin jauh dari satu sama lain, karena itu transfer informasi antara mereka mungkin saja sangat mahal. Dengan demikian, kita harus mengembangkan strategi dengan biaya komunikasi antar database semurah mungkin.


Saat ini, perluasan jaringan komputer dan keragaman sumber data memerlukan pendekatan pengambilan data baru dalam sistem multi database. Kami mengusulkan pendekatan klasifikasi terhadap beberapa database relasional heterogen. Lebih khusus lagi, diberi satu set database saling terkait, menggunakan model regresi untuk memprediksi hubungan yang paling berguna yang akan terhubung untuk membangun sebuah pohon keputusan multi relasional. Eksperimen dilakukan pada database nyata dan sintetis yang sangat memuaskan dibandingkan dengan pendekatan klasifikasi sebelumnya dalam beberapa database.

Tidak ada komentar:

Posting Komentar