google analytic

Nuffnang

Wednesday, April 20, 2011

Data Mining

Besok ada exam DSS. Sungguh gerun.

Aku dan kawan-kawan sudah spot yang soalan mengenai Data Mining akan keluar. Gerun lagi.

Semalam dan pagi ni aku concentrate pasal data mining. Hasil dapatan (secara ringkasnya) ialah:

  • Data mining adalah proses yang dilakukan untuk mendapatkan pengetahuan (knowledge) daripada sejumlah data yang besar (typically from a data warehouse). Pengetahuan ini adalah dalam bentuk "pattern" atau corak khusus untuk prediction atau forecasting. 
  • Kebanyakan organisasi guna data mining ni untuk lebih mengenali customer dorang.

  • Contoh yang paling glemer dalam data mining ialah mengenai gedung serbaguna Wal-Mart. Lepas tengok pattern yang terhasil daripada proses data mining, dorang dapat tahu bahawa produk yang paling banyak terjual pada tengah malam selalunya ialah diapers dan beers. Kemungkinan besar pembeli ialah lelaki berkeluarga (jarang la perempuan mau keluar tengah malam jadi selalunya kena la kaum bapa) beli pampers untuk anak (mungkin pembelian ad-hoc, tiba-tiba ja pampers habis tengah malam) so menyambil la beli beer sekali. Pembelian groceries pula selalu dibuat pada hari sabtu, tapi pembelian beer selalu dibuat pada hari Khamis (mungkin stok untuk hujung minggu). Jadinya, Wal-Mart mengambil langkah untuk menjual beer dan diapers dengan harga penuh pada hari Khamis.

  • Contoh lain pula ialah bank boleh buat customer segmentation dengan menumpukan pada pelanggan yang berpotensi tinggi untuk promosi produk baru berdasarkan spending behavior customer tu. Contohnya, kalau customer tu suka swipe credit card untuk pembayaran di pam minyak, so kemungkinan besar customer tu akan dioffer credit card baru yang ada kerjasama dengan syarikat minyak. Dalam masa yang sama, bank tersebut akan menjimatkan kos promosi kerana tidak perlu membuta tuli untuk menghantar surat atau buat call kepada customer yang tidak berminat untuk mendapatkan produk tersebut.
  • Data mining ni sebenarnya sudah lama ada tetapi baru juga glemer semenjak dua menjak ini (mungkin lebih-lebih adalah dalam 10 tahun gitu?). Ini adalah kerana, kos penstoran data sudah semakin murah dan kebanyakan organisasi mampu untuk mewujudkan storan data yang besar. Time aku belajar dulu (awal-awal Y2K), harga harddisk amatlah mahal untuk saiz yang kecik (mungkin dalam RM300++ for less than 1GB). Tapi sekarang ni, setakat thumbdrive 4GB, tidak sampai RM50. Bila storan data besar, so boleh la simpan data dengan banyak dari zaman dulu-dulu (historical data). Kalau ada data yang banyak, pattern yang dihasilkan akan jadi lebih jelas.
    • Metod data mining boleh dibahagikan kepada class, cluster, association dan sequential pattern. Teknik yang digunakan adalah pelbagai bergantung kepada metod data mining yang dikehendaki. Contoh yang glemer ialah seperti Artificial Neural Network, Genetik Algorithm, Decision Tree dan k-fold.

      • Ada 6 stage penting dalam proses data mining (mengikut metodology yang dibangunkan oleh CRISP-DM) iaitu
      • Business understanding - kena faham dulu data mining tu dibuat untuk siapa, apa problemnya, apa potensi yang ingin dicapai dari opportunity yang dicadangkan. Contohnya, kalau buat data mining untuk kedai serbaguna 24 jam, mungkin antara pattern yang ingin diketahui ialah tabiat pembelian pada tengah malam.
      • Data understanding - Kena tau data datang dari mana, data tu berkualiti atau tidak, data tu jenis macamana, qualitatif atau quantitatif
      • Data preparation (data preprocessing) - kena lalui beberapa proses iaitu data consolidation, data cleansing, data transformation dan data reduction untuk mendapatkan data yang lengkap untuk dianalisa. 
      • Model building - kena pilih dan guna teknik yang sesuai dengan tujuan data mining yang ingin dilakukan. Contohnya kalau mau buat classification boleh guna decision tree.
      • Testing and evaluation - dilaksanakan untuk mengetahui hasil analisa tu bagus atau tidak, adakah mencapai objektif bisnes, adakah isu yang belum dicover, bolehkah hasil analisa tu digunapakai?
      • Deployment - Kalau berpuas hati dengan hasil analisa, boleh la guna pengetahuan yang diperolehi untuk laporan organisasi, DSS atau dilombongkan semula

      Time mula-mula berkecimpung dalam dunia kerjaya IT, dengar Data Mining ja aku sudah gerun, pasal aku tiada ilmu pasal data mining. Lepas ada ilmu sikit ni, aku sudah faham bahawa faktor kritikal kejayaan data mining bukan bergantung kepada kepakaran teknikal dalam database atau analisa sahaja (walaupun itu amat membantu) sebab ada banyak perisian data mining di market yang boleh buat kerja semua tu. Apa yang penting ialah kebolehan atau "insight" dalam memahami business (first step in the process). Kalau salah faham mengenai bisnes, data mining effort tu jadi akan sia-sia.

      No comments:

      Post a Comment

      Feel free to comment

      Related Posts Plugin for WordPress, Blogger...