sering kali kita bingung mencari tahu
sampai dimana penyebaran obat yang yang telah di konsumsi atau yang telah di
distribusi kepada masyarakat oleh dinas terkait, jika menggunakan metode yang
konvesional untuk menentukan sampai di mana proses penyebaran obat atau
pemakaian obat yang di digunakan oleh masyarkat akan membutuhkan waktu yang
lama, oleh sebab itu ada metode yang bisa digunakan untuk menentukan sampai di
mana penyebaran obat atau pemakain obat yang digunakan olah masyarakat metode
itu dinamakan Data Mining.
Pengertian Data Mining menurut para ahli
Data mining (Connolly dan Begg, 2010) adalah
suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya,
namun dapat dipahami dan berguna dari database
yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat
penting.
Data mining (Segall et.all, 2008) biasa
juga disebut dengan “Data atau knowledge
discovery” atau menemukan pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif
yang berbeda dan menyimpulkannya ke dalam informasi yang berguna.Data mining (Han dan Kamber, 2006 : 5) didefinisikan
sebagai proses mengekstrak atau
menambang pengetahuan yang dibutuhkan dari sejumlah data besar.
pada dasarnya proses data mining akan mengekstrak informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu yang lain, seperti Database System, Data Warehousing, Statistik, Machine Learning, Information Retrieval, dan komputasi tingkat tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spartial Data Analysis, Image Database, Signal Processing
Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, " data mining digunakan sebagai petuntuk, dimana Data mining menyajikan intisari atas sejarah, deskripsi sebagai standar petunjuk mengenai masa depan dari sebuah proses data mining"(Mariscal, Marba'n dan Ferna'ndes, 2010)
dari pengertian data mining di atas analisis data mining dapat diguanakan sebagai cara untuk mengetahui sampai dimana pola peneyebaran obat yang terjadi disuatu daerah, dengan mengetahui pola penyebarannya maka dinas terkait dapat mengembil keputusan untuk mencegah atau membatasi penggunaan obat yang terjadi pada masyarakat, terutama obat-obat yang dianggap tidak bagus dikonsumsi terus-menerus oleh masyarakat terutama obat-obat berjenis antibiotik, atau disamping itu juga dinas terkait bisa melakukan kontrol terhadap penggunaan obat yang akan di sebarkan kepada masyarakat.
metode yang digunakan dalam teknik Data mining
metode yang bisa digunakan dalam analisis Data mining yaitu salah satunya bisa menggunakan metode K-Means atau dengan kata lain metode klastering.
Analisis
Cluster
Cluster adalah suatu kumpulan dari entitas yang hampir sama
(Everit, 1993). Pengertian lain menurut Kamber (2007), cluster adalah kumpulan dari objek yang mirip dengan objek lainnya
dan berada pada kelompok yang sama. Sedangkan proses untuk mengelompokkan data
baik itu bersifat fisik atau abstrak kedalam suatu kelompok atau kelas yang
memiliki kesamaan sifat disebut clustering.
Clustering dikategorikan kedalam teknik Undirect Knowledge atau Unsupervised
Learning karena tidak membutuhkan proses pelatihan untuk klasifikasi awal
data dalam masing-masing kelompok atau cluster.
Tujuan utama clustering adalah
untuk menemukan atau mencari pola yang bermanfaat atau berguna pada suatu
database, kemudian merangkumnya dan membuat lebih mudah untuk dipahami.
Dalam melakukan proses analisa terhadap cluster-cluster yang telah terbentuk dan
pencarian pengetahuan dengan metode tertentu disebut cluster analyse (Kamber, 2007).
Analisis klaster
merupakan salah satu teknik multivariat metode interdependensi (saling
ketergantungan). Oleh karena itu, dalam analisis klaster tidak ada pembedaan
antara variabel bebas (independent variable) dan variabel terikat (dependent
variable).
Analisis klaster
adalah teknik yang digunakan untuk menggabungkan observasi ke dalam kelompok
atau klaster (Sharma, 1996:185), sedemikian sehingga:
1) Setiap kelompok atau
klaster homogen mempunyai karateristik tertentu. Hal ini berarti bahwa
observasi dalam setiap kelompok sama dengan observasi lain dalam satu kelompok
yang sama;
2) Setiap kelompok
seharusnya berbeda dari kelompok lain dengan karateristik yang sama. Hal ini
berarti bahwa observasi dalam kelompok yang satu seharusnya berbeda dari
observasi dalam kelompok lain.
Analisis klaster
digunakan untuk mengelompokkan data observasi yang hanya berdasarkan pada
informasi yang ditemukan dalam data, di mana data tersebut harus menggambarkan
observasi dan hubungannya. Oleh karena itu, tujuan dari analisis ini adalah
obsevasi dalam satu kelompok mirip satu sama lain dan berbeda dari observasi
dalam kelompok lain. Semakin besar kemiripan (homogenitas) dalam kelompok dan
semakin besar perbedaan (heterogenitas) antar kelompok maka klastering akan
lebih baik atau lebih berbeda (Tan et al, 2006:490).
Dalam analisis
klaster, pengelompokan observasi ke dalam klaster dilakukan dengan menggunakan
teknik-teknik yang berawal dari kemiripan antar semua pasangan observasi.
Kemiripan ini didasarkan pada beberapa ukuran jarak. Metode lain dalam pengelompokan
dapat menggunakan pilihan awal sebagai pusat klaster atau perbandingan di dalam
dan antar variabilitas klaster. Selain itu, pengelompokan juga dapat
menggunakan variabel klaster yang kemiripannya didasarkan pada matriks korelasi
(Rencher, 2002:451).
Pada prinsipnya analisis klaster merupakan proses
untuk mereduksi sejumlah objek yang besar menjadi lebih sedikit yang disebut
klaster. Analisis klaster digunakan oleh peneliti yang belum mengetahui anggota
dari suatu kelompok. Analisis klaster disebut juga Q-analysis, classification
analysis, pengenalan pola (pattern recognition), analisis segmentasi
(numerical taxonomy).
Tujuan Analisis Klaster
Setelah
mengelompokkan n buah objek pengamatan kedalam m kelompok
berdasarkan p variat dapat diketahui bahwa tujuan utama dari
pengklasteran objek adalah untuk mendapatkan kelompok objek yang memiliki nilai
relatif sama. Sehingga kelak dalam interpretasi, objek-objek yang berada pada
satu klaster memiliki peluang yang cukup tinggi akan muncul bersamaan pada satu
individu.
Konsep Dasar dalam Analisis Klaster
Analisis klaster merupakan suatu kelas teknik, dipergunakan untuk
mengklasifikasi objek atau kasus ke dalam kelompok yang relatif homogen, yang
disebut klaster. Objek dalam setiap kelompok cenderung mirip satu sama lain dan
berbeda jauh (tidak sama) dengan objek dari klaster lainnya (Supranto,
2004:142).
Pengelompokkan dilakukan
berdasarkan kemiripan (similarity) antar objek. Kemiripan diperoleh
dengan meminimalkan jarak antar objek dalam kelompok (within-cluster)
dan memaksimalkan jarak antar kelompok (between-cluster).
Berdasarkan
paparan tersebut, terdapat dua langkah utama dalam analisis klaster yaitu
memilih ukuran kemiripan dan memilih algoritma dalam pembentukan klaster.
Metode K-Means
Metode
K-Means merupakan metode non-hierarki yang bersifat tanpa arahan, hal
ini dikarenakan data yang dianalisis tidak mempunyai label kelas, yang berarti
dalam
proses pengelompokannya tidak mempunyai anggota cluster yang pasti.
Obyek yang sudah masuk ke dalam cluster tertentu masih bisa berpindah ke
cluster yang lain. MacQueen berpendapat (Johnson dan Wichern, 1996:597)
bahwa istilah K-Means untuk mendiskripsikan bahwa algoritma K-Means menandai
setiap obyek masuk ke dalam cluster yang mempunyai pusat cluster (rata-rata)
terdekat. Metode k-means memproses semua obyek secara sekaligus dimana k
merupakan banyaknya kelompok.
Adapun
langkah operasional yang dilakukan adalah sebagai berikut:
Langkah-langkah
analisis cluster metode non-hierarki K-Means :
1.
Menentukan k sebagai jumlah cluster yang ingin dibentuk
2.
Menentukan centroid (titik pusat)
3.
Menghitung jarak setiap data/obyek ke setiap centroid
4.
Menentukan centroid baru
5.
Menghitung jarak setiap data/obyek ke setiap centroid baru
6.
Lakukan langkah (4)-(5) hingga nilai pusat cluster tidak
berubah lagi
dengan metode ini kita dapat mengetahui dengan pasti pola penyebarannya, sebenarnya banyak metode yang bisa digunakan dalam analisis data mining tetapi di sini saya cuma ingin memberikan satu contoh metode yang bisa digunakan dalam analisis data mining.
0 komentar:
Posting Komentar