Optimalisasi Centroid K-Means Menggunakan Principal Component Analysis dan Analytic Hierarchy Process untuk Pengelompokan Data Pendaftar Penelitian Diktis

Perkembangan Pendidikan dan Dunia Akademik di Indonesia semakin berkembang dengan pesat. Beberapa capaian dan terobosan telah dilakukan pemerintah untuk dapat mengangkat dan memajukan nama sebuah institusi pencetak dan pembentuk karakter anak bangsa ini selalu ditingkatkan. Segala upaya pendorong kebijakan dalam rangka mewujudkan iklim akademis selalu unggul menjadi perhatian tersendiri bagi pemerintah pusat. Beberapa terobosan yang dilakukan adalah dengan meningkatkan kualitas Sumber Daya Manusia (SDM) yang bersinggungan langsung dengan akademisi yaitu Tri Dharma Perguruan Tinggi.

Berdasarkan Undang-undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional menyebutkan bahwa perguruan tinggi berkewajiban menyelenggarakan pendidikan, penelitian, dan pengabdian kepada masyarakat (Pasal 20 Ayat 2). Salah satu yang menjadi perhatian dikalangan akademisi baik Dosen, Mahsiswa maupun Pihak Lembaga adalah Penelitian. Ketiga faktor tersebut memiliki hubungan yang sangat erat, dikarenakan penelitian harus menjunjung tinggi kedua dharma yang lain (Lubis, 2014). Penelitian diperlukan untuk mengembangkan ilmu pengetahuan dan penerapan teknologi.

Direktorat Pendidikan Tinggi Islam (Diktis) Kementerian Agama (Kemenag) Republik Indonesia setiap tahunnya selalu mengupayakan hibah penelitian yang dianggarkan dari Negara. Postur anggaran fungsi pendidikan 2016 sebesar Rp. 424,8 Triliun dengan rincian untuk penelitian Diktis mencapai Rp. 46,2 Triliun atau 11,31% (wikidpr.org). Besarnya alokasi anggaran pada Tahun 2016 memberikan dorongan bagi Perguruan Tinggi dibawah Kemenag untuk melakukan Penelitian. Grafik jumlah peminat penelitian semakin meningkat untuk setiap tahunnya, Tahun 2016 memiliki total 1.786 pendaftar yang terdiri dari 32 jenis penelitian yang diikuti oleh Perguruan Tinggi Negeri dan Swasta dibawah Kemenag (diktis.kemenag.go.id).

Dari jumlah yang telah tercatat dalam Database panitia penyeleksi dana hibah penelitian diktis 2016, terdapat 11 perguruan tinggi yang menyandang sebagai nama Universitas Islam Negeri (UIN) dengan total mencapai 545 pendaftar atau sekitar 30% dari total keseluruhan. Fields yang menjadi patokan dalam pendaftaran ini terdiri atas Nomor Registrasi, Nama, Karya Tulis, Lembaga, Status dan Tanggal Daftar. Keenam atribut data tersebut dapat dilakukan pengolahan matriks untuk mengetahui pola pengelompokan pendaftar tahun ini. Secara garis besar pola tersebut dapat digunakan untuk pengetahuan terkait formasi berdasarkan atribut yang telah ditetapkan, persaiangan antar kelompok maupun satu kelompok serta perguruan tinggi yang menjadi kesamaan jenis dan cluster yang diminati dengan catatan sebelum pelaksanaan proses penilaian.

Dalam teknologi Data Mining, pengelompokan atau clustering merupakan proses untuk menyelesaikan permasalahan komputasi yang dapat diterapkan pada data yang beragam. Algoritma KMeans merupakan contoh teknik clustering pada data mining yang memiliki kelebihan yaitu proses cluster bisa dilakukan dengan cepat  karena memiliki beban komputasi relatif lebih ringan (Patel dan Ruppa, 2011) dan mudah untuk dimplementasikan (Pratama, 2015). Algoritma KMeans banyak digunakan dalam berbagai penglompokan seperti, pengelompokan lahan hijau di Provinsi Riau (Mustakim, 2012), identifikasi wilayah gempa (Pebria, 2011) dan deteksi pencilan data titik api (Baehaki, 2014). Masalah yang sering terjadi pada saat menggunakan algoritma k-means adalah pemberian nilai centroid awal cluster yang memiliki nilai sensitifitas tinggi terhadap hasil cluster akhir. Hasil cluster akhir dapat berbeda jika menggunkan nilai centroid awal cluster yang berbeda (Mustakim, 2012).

Kelemahan pada K-Means menjadi polemik tersendiri dalam proses pengelompokan. Pada penelitian sebelumnya, hybrid algoritma hierarchial clustering dan  KMeans diterapkan untuk menentukan nilai centroid awal cluster. Hasilnya adalah kombinasi algoritma hierarchical clustering dan algoritma KMeans lebih baik dalam pengujian dibanding dengan algoritma KMeans (Alfina, 2012). Demikian juga riset sebelumnya yang dilakukan oleh Agus Jariadi, memanfaatkan nilai eigen Principal Component Analysis (PCA) sebagai penentu nilai awal centriod. PCA K-Means memiliki kelompok yang lebih dekat dan terbaik dibandingkan dengan K-Means (Jariadi, 2016). Jika ditelaah lebih mendalam hubungan antara metode clustering dengan metode dimentional reduction seperti PCA memiliki hubungan yang sangat erat dalam proses Data Mining dengan data beragam (Ding et al, 2012). PCA merupakan salah satu fitur reduksi variabel yang banyak digunakan dalam multivariate statistic. Tujuan dari PCA adalah mereduksi variabel yang banyak menjadi lebih sedikit tanpa menghilangkan informasi (Abbas, 2012). PCA memiliki eigenvalue untuk mencari nilai matrik eigenvektor. Hal ini perlu dicermati bahwa matriks covarian serta matriks eigenvektor sebagai bagian dari proses PCA yang dapat digunakan sebagai nilai centroid awal pada algoritma K-Means.

Terlepas dari permasalahan diatas, pada sebuah kasus yang melibatkan seorang pakar dalam menentukan sebuah pilihan diperlukan beberapa teknik perbandingan. Komponen yang didasarkan dari beberapa atribut sangat memungkinkan seseorang melakukan pilihan dengan model yang kompleks. Teknik yang diperkenalkan Thomas Saaty pada Tahun 1970 yaitu metode perbandingan berpasangan yang dikenal dengan istilah Analytic Hierarchy Process (AHP) telah banyak diterapkan untuk kasus yang kompleks. AHP mampu memberikan sebuah keputusan yang direpresentasikan dalam bentuk nilai eigen atau eigen value (Saaty, 2008). Model ini selalu berkembang tidak hanya menjadi metode pengambil keputusan tetapi juga dapat sebagai pembobotan. Pada sebuah riset terkait pemilihan lokasi pengembangan energi terbarukan di Riau, eigen value pada AHP menjadi nilai bobot pada metode Multi-Attribute Decision Making (MADM) yang lain (Mustakim, 2015). Hasilnya menyatakan bahwa akurasi yang dihasilkan dari pembobotan tesebut sangat tinggi dibandingkan dengan teknik pembobotan secara langsung (Mustakim et al, 2015). Matrik eigen AHP yang terdiri dari penilaian beberapa pakar terkait administrasi pada atribut penilitian akan diujicobakan sebagai nilai centroid awal pada metode K-Means. Hal ini dilakukan karena sifat dari AHP adalah metode parwaise comparison yang bersifat fleksibel terhadap teknik yang lain (Kusumadewi, 2006).

Oleh karena itu, pada riset ini akan dilakukan perbandingan clustering algoritma K-Means yang didasarkan dari pemberian nilai centroid PCA K-Means dan AHP K-Means. Hasil analisis akan memperhitungkan kedekatan antar anggota pada satu kelompok dari kedua hybrid metode diatas secara optimal. Selain itu, sensitifitas dari PCA K-Means dan AHP K-Means terbaik menjadi tolak ukur untuk analisis lebih jauh terkait kasus pengelompokan data pendaftaran penelitian Diktis 2016. Demikian juga dari hasil riset memiliki motivasi untuk pengetahuan pola formasi, persaingan serta kesamaan jenis dan cluster Perguruan Tinggi peminat dalam penelitian diktis tesebut.

Kesimpulan:

Dari hasil dan analisis yang telah dilakukan dan sesuai dengan tujuan pada penelitian ini, maka dapat disimpulkan sebagai berikut:

Antara K-Means, Principal Component Analisys (PCA) K-Means dan Analytic Hierarchy Process (AHP) K-Means dengan kasus pengelompokan penelitian diktis yang terdiri dari 544 dataset dan 6 atribut dapat disimpulkan bahwa PCA K-Means merupakan hybrid metode terbaik yang ditunjukkan dengan Davis-Bouldin Index (DBI) terkecil (1,9509), Silhouette Index (SI) mendekati 1 (0,5257) serta nilai Dunn Index (DI) tertinggi (0,7290). Oleh karena itu, PCA K-Means merupakan algoritma yang optimal untuk kasus diatas. Hal ini memungkinkan jika masih pada kasus yang sama semakin besar dataset yang digunakan, maka semakin baik validitas cluster yang diperoleh.

Penerapan hybrid metode terbaik PCA K-Means memperoleh 4 rule sesuai dengan aturan asosiasi algoritma apriori dengan nilai support terbaik mencapai 78%. UIN Suska Riau menempati kelompok terbaik pada cluster ke 4 dengan persentase 53,98% yang artinya pada kelompok tersebut diharapkan untuk mempersiapkan persaingan yang lebih ketat. 2 UIN lain yang menjadi pesaing dikelompok ini adalah UIN Syarif Hidayatullah Jakarta dan UIN Sunan Kalijaga dengan jenis cluster penelitian PKM, PSKNI dan PMC. Sehingga tahun 2017 dapat disimpulkan sementara untuk dapat menghindari 3 jenis cluster tersebut dan untuk dapat mempelajari pola riset yang dikerjakan/ dilakukan oleh peneliti kedua UIN diatas.

Dengan menggunakan data yang lebih besar dari 5.000 record, PCA K-Means juga memiliki nilai validitas terbaik dibandingkan dengan AHP K-Means maupun K-Means. Dengan demikian PCA K-Means dengan model data yang diterapkan untuk kasus pengelompokan penelitian diktis seberapapun jumlah record datanya maka PCA K-Means yang terbaik.

Sumber Gambar:

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *