Data berkualitas merupakan fondasi penting dalam pengambilan keputusan, terutama bagi sektor strategis seperti koperasi dan usaha mikro, kecil, dan menengah (UMKM). Di Indonesia, UMKM memiliki peran besar dalam perekonomian nasional, sehingga ketersediaan data yang akurat, lengkap, dan dapat dipercaya menjadi kebutuhan mendesak. Tanpa data yang baik, kebijakan pemerintah berisiko tidak tepat sasaran, baik dalam pemberian bantuan, pembinaan, akses pembiayaan, maupun pengembangan pasar.

Pada tahun 2022, Kementerian Koperasi dan UKM melaksanakan program pendataan lengkap koperasi dan UMKM. Program ini bertujuan membangun data tunggal koperasi dan UMKM yang dapat digunakan sebagai dasar perumusan kebijakan. Pendataan dilakukan terhadap lebih dari 9 juta pelaku usaha di 240 kabupaten/kota yang tersebar di 34 provinsi. Proses ini melibatkan lebih dari 1.000 enumerator dan mencakup 237 atribut data yang dikelompokkan ke dalam 15 blok informasi, seperti identitas pelaku usaha, lokasi usaha, karakteristik usaha, izin usaha, tenaga kerja, proses produksi, kemitraan, hingga aspek keuangan.

Namun, besarnya skala pendataan menimbulkan tantangan serius terhadap kualitas data. Perbedaan kondisi geografis, keterbatasan infrastruktur internet, variasi kemampuan enumerator, kompleksitas formulir, serta target jumlah data yang harus dipenuhi dapat meningkatkan risiko kesalahan. Kesalahan tersebut dapat berupa data kosong, nilai yang tidak sesuai format, ketidaksesuaian antaratribut, hingga informasi yang tidak realistis.

Untuk mengatasi masalah tersebut, penelitian yang dilakukan oleh Sadikin dan rekan-rekan mengembangkan kerangka kerja komprehensif untuk menjamin kualitas data koperasi dan UMKM. Kerangka ini mencakup empat fungsi utama, yaitu pencegahan, antisipasi, deteksi, dan koreksi data bermasalah. Pendekatan ini tidak hanya dilakukan setelah data terkumpul, tetapi diterapkan sejak tahap persiapan, pelaksanaan, hingga pengumpulan akhir.

Pada tahap persiapan, sistem aplikasi pendataan dilengkapi dengan fitur wajib isi dan batasan nilai untuk atribut tertentu. Misalnya, nomor induk kependudukan harus berupa angka dengan jumlah digit tertentu, nomor telepon harus mengikuti format angka, dan kode pos harus sesuai dengan aturan yang berlaku. Selain itu, pelatihan bagi enumerator dan verifikator juga dilakukan untuk mengurangi risiko kesalahan manusia.

Pada tahap pelaksanaan, data diperiksa melalui dua tingkat verifikasi. Verifikasi pertama dilakukan oleh koordinator enumerator, sedangkan verifikasi kedua dilakukan oleh petugas di tingkat kabupaten atau kota. Sistem pembayaran berbasis data yang telah terverifikasi juga diterapkan sebagai mekanisme untuk mendorong kualitas pendataan.

Setelah data terkumpul, proses deteksi kesalahan dilakukan menggunakan query SQL, teknik statistik, pemeriksaan berbasis aturan, serta verifikasi oleh pakar. Hasilnya menunjukkan bahwa terdapat sekitar 6.850.000 atribut yang mengandung nilai kosong. Atribut dengan jumlah nilai kosong terbesar antara lain metode pemasaran, nomor telepon, dan jumlah karyawan. Selain itu, ditemukan 4.082.630 data yang tidak memenuhi aturan integritas antaratribut. Contohnya, terdapat data usaha perorangan dengan modal lebih dari Rp1 miliar, atau data usaha berbadan hukum dengan omzet tahunan yang tidak sesuai dengan batas kewajaran.

Salah satu aspek menarik dari penelitian ini adalah penerapan machine learning dan deep learning untuk membantu koreksi data. Penelitian ini menguji model deep learning berbasis CNN-RNN untuk menghasilkan deskripsi otomatis dari foto aktivitas UMKM. Foto aktivitas usaha digunakan untuk memperkirakan informasi seperti kategori bisnis, jenis produk, atau layanan yang ditawarkan. Model ini menggunakan Xception sebagai ekstraktor fitur gambar, kemudian mengombinasikannya dengan RNN/LSTM untuk menghasilkan deskripsi teks.

Eksperimen dilakukan pada tiga kategori UMKM, yaitu kuliner, fashion, dan produk kreatif. Setiap kategori menggunakan 300 gambar yang diberi label deskripsi secara manual. Hasil pengujian menunjukkan bahwa model memperoleh rata-rata skor BLEU sebesar 0,3990. Secara kategori, skor rata-rata terbaik dicapai pada produk kreatif sebesar 0,5086, disusul fashion sebesar 0,4868, dan kuliner sebesar 0,3149. Meskipun belum sempurna, hasil ini menunjukkan bahwa deep learning berpotensi digunakan untuk membantu imputasi data yang hilang, khususnya data yang berkaitan dengan deskripsi foto usaha.

Meski demikian, penelitian ini juga memiliki keterbatasan. Deteksi kesalahan data masih banyak dilakukan melalui query manual dan belum sepenuhnya berbasis antarmuka pengguna yang mudah digunakan. Selain itu, model deep learning yang digunakan masih bergantung pada kosakata yang terdapat dalam data pelatihan, sehingga belum mampu memprediksi kata-kata di luar kosakata tersebut. Peneliti menyarankan penggunaan teknik representasi teks yang lebih baik, seperti word embedding, serta pemanfaatan dataset yang lebih besar untuk meningkatkan akurasi model.

Secara keseluruhan, kerangka kerja ini menunjukkan bahwa penjaminan kualitas data UMKM membutuhkan pendekatan menyeluruh, bukan hanya pembersihan data setelah dikumpulkan. Pencegahan sejak awal, verifikasi bertahap, deteksi berbasis aturan, koreksi oleh pakar, serta pemanfaatan kecerdasan buatan dapat saling melengkapi. Dengan data yang lebih bersih dan akurat, pemerintah dapat merancang kebijakan UMKM yang lebih tepat sasaran, transparan, dan berdampak nyata bagi pelaku usaha.

 

Referensi Penelitian

  1. Sadikin, M., Katidjan, P. S., Dwiyanto, A. R., Nurfiyah, Yusuf, A. Y. P., & Trisnojuwono, A. (2025). Improving the MSMEs data quality assurance comprehensive framework with deep learning technique. Indonesian Journal of Electrical Engineering and Computer Science, 37(1), 613–626. https://www.scopus.com/pages/publications/85208140045?origin=resultslist

(MHN)