Cara Sederhana Melihat Populasi Dokumen


Dalam ilmu statistik, istilah populasi merujuk pada suatu koleksi himpunan data. Untuk membedakan satu populasi data dengan populasi data lainnya, pengukuran dasar seperti pusat data (dengan rata-rata) dan variabilitas nilainya (variance) dapat digunakan sebagai parameter karakteristik populasi. Jika hal ini dikaitkan dengan populasi dokumen, maka kita dapat melihat karakteristik setiap populasi dokumen berdasar rata-rata kemunculan setiap kata per dokumen. Dalam kondisi sebuah populasi yang luar biasa besar, misalnya seluruh dokumen dalam bahasa Indonesia, maka tidak mungkin kita mendapatkan nilai rata-rata secara pastinya. Untuk hal ini, kita dapat mengambil sampling. Terkait dengan sampling, kita perlu melakukannya dengan tepat, yaitu jangan sampai sampling yang ditentukan tidak mencerminkan perwakilan dari populasi yang sesungguhnya. Metode sampling, seperti Bootstrapping dan Kennard-Stone, dapat menjadi alternatif untuk pembentukan sampling.

Untuk menghitung rata-rata sebuah kata dalam populasi dokumen, kita dapat menghitung jumlah kemunculan kata tersebut di tiap dokumen di bagi dengan jumlah populasi dokumen (N). Sebagai contoh saya mencoba secara sederhana melakukan tokenisasi terhadap 30 dokumen dari kompas.com (pada tanggal 29 Agustus 2012 lalu) untuk tiga kelompok berita, yaitu Ekonomi, Politik, dan Tekno. Berikut sedikit gambaran tentang hasilnya:

kata #dokumen #tf Avg Stdev
yang 29.0 184.0 6.13333 5.188020389
dan 29.0 178.0 5.933333333 4.289004028
di 30.0 156.0 5.2 3.113411848
dengan 27.0 82.0 2.733333333 2.249938271
ini 28.0 79.0 2.633333333 1.538036266
dari 23.0 68.0 2.266666667 2.37954244
itu 24.0 66.0 2.2 1.939071943
akan 23.0 63.0 2.1 1.71949605
dalam 20.0 57.0 1.9 2.196208855
untuk 24.0 57.0 1.9 1.920937271
pada 24.0 53.0 1.8 1.5
tidak 22.0 48.0 1.6 1.7

Dengan melihat contoh di atas, secara umum dapat kita katakan bahwa semakin besar rata-rata kemunculan kata, maka akan menunjukkan tingginya variasi. Sedangkan untuk per kata, kita juga dapat menggambarkan plot kemunculan sebuah kata terhadap populasi dokumen seperti yang saya tunjukkan pada gambar di bawah ini:

contoh plot tf dokumen