Algoritma Meringkas Teks Sederhana


Ada cara cukup mudah yang dapat diterapkan untuk menghasilkan suatu bentuk ringkasan secara otomatis dari suatu dokumen teks. Algoritma peringkasan ini mengandalkan pada perhitungan bobot tiap kalimat dari seluruh kalimat yang menyusun suatu dokumen. Pembobotan dilakukan dengan menghitung bobot kepentingan tiap kata yang menyusun kalimat tersebut, yang kita kenal dengan istilah TF-ISF (Term Frequency – Inverse Sentence Frequency). Pembobotan ini serupa dengan TF-IDF, sehingga tidak begitu sulit untuk menghitungnya. Adapun rumus sederhana untuk bobot TF-ISF dapat dihitung dengan menggunakan rumus di bawah ini:

TF-ISF

Jadi, pada setiap kata yang membentuk tiap kalimat dihitung bobotnya. Jika sebuah dokumen memiliki 100 kata, maka |S| bernilai 100, dan SF(w) bernilai sejumlah cacah kalimat yang mengandung kata w. Setelah tiap kata dalam tiap kalimat terhitung bobot TF-ISF nya, selanjutnya kita hitung rata-rata bobot dari tiap kalimat, dengan rumus di bawah ini:

Rata-rata bobot tiap kalimat

dimana w(s) adalah jumlah kata dalam kalimat s. Setelah rata-rata bobot tiap kalimat dihitung, proses dilanjutkan dengan mengurutkan kalimat berdasar bobot rata-ratanya secara descending. Dari urutan yang terbentuk, kita dapat menentukan batas atau threshold untuk pemilihan kalimat yang akan diambil.  Pemilihan kalimat dengan bobot tertinggi ini juga dapat dilakukan dengan menentukan prosentase ambang batas. Nilai ambang batas ini dapat dihitung berdasar nilai rata-rata maksimum dari bobot TF-ISF:

Threshold Filter TF-ISF

Sekali lagi, karakter algoritma ini hanya mengambil feature yang dianggap paling dominan dalam dokumen, sehingga sangat mengabaikan tentang bentukan ringkasan yang “nyaman” untuk dibaca. Algoritma jenis ini dimasukkan dalam kategori Surface Level karena memang hanya mengambil kalimat berdasar keunggulan featurenya.

Berikut beberapa sumber referensi yang dapat di baca lebih lanjut tentang sistem peringkasan dokumen otomatis oleh komputer: