Kesederhanaan VSM


Dalam bidang penelitian information retrieval (sistem temu kembali) terdapat salah satu metode perangkingan sederhana namun memberikan hasil yang sudah mencukupi untuk sebuah sistem pencarian terhadap dokumen. Metode tersebut kita kenal dengan nama Vector Space Model (VSM). Pada prinsipnya metode perangkingan pencarian dokumen ini didasarkan pada perhitungan jarak kemiripan dengan cosinus antara vektor dokumen dengan vektor query.

Ketika sebuah dokumen dimasukkan dalam suatu ruang vektor, maka kita dapat membayangkan sebuah ruang vektor yang memiliki dimensi luar biasa besar dan ditentukan oleh banyaknya term/kata yang terbentuk saat proses pengindeksan dokumen. Pengindeksan terhadap kumpulan dokumen yang dapat dicari merupakan sebuah proses tersendiri. Konsep umum yang diterapkan untuk pembuatan struktur indeks adalah menggunakan model inverted index. Dalam inverted index, kita mengenal ada sebuah daftar kamus (dictionary) yang berisi kata atauĀ term hasil dari pemrosesan setiap dokumen. Dari setiap kata yang ada dalamĀ dictionary, lalu terbentuk sebuah linked list yang berisi urutan dokumen yang mengandung term tersebut. (Lihat gambaran struktur tersebut dari Christopher D. Manning.)

Inverted Index

Sebelum dilakukan perhitungan rangking antara dokumen dan query, maka terlebih dahulu harus dihitung bobot setiap kata yang dimiliki tiap dokumen. Perhitungan bobot tiap kata dapat menggunakan pendekatan TF-IDF. Untuk contoh, saya kembali menggunakan tiga buah dokumen sebagai berikut : Baca lebih lanjut