Kesederhanaan VSM


Dalam bidang penelitian information retrieval (sistem temu kembali) terdapat salah satu metode perangkingan sederhana namun memberikan hasil yang sudah mencukupi untuk sebuah sistem pencarian terhadap dokumen. Metode tersebut kita kenal dengan nama Vector Space Model (VSM). Pada prinsipnya metode perangkingan pencarian dokumen ini didasarkan pada perhitungan jarak kemiripan dengan cosinus antara vektor dokumen dengan vektor query.

Ketika sebuah dokumen dimasukkan dalam suatu ruang vektor, maka kita dapat membayangkan sebuah ruang vektor yang memiliki dimensi luar biasa besar dan ditentukan oleh banyaknya term/kata yang terbentuk saat proses pengindeksan dokumen. Pengindeksan terhadap kumpulan dokumen yang dapat dicari merupakan sebuah proses tersendiri. Konsep umum yang diterapkan untuk pembuatan struktur indeks adalah menggunakan model inverted index. Dalam inverted index, kita mengenal ada sebuah daftar kamus (dictionary) yang berisi kata atau term hasil dari pemrosesan setiap dokumen. Dari setiap kata yang ada dalam dictionary, lalu terbentuk sebuah linked list yang berisi urutan dokumen yang mengandung term tersebut. (Lihat gambaran struktur tersebut dari Christopher D. Manning.)

Inverted Index

Sebelum dilakukan perhitungan rangking antara dokumen dan query, maka terlebih dahulu harus dihitung bobot setiap kata yang dimiliki tiap dokumen. Perhitungan bobot tiap kata dapat menggunakan pendekatan TF-IDF. Untuk contoh, saya kembali menggunakan tiga buah dokumen sebagai berikut : Baca lebih lanjut

sinta


Sinta adalah sistem temu kembali dokumen-dokumen tugas akhir mahasiswa UKDW Yogyakarta. Kemampuannya seperti halnya mesin pencari google, yahoo atau sejenis, namun dengan menekankan pada karakteristik metadata tugas akhir. Aplikasi ini berbasis j2ee, alfresco dan lucene.
Sinta dirancang dan dikerjakan secara mandiri oleh mahasiswa dan dosen ukdw, dan merupakan proyek unit Perpustakaan UKDW. Rencana akan di release pada tanggal 24 Agustus 2009. Saat ini sudah 85% selesai. Sementara Sinta hanya dapat diakses dilingkungan UKDW. Di tunggu saja.

sinta

Kebutuhan akan information retrieval


Hari jumat lalu, saya dan rekan-rekan berdiskusi tentang rencana sebuah penelitian terkait dengan penerapan information retrieval pada setumpuk dokumen yang dimiliki oleh salah satu unit di tempat saya bekerja. Hal menarik yang menjadi awal pembicaraan kami adalah, dari unit yang membutuhkan belum begitu memahami tentang apa yang sebetulnya di butuhkan. Dari situlah, pembicaraan terarah pada bentuk kebutuhan yang ingin dapat dibantu dengan adanya teknologi informasi.

Secara prinsip, salah satu unit ini memiliki segudang dokumen-dokumen, baik dalam bentuk doc, pdf, text, email, gambar bahkan video. Yang menjadi titik berat kebutuhan adalah bagaimana agar semua dokumen tersebut dapat tersimpan dengan baik di suatu “tempat” aman dan mengijinkan para pemakainya (yang terautorisasi dan terotentikasi) untuk melakukan pencarian terhadap dokumen-dokumen tersebut.

Menarik, inilah ladang information retrieval dapat diterapkan. Secara sederhana saya menggambarkan alur kerja dari teknologi yang dapat digunakan untuk menyediakan layanan tersebut.  Untuk dapat menyimpan dokumen dengan “aman”, dapat digunakan sebuah repository server. Sebuah repositoy server biasanya sudah mencakup fasilitas otentikasi, otorisasi, metadata, document space (folder), pencarian dokumen dan juga mendukung multi protokol pertukaran dokumen, seperti ftp, http dan webdav. Masalahnya adalah, repository server ini belum semuanya mendukung metadata/anotasi untuk dokumen gambar atau video. Sehingga perlu di cari pemecahaan untuk hal ini. Saya berencana untuk memasukan anotasi XML ke dalam objek dokumen gambar atau video tersebut. Dengan anotasi sederhana ini, nantinya dapat digunakan oleh IR indexer untuk melakukan pengindeksan. Saat ini sedang banyak dikembangkan algoritma-algoritma untuk menerapkan information retrieval khusus untuk dokumen-dokumen non teks. Tapi untuk kontek permasalahan ini, saya cukup memberikan anotasi agar dapat memberikan informasi kepada IR untuk melakukan pencariannya.

Syukurlah, penjelasan yang singkat itu dapat membantu untuk melanjutkan pembahasan berikutnya secara fokus pada kebutuhan yang diinginkan.