web search engine “pintar”


Jikalau di survey tentang web search engine apa yang sering digunakan, bisa dibayangkan pastilah akan banyak memilih google.com, yahoo.com, altavista.com, live.com atau ask.com. Dari web search engine tersebut, sebagian besar dari kita juga melakukan pencarian berdasar kata-kata kunci yang ingin kita temukan. Dari semua web search engine, masing-masing memiliki perilaku yang sedikit berbeda terhadap query string yang kita berikan. Misalnya kita dapat memberikan query budi OR susanto untuk mendapatkan budi atau susanto. Untuk mengetahui perilaku ini, kita perlu untuk membaca how-to dari mereka masing-masing. Tapi saya percaya, hampir semua kita sudah mengetahui akan hal ini.

Hal menarik lain yang ingin saya utarakan adalah kemampuan pencarian lain yang tidak hanya sekedar berdasar kata kunci. Hampir semua web search engine tersebut menyediakan sebuah “Advanced Search”. Jika kita klik “Advanced Search” tersebut, kita akan disodori beberapa pilihan pencarian yang tidak melulu berdasar kata kunci. Dari keempat web search engine tersebut, yang menarik perhatian saya adalah pilihan pencarian yang disediakan oleh google.com, yaitu kita dapat melakukan pencarian berdasar kemiripan dari suatu halaman web yang kita tunjuk dengan alamat URL dan atau kita mencari web site mana saja yang membubuhkan link ke alamat URL yang kita masukkan. Kedua fasilitas pencarian di google.com ini tidak ada di web search engine lain. Ini salah sau alasan saya mengapa saya menempatkan google.com sebagai pilihan nomor satu. Jika saya lanjutkan tentang urutan pilihan web search engine ini, yahoo.com saya tempatkan di nomor dua, diikuti oleh altavista, lalu ask.com dan yang terakhir adalah live.com.

Web search engine yang saya sebutkan tadi dapat dikatakan sudah sangat memenuhi kebutuhan saya sehari-hari untuk menemukan segala macam resource yang saya butuhkan dari seluruh web site yang ada di Internet. Saat ini saya sangat butuh untuk melakukan studi banding terhadap web search engine yang lebih “cerdas”, baik dalam hal pembacaan query parsing ataupun penataan dokumen-dokumen hasil temuannya. Dengan bantuan google.com pula, saya menemukan ada dua web search engine yang menerapkan metode clustering (text mining) yang dapat mengelompokan dokumen-dokumen hasil temuannya ke dalam beberapa kelompok topik yang menonjol. Tengok saja clusty.com (dulu namanya adalah Vivisimo.com). Saya iseng mencoba mencari budi susanto. Di halaman pertama, saya menemukan banyak dokumen yang bukan milik saya. (tapi kalau saya cari dari google.com, yahoo.com dan altavista.com, halaman milik saya menempati urutan pertama dari halaman pertama :D). Tapi bagaimanapun juga, dari clusty.com ini saya disodori daftar kelompok dokumen berdasar topik utama, dan salah satu cluster yang saya dapatkan adalah “oleh Budi Susanto”. Saya coba klik cluster tersebut, dan saya mendapatkan muncul blog saya disitu, demikian juga di cluster linkedin.com. Cukup menarik, tapi memang perlu di survey seberapa jauh manfaat clustering untuk web search engine.

Saat ini, muncul sebuah layanan web search engine yang juga menambahkan kemampuan AI atau knowledge based berdasar query yang diberikan. Yang menarik adalah query yang kita berikan dapat berupa sebuah pertanyaan lengkap atau sebuah kalima. Cobalah cicipi trueknowledge.com. Sangat menarik layanan yang ditawarkan oleh trueknowledge ini. Dari film demo yang dapat kita lihat di halaman pertamanya, misal diberikan suatu pertanyaan “is Jennifer Lopez single?” Maka truknowledge akan mengembalikan sebuah jawaban di bagian atas dari halaman pertama hasil pencarian. Hal ini sangat dimungkinkan karena adanya sebuah database knowledge. Dapat dibayangkan seberapa besar database pengetahuan tersebut. Tapi inilah sebuah penerapan yang sangat baik dari suatu sistem berbasis pengetahuan untuk search engine.

Sejujurnya saya ingin melakukan penelitian yang mirip dengan trueknowledge ini, tapi khusus untuk bahasa Indonesia. Kemampuan yang dapat saya bayangkan menyerupai dengan trueknowledge, tapi saya ingin menekankan pada penerapan web semanticnya, sehingga nanti kita dapat mendapatkan social networking, topik-topik yang terkait, document clustering, bahkan penerapan pengetahuan berbasis pada aturan untuk dapat memberikan hasil pencarian yang lebih baik dan lebih mendekatkan interaksi antara manusia dan komputer.