Dari WWW ke Web Data


Seberapa besar Web yang aktif di Internet saat ini? Sangat besar! Berdasar blog resmi Google, sampai dengan pertengahan tahun 2008 tercatat telah mengindeks 1 trilion (1012) alamat URL unik. Jumlah halaman web juga diperkirakan oleh situs worldwidewebsize.com, dimana sampai 24 April 2013 jumlah halaman web aktif di Internet diprediksi telah mencapai 14.17 miliar. Oleh karena begitu sangat besarnya jumlah halaman web, sekarang pertanyaan yang muncul adalah bagaimana caranya kita dapat mencari suatu informasi yang kita butuhkan secara efektif? Jawabannya jelas menggunakan mesin pencari, seperti Google, Yahoo!, Bing, atau yang lain.

Namun pencarian informasi web dengan menggunakan mesin pencari tersebut, seringkali menghasilkan banyak halaman web yang tidak sesuai dengan apa yang kita butuhkan. Hal ini sangat bisa terjadi, karena pencarian informasi dari kumpulan halaman web didasarkan pada kata kunci-kata kunci yang tersebutkan pada query yang dikirimkan ke mesin pencari. Ketika kata kunci yang dimasukkan tepat dan komplet, maka mesin pencari dapat menghasilkan daftar halaman web yang lebih sesuai. Mesin pencari akan memiliki sebuah struktur penyimpan indeks dari setiap halaman web. Indeks yang tersimpan pada umumnya didasarkan pada term/kata yang terkandung pada halaman web. Selain itu, sebuah halaman web memiliki suatu struktur lain yang juga perlu dan telah diperhatikan oleh banyak mesin pencari. Struktur lain tersebut antara lain: metadata yang terkandung pada bagian <header> yang menggunakan berbagai format metadata. Selain metadata, mesin pencari juga telah memperhatikan deklarasi metadata lain, seperti Microdata ataupun Microformat. Keduanya merupakan bentuk metadata yang tertanam pada dokumen HTML.

Ketika sebuah dokumen HTML mengandung metadata-metadata tersebut, semestinya dapat memperkaya informasi yang termaksud dalam dokumen tersebut. Dalam hal ini metadata yang diberikan dalam dokumen HTML dapat memberikan suatu bentuk informasi tambahan yang mudah untuk dicerna oleh mesin. Sampai di sini, peran metadata menjadi sangat berharga, yaitu untuk dapat memberikan informasi yang lebih tepat kepada mesin terkait dengan keseluruhan teks yang tercantum dalam dokumen tersebut. Dengan kata lain, pemberian metadata pada halaman web seolah-olah seperti memberikan suatu data terstruktur penting yang berarti untuk berbagai kepentingan bagi mesin untuk mengolah dokumen-dokumen web tersebut.

Sekarang yang perlu untuk dipahami kembali adalah sebuah web dapat memiliki beberapa informasi penting yang perlu untuk dicerna. Dari setiap informasi yang terkandung tersebut, kemudian dapat kita bangkitkan beberapa pertanyaan penting untuk menjadi dasar telaah kita berikutnya terkait dengan arti pentingnya semantic web dalam infrastruktur web saat ini :

  • informasi apa yang terkandung dalam sebuah halaman web dan bagaimana kita mengetahuinya?
  • apakah itu informasi, dan apakah itu pariwara?
  • apa arti dari informasi yang terkandung?
  • seberapa terpercaya informasi yang terkandung?

Ketika pertanyaan-pertanyaan tersebut diberikan kepada manusia, tentunya dapat diolah dengan baik, karena manusia memiliki pengetahuan yang luas dan kontekstual serta tentunya pengalaman untuk memecahkan masalah. Semakin banyak pengalaman dan pengetahuan yang dimiliki seseorang, tentunya akan dengan mudah seseorang tersebut memecahkan masalah. Sayangnya, mesin atau komputer yang mengolah halaman web tidak memiliki kecerdasan dan pengalaman seperti halnya manusia. Apalagi format yang digunakan dalam pembuatan halaman web, yaitu HTML, sangatlah kental dengan struktur format untuk presentasi sebuah informasi. Dengan format tampilan HTML tersebut, seorang penulis atau pengirim informasi dapat dengan mudah mengkomunikasikan informasi yang dimaksud kepada penerima (orang lain).  Sehingga tidaklah heran jika HTML dikhususkan bagi manusia, bukan mesin.

Berdasar kondisi tersebut, kemudian dapat dimunculkan pertanyaan lain: bagaimana caranya sekarang agar mesin atau sistem aplikasi komputer dapat memahami konteks informasi yang terkandung pada halaman web. Hal itu berarti, bagaimana mesin dapat “memahami” informasi yang disampaikan oleh penulis dari halaman web. Masalah memahami dalam hal komunikasi ini, yaitu antara penulis dari halaman web (sender) dengan mesin (receiver), memerlukan beberapa syarat agar komunikasi yang terbentuk dapat dikatakan berhasil:

  • informasi harus disampaikan atau dikirimkan dalam sintak yang benar;
  • arti informasi (semantic) yang dikirimkan harus dapat diterjemahkan secara benar (artinya harus dapat dipahami dengan baik).

Pemahaman terhadap sebuah informasi sangat tergantung pada konteks yang sama antara pengirim dan penerima, juga penggunakan bahasa (pragmatik) oleh pengirim. Sedangkan untuk memiliki konteks yang sama, maka antara pengirim dan penerima harus memiliki  pengalaman akan konteks tersebut.

Mengapa mesin perlu dapat memahami informasi yang ingin disampaikan oleh penulis atau pembuat halaman web? Jawaban yang dapat saya berikan adalah karena jumlah informasi yang terkandung dalam miliaran halaman web, tidak mungkin diolah oleh manusia, dengan kata lain meisn melalui sistem aplikasi yang dijalankan juga semestinya dapat berperan serta dalam pengolahan tersebut.

Dari kebutuhan tersebut, kemudian peran Semantic Web yang diusulkan oleh Tim Berners-Lee dan tim yang ditanamkan dalam infrastuktur web menjadi penting dan diharapkan dapat menjawab setidaknya semua kebutuhan yang sudah tersebut di atas. Arti dari suatu informasi (semantic) dibentuk secara eksplisit oleh struktur formal dan standarisasi representasi pengetahuan (ontology). Dengan adanya struktur (formal) dan standarisi representasi pengetahuan tersebut akan menyediakan sebuah database global yang berisi suatu jaringan semantic universal.

Sampai disini dulu ulasan saya terkait dengan web data. Minggu depan saya akan mencoba menguraikan tentang arsitektur sebuah semantic web agar kita dapat memahami posisi dan peran masing-masing bagian dalam infrastruktur semantic web.