Menambang Data Web


Seperti yang sudah pernah saya ungkapkan dalam artikel-artikel sebelumnya, web dapat dianggap sebagai database tidak terstruktur yang sangat besar ukuran dan jumlahnya. Terhadap sumber data yang tersedia dan dapat diakses secara bebas di Internet tersebut, sudah seharusnya dipikirkan dan direncanakan untuk menganalisis data-data web untuk membantu memenuhi kebutuhan terkait dengan isi, struktur, dan juga pola aksesnya.
Untuk itulah dalam ranah analisis data web, pada umumnya akan menggunakan tiga macam sumber data. Sumber data tersebut, antara lain: content dari halaman web, struktur jejaring antar laman web yang terbentuk melalui tautan, serta sumber data log yang dihasilkan oleh server ataupun client (cookie misalnya). Terhadap masing-masing sumber data tersebut diperlukan adanya suatu tahapan pre processing yang akan berfungsi seperti halnya ETL (Extract, Transform, Load) dalam ranah pemrosesan dalam pembentukan data warehouse.

Berdasar sumber datanya, maka metode penambangan data web dapat dikelompokkan dalam tiga bidang: web content mining, web structure mining, serta web usage mining. Dalam web content mining, tahapan dalam preprocessingnya akan menerapkan seperti yang dilakukan dalam text mining pada umumnya. Hanya saja yang perlu untuk ditekankan di sini adalah harus dapat membuang semua elemen yang dirasa tidak penting terhadap content (misalnya elemen format bold, italic, dsb.). Dalam pembersihan ini, elemen-elemen yang dapat memberi arti lebih terhadap isi web harus juga diperhatikan, seperti elemen meta, ataupun jika dalam halaman web mengandung metadata ataupun microdata dan microformat. Setelah bersih dan dilakukan tokenisasi ataupun parsing, biasanya akan digunakan metode information retrieval ataupun data mining seperti clustering dan klasifikasi. Semua metode tersebut digunakan untuk dapat menemukan pola informasi yang tidak langsung terlihat jika hanya menggunakan proses statistik dasar.
Web Structure Mining akan lebih fokus pada analisis graf yang terbentuk dari struktur tautan dalam satu lingkungan atau batasan satu atau beberapa web. Setelah graf jejaring web terbentuk, maka kita dapat menganalisis graf tersebut. Misalnya dengan menggunakan PageRank, kita dapat mengetahui web mana yang lebih dipercaya. Algoritma HITS juga dapat digunakan untuk mengetahui web mana yang menjadi sumber utama dalam satu topik tertentu. Penerapan pencocokan graf juga dapat diterapkan untuk melihat kemiripan struktur antar web. Bahkan kita dapat menggunakan metode Social Network Analysis untuk menemukan centrality misalnya diantara kerumunan jejaring web. Dengan kata lain alogitma graf dapat digunakan untuk analisis jejaring web tersebut.
Terakhir adalah Web Usage Mining yang akan fokus menganalisis transaksi yang diproses dari data log yang dihasilkan web server. Analisis transaksi misalnya asosiasi dan analisis pola urutan akses web. Namun pemanfaatan hanya dari log server tidaklah cukup dapat dihandalkan untuk digunakan dalam hak analisis transaksi. Salah satu penyebabnya adalah adanya proxy server dan caching pada web browser yang menyebabkan catatan log server menjadi tidak lengkap. Dalam hal ini perlu dipertimbangkan pemanfaatan cookie dan klik dari user berdasar sesi dalam web browser.
Terhadap ketiga macam penambangan data web tersebut, masih banyak penelitian yang terus dilakukan, sehingga ranah ini masih dapat dikembangkan.