24/05/2007
PHP

Senjata untuk grabbing halaman web

Banyak sekali yang menanyakan perihal grabbing halaman website untuk ditampilkan di situs kita. Dan kebanyakan menanyakan script siap jadi. Duh!

Begini ya mas-mas, mbak-mbak, pakdhe, om dan tante. Teknik grabbing akan berbeda-beda untuk tiap-tiap website. Tapi intinya sama. Baca HTML dari suatu halaman, lalu pilih mana yang akan diambil. Mari kita lihat script andalan saya untuk melakukan grabbing.

Fungsi pertama, membaca halaman website dan masukkan ke dalam string:[code]
[/code]

Nah, fungsi ini akan menghasilkan tag-tag HTML yang harus kita analisa untuk menentukan batas mulai pemotongan dan batas akhir.

Lalu fungsi kedua, adalah sebuah regex sederhana untuk mengambil teks yang diapit suatu tag tertentu.[code]
[/code]

Di fungsi yang kedua, parameter pertama tidak harus suatu tag HTML, tapi bisa juga suatu string. Happy grabbing!

13 thoughts on “Senjata untuk grabbing halaman web
  1. Mau nanya mas sandal. Kok di grab? Nggak di wrap saja?
    Kalau di wrap kan kesannya lebih sopan, menghargai yang buat.. gitu.

    Hehehe.

  2. Mungkin saya yang ndak mengerti mas/mbak Sandal. Sebab pengetahuan saya masih dangkal. Jadi mungkin ada kesalahpahaman dalam memahami teknik grabbing anda.

    Setau saya (*yang ternyata sok tahu padahal ga tau apa-apa ini, hehe). Teknik grab itu pengambilan mentah-mentah source kodenya. Entah dilakukan secara legal… ataupun tidak. Yang pasti, intinya, semuanya diambil. Mulai dari tampilan, hingga kode-kodenya.

    Contoh teknik grab, yang paling populer (*waktu jaman saya dulu, maap jadul contohnya, hehe*) adalah SWFDecompiler. Dimana SWF di grab kemudian di decompile menjadi *.Fla. Dalam proses decompilenya, semua source muncul. Diantaranya adalah munculnya instance, _mc, bahkan hingga actionscriptnya (*kalau ndak salah, AS2.0 masih bisa di grab deh*).

    Sementara teknik wrap, setahu saya, sudah diimplementasikan sebagai bagian wajib di beberapa CMS-CMS (contohnya Joomla dengan wrap page-nya). Intinya. menampilkan source/tampilan tanpa menghilangkan, menambah atau memodifikasi. Selain Joomla, contoh lainnya adalah pemakaian I FRAME SRC= pada google calendar (dan juga fasilitas umum lainnya) sebagai metode wrap. Selain itu, beberapa widget di WP (kalau ndak salah, sonific) juga mengimplementasikan teknik wrap.

    Jadi setau saya, grab itu mengambil langsung matang/mentah semua source (kasus disini HTML yaa). Entah sumbernya itu dilindungi, atau bebas. Yang pasti, diambil. Sementara, wrap menampilkan apa adanya source.

    Mas/Mbak Sandal, mungkin akibat pengetahuan saya yang dangkal, saya jadi missunderstood dan nanya begini. Sebab saya ini masih belajar looh. Jadi mohon pencerahannya gitu… ๐Ÿ˜€

    Terimakasih yoo

  3. saya liat di aw stats ada grabing, disini juga, emang grabing apaan dan buat apa ya?
    gak perlu dijelaskan kalo saya pemula kan? buktinya masih nanya nih…….
    eh iya sekalian nanya, saya pake mambo, gimana caranya biar orang tulis komen pake karekter seperti di bawah ini? (kayak punya sandal gitu…)

  4. @bangaiptop
    grab vs wrap, mungkin sebenernya miss-persepsi mas. grabbing dalam dunia web, menurut definisi yang saya pahami adalah mengambil data dari suatu situs untuk ditampilkan di situ yang lain.

    tekniknya tentu saja macem-macem. klo ada xml/rss/rdf/atom, puenak banget. tapi kalo ndak ada, terpaksa ya parsing data per karakter agar ketemu data yang diinginkan.

    @klepon
    grabbing itu ngambil data dari situs lain untuk ditampilkan/dimasukkan ke situs lainnya/database mas.

    soal mambo, maaf banget saya tidak menguasainya.

  5. Mas, gimana teknik wrap, misalnya buku tamu dari shoutmix yg ukuran karakternya pendek bisa jadi lebih lebar seperti yg ada disini. Sy sudah membuat kolom yg lebar, tp karakter penulisannya tdk mengikuti lebar ruangan ! Mkasih pencerahannya !

  6. Mas, kok aku error PHP Notice: Undefined variable: url2 di line 40 ? Kenapa yah?

Leave a Reply