SKIP TO MAIN CONTENT
tina-andrew.blogpot.com blog uses cookies to help google service, personalise ads, and more. By visiting us you agree with our privacy policy. For more information: Cookies Policy | Privacy Policy

Tips Ngeblog Blogger Blogspot

Lebih Rinci tentang Robot.TXT

Oleh karena banyaknya request mengenai Robot.txt (referensi lainnya, lihat catatan referensi diakhir artikel ini), kali ini saya akan mengkaji kembali secara lebih rinci tentang apa itu robot.txt & apa kegunaan atau fungsinya.

Mengenal Googlebot, MSN-bot & Yahoo-bot

Robot.txt sebenarnya adalah sebuah file dalam bentuk text document yang didalamnya berisi tentang pesan atau perintah (dari pemilik web/blog) yang akan disampaikan kepada bot mesin pencari seperti Google, Msn & Yahoo pada saat bot tersebut menjelajahi (baca:crawling) halaman-halaman blog kita. Masing-masing ketiga bot mesin pencari tersebut dinamakan: Googlebot, Msn-bot & Yahoo-bot.

Apa itu Googlebot, Msn-bot, & Yahoo-bot

"Googlebot is Google's web crawling bot (sometimes also called a "spider"). Crawling is the process by which Googlebot discovers new and updated pages to be added to the Google index."
"Googlebot adalah bot (software) penjelajah web milik google (terkadang disebut juga "Spider"). Crawling adalah proses dimana Googlebot menemukan halaman-halaman baru & terupdate untuk ditambahkan & disimpan di Google Index."
(Source taken from: https://support.google.com/webmasters/answer/182072?hl=en)
Intinya, Googlebot adalah sebuah software Google yang disebut juga dengan Robot Penjelajah website atau blog di dunia internet yang bekerja dengan mengumpulkan data & informasi terbaru atau halaman-halaman web/blog baru yang kemudian disimpan kedalam Google Index.

Google Index

Google index adalah daftar web/blog yang tersusun sedemikian rupa didalam database atau media penyimpanan Google. Tiap web/blog itu berisi tentang, pokok-pokok penting yang diambil dari sebuah web/blog seperti: identitas web/blog, artikel kepala (H1 hingga H5) & Anchor tag, termasuk inbound link & outbound link.

Bagaimana Cara Google Index Bekerja

Pada saat user atau visitor memasukkan query atau keywords atau apa yang dicarinya didalam kotak pencarian Google, maka google index akan mencarinya didalam penyimpanan index tersebut yang sesuai dengan permintaan user & kemudian menampilkannya dibawah kotak pencarian tersebut. Status tampilnya link/url dari web/blog dibawah kotak pencarian tersebut disebut dengan Visibility atau Visibilitas.

Apa Hubungan Googlebot & Google Index dengan Meta robot, robot tag atau robot.txt

Robot.txt & atau meta robot memiliki 2 tujuan:
1. Halaman apa saja yang boleh atau harus ditampilkan di Halaman Hasil Pencarian (SERPs).
2. Halaman apa saja yang tidak boleh atau terlarang ditampilkan di Halaman Hasil Pencarian (SERPs).
Jadi, Robot.txt & Meta robot memiliki 2 tujuan tersebut diatas yang dalam bahasa inggrisnya adalah:
- Allow (Diizinkan)
- Disallow (Tidak-diizinkan)
Untuk itu, kita harus memberi "Perintah" pada Googlebot & bot lainnya tentang mana halaman yang boleh dijelajahi, di-index dan ditampilkan di halaman hasil pencarian, dan mana yang tidak. Mengapa tidak diizinkan semua? begini ..... terkadang, kita ingin agar halaman A tidak ditemukan oleh visitor, seperti; halaman kosong yang hanya berisi image, halaman login bagi admin, halaman sitemap, dan sebagainya, dengan alasan keamanan dan sebagainya. Karena alasan tertentu tersebut, penting menggunakan robot.txt atau meta robot yang dengan cara ini bisa membuat Googlebot dan bot lainnya berhenti melakukan proses Crawling, Index dan Penyimpanan hingga Menampilkannya di halaman hasil pencarian, sehingga Googlebot akan mengalihkan penjelajahan ke halaman lainnya.

Catatan: Bila Googlebot tidak menemukan robot.txt atau meta tag dihalaman HTML web/blog tersebut, maka Googlebot menganggapnya sebagai Default Action atau, berarti "Diizinkan bagi Googlebot untuk melakukan Crawling keseluruh halaman web/blog tanpa terkecuali".
Bagaimana bila sebuah Link/Url artikel web/blog kita mengalami broken link atau link error (error 404)? Bila tanpa robot.txt atau meta robot maka tetap akan ditampilkan oleh Google. Bila broken link ini diklik oleh user/visitor dan mereka tidak menemukan informasi apa-apa dihalaman error tersebut selain "Page Not Found", bisa berakibat buruk, artinya, visitor akan kecewa dan menganggap kita sebagai admin web/blog tidak perhatian, tidak professional dan masa bodoh pada web/blog tersebut, bahkan visitor akan menganggap bahwa informasi di web/blog kita tersebut tidak kredibel atau tidak bisa dipercaya. Wow!

Unsur Robot.txt:

Pada robot.txt, kita mengenal unsur atau elemen-elemen sebagai berikut:
1. User Agent (Ini disebut juga dengan BOT seperti dijelaskan diatas).
2. Perintah berupa: Allow dan Dissalow.
3. Tanda Slash atau garis miring "/", yang berarti, folder atau halaman dari sebuah web/blog selain homepage.
4. Object Allow dan Disallow (termasuk Sitemap).

Contoh Implementasi Robot.txt:
User-agent: Mediapartners-Google
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://tina-andrew.blogspot.com/feeds/posts/default?orderby=UPDATED
Catatan:
User-agent adalah kata lain dari BOT. Mediapartners-Google adalah bot yang khusus melakukan tugas Crawling khusus Iklan Adsense dengan tujuan agar Google Adsense bisa menampilkan Iklan yang memiliki relevansi tinggi terhadap konten web/blog. Misalnya: bila konten atau artikel tentang Mesin Mobil, maka diharapkan iklan adsense yang akan muncul adalah tentang Mesin Mobil. Ini yang dimaksud dengan adanya relevansi. Untuk itu, bagi publisher adsense, tag "User-agent: Mediapartners-Google" adalah penting.

Makna dari robot.txt tersebut diatas adalah: mengizinkan bagi bot adsense dan bot diluar adsense (Googlebot, Msn-bot, Yahoo-bot dan bot lainnya, seperti: slurp, baidu, ask, dsb) untuk melakukan crawling, kecuali pada: LINK/URL yang mengandung Search atau Label, misalnya:
--- http:// www. example.com /search /label/bla-bla-bla.html

Contoh Implementasi Robot.txt yang dikhususkan pada bot tertentu:
Sample how to setup robot.txt for specific bot, such as, googlebot:

User-agent: googlebot
Disallow: /search
Disallow: /p
Allow: /
Sitemap: http://tina-andrew.blogspot.com/feeds/posts/default?orderby=UPDATED
Arti/maksud dari robot.txt diatas adalah:
Hanya googlebot yang boleh mem-fetch seluruh data dan link/url yang ada dihalaman web/blog tersebut, kecuali pada Search atau Label dan url yang ada folder "p"-nya.

Unsur Meta robot:

1. all, misalnya: <meta name="robots" content="all"/>
--- maknanya: Mengizinkan robot (bot) melakukan crawl disetiap halaman web/blog tanpa terkecuali.

2. none, misalnya: <meta name="robots" content="none"/>
--- maknanya: Tidak Mengizinkan. Atau, kebalikan dari "all"

3. index, misalnya: <meta name="robots" content="index"/>
--- maknanya: Hanya diperbolehkan mengindeks, tapi tidak boleh mengikuti setiap Link/URL yang ada dalam halaman-halaman web/blog yang ditemukan/dijelajahinya.

4. follow, misalnya: <meta name="robots" content="follow"/>
--- maknanya: Hanya diperbolehkan mengikuti Link/URL yang ditemukan bot ditiap halaman web/blog tanpa meng-indeksnya.

5. noindex, misalnya: <meta name="robots" content="noindex"/>
--- maknya: bot dilarang meng-indeks.

6. nofollow, misalnya: <meta name="robots" content="nofollow"/>
--- maknya: bot dilarang mengikuti URL/Link yang ada ditiap halaman web/blog

7. noodp, misalnya: <meta name="robots" content="noodp"/>
--- maknanya: bot dilarang mengambil data dari dalam web direktori seperti dmoz.org, dsb. (tag ini diperuntukkan bagi Googlebot, Msn-bot dan Yahoo-bot)

8. noydir, misalnya: <meta name="robots" content="noydir"/>
--- maknanya: bot dilarang mengambil data dari dalam web direktori. (perintah ini dikhususkan bagi Msn-bot dan Yahoo-bot).

Anda, dapat menggabungkan dua pilihan diatas seperti contoh:
<meta name="robots" content="noodp,noydir"/>
Bertujuan: agar googlebot tidak mengambil (baca:fetch) link/url dari web direktori. Jadi, langsung dari halaman web/blog.

atau,<meta name="robots" content="index,follow"/>
Bertujuan: agar googlebot mengambil semua yang ada dihalaman tanpa terkecuali termasuk label, blog archive dan apapun link yang ada didalamnya.

atau,
<meta name="robots" content="noindex,nofollow"/>
Bertujuan: agar googlebot tidak mengambil apapun url/link dan data yang ada didalam halaman web/blog anda sama sekali. Opsi meta robot ini sama dengan opsi visibilitas blog di blogger list dan search engine.

Catatan:

Opsi diatas berlaku bagi seluruh bot termasuk: googlebot, msn-bot dan yahoo-bot/slurp.

Untuk mengkhususkan pada satu bot, anda tinggal menentukan bot mana yang berkaitan dengan meta robot.
Misalnya:

<meta name="googlebot" content="ALL"/>
<meta name="msnbot" content="ALL"/><meta name="slurp" content="ALL"/>

Tambahan:
Selain, hal tersebut diatas, anda dapat hanya menambahkan satu opsi, dimana Blog archive tidak boleh di-fetch oleh googlebot,
contoh:

<meta name="robots" content="noarchive"/>

Referensi relevan tentang robot.txt - meta robot - robot tag:

- Visibilitas blog dimesin pencari Google untuk blogger.
- Robot tag dan SEO.
- Agar blog tidak terindeks oleh Google.
- Cara Mengatur meta tag - heading H1 dan H2.


Herman Bin Nasarudin in Google+
Google+ Profile
Google+ Page

Newer Post Lihat Tips & Tutorial Sebelumnya
Back to Homepage

Popular Posts