ไม่ต้องการให้ bot หรือ Search Engine มาทำ index บางหน้าหรือบางได

บางครั้งเราก็ไม่ต้องการให้ bot ของ Search Engine เข้ามาทำการ Index บางหน้าหรือบางไดเร็คทอรี่ของเว็บไซต์ เช่น หน้าลงทะเบียน หรือ ไดเร็คทอรี่ของ Admin เป็นต้น เราสามารถกำหนดลงใน ไฟล์ robots.txt ได้ครับ

สำหรับคำสั่งที่สามารถใช้ใน robots.txt ได้ มีดังนี้ครับ
# ข้อความบรรทัดนี้คือ comment
User-agent: * หมายถึงทุก Search Engine
User-agent: Search Engine หมายถึง ชื่อ Search Engine ที่ระบุ
Disallow: ไม่มีอะไรต่อท้าย หมายถึงยอมให้ Search Engine เข้ามาทำ Index ได้
Disallow: / หมายถึง ไม่ให้ Search Engine ทำการ Index ตั้งแต่ไดเร็คทอรี่ราก หรือ
Disallow: /path/to หมายถึงไม่ให้ Search Engine ทำการ Index ไดเร็คทอรี่ที่กำหนด หรือ
Disallow: /*.ext$
หมายถึงไม่ให้ Search Engine ทำการ Index ไฟล์ที่นามสกุลที่เรากำหนด

ไฟล์ robots.txt นี้ เราจะสร้างด้วย notepad ธรรมดาแล้วอัปโหลดไว้บนไดเร็คทอรี่รากของ server ครับ

ตัวอย่างการกำหนดในไฟล์ robots.txt
ไม่ต้องการให้ SE เข้ามาทำ Index site ของเรา (ทุกยี่ห้อเลย)
User-agent: *
Disallow: /

กำหนด บาง SE ไม่ให้ทำการ index site ของเรา (ทั้งเว็บไซต์)
User-agent: Googlebot
User-agent: msnbot
Disallow: /

ป้องกัน บางไดเร็คทอรี่ (ไดเร็คทอรี่ path/)
User-agent: *
Disallow: /path

หรือ (ไดเร็คทอรี่ path/to/)
Disallow: /path/to

ป้องกันบางไฟล์ เช่น ไฟล์ page.php ในไดเร็คทอรี่ path/to
User-agent: *
Disallow: /path/to/page.php

หรือ สำหรับไม่ให้ SE ทำ Index ไฟล์ นามสกุล jpg ทั้งหมด
Disallow: /*.jpg$

นอกจากนั้นเรายังสามารถกำหนดลงใน meta ของ เพจได้ด้วย สำหรับทำการป้องกันแค่บางเพจที่เราต้องการ
<meta name="Googlebot" content="noindex, nofollow" />
<meta name="MSNbot" content="noindex, nofollow" />

หรือสำหรับ บอต ทุกยี่ห้อ
<meta name="robots" content="noindex, nofollow" />
ผู้เขียน goragod โพสต์เมื่อ 31 มี.ค. 2551 เปิดดู 10,005 ป้ายกำกับ SEO
^