GORAGOD.com

ไม่ต้องการให้ bot หรือ Search Engine มาทำ index บางหน้าหรือบางได

บางครั้งเราก็ไม่ต้องการให้ bot ของ Search Engine เข้ามาทำการ Index บางหน้าหรือบางไดเร็คทอรี่ของเว็บไซต์ เช่น หน้าลงทะเบียน หรือ ไดเร็คทอรี่ของ Admin เป็นต้น เราสามารถกำหนดลงใน ไฟล์ robots.txt ได้ครับ

สำหรับคำสั่งที่สามารถใช้ใน robots.txt ได้ มีดังนี้ครับ
# ข้อความบรรทัดนี้คือ comment
User-agent: * หมายถึงทุก Search Engine
User-agent: Search Engine หมายถึง ชื่อ Search Engine ที่ระบุ
Disallow: ไม่มีอะไรต่อท้าย หมายถึงยอมให้ Search Engine เข้ามาทำ Index ได้
Disallow: / หมายถึง ไม่ให้ Search Engine ทำการ Index ตั้งแต่ไดเร็คทอรี่ราก หรือ
Disallow: /path/to หมายถึงไม่ให้ Search Engine ทำการ Index ไดเร็คทอรี่ที่กำหนด หรือ
Disallow: /*.ext$
หมายถึงไม่ให้ Search Engine ทำการ Index ไฟล์ที่นามสกุลที่เรากำหนด

ไฟล์ robots.txt นี้ เราจะสร้างด้วย notepad ธรรมดาแล้วอัปโหลดไว้บนไดเร็คทอรี่รากของ server ครับ

ตัวอย่างการกำหนดในไฟล์ robots.txt
ไม่ต้องการให้ SE เข้ามาทำ Index site ของเรา (ทุกยี่ห้อเลย)
User-agent: *
Disallow: /

กำหนด บาง SE ไม่ให้ทำการ index site ของเรา (ทั้งเว็บไซต์)
User-agent: Googlebot
User-agent: msnbot
Disallow: /

ป้องกัน บางไดเร็คทอรี่ (ไดเร็คทอรี่ path/)
User-agent: *
Disallow: /path

หรือ (ไดเร็คทอรี่ path/to/)
Disallow: /path/to

ป้องกันบางไฟล์ เช่น ไฟล์ page.php ในไดเร็คทอรี่ path/to
User-agent: *
Disallow: /path/to/page.php

หรือ สำหรับไม่ให้ SE ทำ Index ไฟล์ นามสกุล jpg ทั้งหมด
Disallow: /*.jpg$

นอกจากนั้นเรายังสามารถกำหนดลงใน meta ของ เพจได้ด้วย สำหรับทำการป้องกันแค่บางเพจที่เราต้องการ
<meta name="Googlebot" content="noindex, nofollow" />
<meta name="MSNbot" content="noindex, nofollow" />

หรือสำหรับ บอต ทุกยี่ห้อ
<meta name="robots" content="noindex, nofollow" />