A-AA+then

บางครั้งเราก็ไม่ต้องการให้ bot ของ Search Engine เข้ามาทำการ Index บางหน้าหรือบางไดเร็คทอรี่ของเว็บไซต์ เช่น หน้าลงทะเบียน หรือ ไดเร็คทอรี่ของ Admin เป็นต้น เราสามารถกำหนดลงใน ไฟล์ robots.txt ได้ครับ

สำหรับคำสั่งที่สามารถใช้ใน robots.txt ได้ มีดังนี้ครับ

# ข้อความบรรทัดนี้คือ comment
User-agent: * หมายถึงทุก Search Engine
User-agent: Search Engine หมายถึง ชื่อ Search Engine ที่ระบุ
Disallow: ไม่มีอะไรต่อท้าย หมายถึงยอมให้ Search Engine เข้ามาทำ Index ได้
Disallow: / หมายถึง ไม่ให้ Search Engine ทำการ Index ตั้งแต่ไดเร็คทอรี่ราก หรือ
Disallow: /path/to หมายถึงไม่ให้ Search Engine ทำการ Index ไดเร็คทอรี่ที่กำหนด หรือ
Disallow: /*.ext$
หมายถึงไม่ให้ Search Engine ทำการ Index ไฟล์ที่นามสกุลที่เรากำหนด

ไฟล์ robots.txt นี้ เราจะสร้างด้วย notepad ธรรมดาแล้วอัปโหลดไว้บนไดเร็คทอรี่รากของ server ครับ

ตัวอย่างการกำหนดในไฟล์ robots.txt

ไม่ต้องการให้ SE เข้ามาทำ Index site ของเรา (ทุกยี่ห้อเลย)

User-agent: *
Disallow: /

กำหนด บาง SE ไม่ให้ทำการ index site ของเรา (ทั้งเว็บไซต์)

User-agent: Googlebot
User-agent: msnbot
Disallow: /

ป้องกัน บางไดเร็คทอรี่ (ไดเร็คทอรี่ path/)

User-agent: *
Disallow: /path

หรือ (ไดเร็คทอรี่ path/to/)
Disallow: /path/to
ป้องกันบางไฟล์ เช่น ไฟล์ page.php ในไดเร็คทอรี่ path/to

User-agent: *
Disallow: /path/to/page.php

หรือ สำหรับไม่ให้ SE ทำ Index ไฟล์ นามสกุล jpg ทั้งหมด

Disallow: /*.jpg$
นอกจากนั้นเรายังสามารถกำหนดลงใน meta ของ เพจได้ด้วย สำหรับทำการป้องกันแค่บางเพจที่เราต้องการ

<meta name="Googlebot" content="noindex, nofollow" />
<meta name="MSNbot" content="noindex, nofollow" />

หรือสำหรับ บอต ทุกยี่ห้อ

<meta name="robots" content="noindex, nofollow" />

SEO

Relate

^