การอนุญาตให้เฉพาะ Search Engine หลักเท่านั้นเข้ามาเก็บข้อมูลเว็บไซต์เราได้

ในปัจจุบัน Bot ของ Search Engine ต่างๆมีมากมายนับไม่ถ้วน ซึ่ง Bot บางตัวก็ไม่ได้มีประโยชน์อะไรกับเราเลย เราจึงควรจำกัด Bot ที่ไม่ได้เป็นผลดีต่อเรานักออกไปซะบ้าง เพราะยิ่ง Bot เข้ามาเยอะเท่าไร มันก็มีผลให้ Server ของเราทำงานหนักขึ้นโดยไม่จำเป็นเท่านั้น

วิธีในการ Block Bot ก็มีหลายวิธี เช่น ใช้ .htaccess ในการบล็อกการเข้าถึง
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]

ตัวอย่างด้านบน googlebot bingbot Baiduspider คือ Search Engine ที่ถูกบล็อก เราสามารถเพิ่มได้อีกครับ โดยเวลาใส่ให้คั่นแต่ละรายการด้วย |
ข้อเสียของการใช้ htaccess ในการบล็อก Search Engine คือเราต้องใส่รายการเยอะมาก เพราะมี Bot ที่ควรบล็อก มากกว่า Bot ที่ควรอนุญาต

อีกวิธีที่ผมแนะนำคือการใช้ความสามารถของ robots.txt ในการจัดการกับ Serch Engine ซึ่งเป็นหน้าที่ของมันโดยตรงอยู่แล้ว
หลักการก็คือบล็อก Search Engine ทั้งหมดไว้ก่อน
User-agent: *
Disallow: /

จากนั้นค่อยเลือก Search Engine ที่จะอนุญาต ซึ่งมีน้อยกว่า
User-agent: Googlebot
Allow: /

โค้ดเต็มๆที่ผมใช้อยู่ โดยจะอนุญาตเฉพาะ Bot หลักๆเท่านั้นให้สามารถมา Index เว็บไซต์ของเราได้
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Google
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Bing
Allow: /
User-agent: Slurp
Allow: /
User-Agent: MSNBot
Allow: /
User-Agent: MSNBot-Media
Allow: /
User-Agent: BingPreview
Allow: /

Related

^