การทำ robots.txt เข้ามาเก็บหน้าเว็บเพจของเรา

การกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่
robots.txt เป็น fileที่บอก Search engine ว่า ” ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML
เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด

ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง เราสามารถกำหนดได้ ข้อดีของมันคือ ยกตัวอย่างเช่น คุณมีไฟล์รูป xxx แล้วดันไปอัพในโฟลเดอร์ xxx/test.jpeg หากคุณไม่ซ่อน Robot ไว้รับรองได้เป็นดาราในเนตแน่นอนครับ ดังนั้นเราต้องมีอะไรที่ไม่ให้บอทมันวิ่งมาเก็บไฟล์ในโฟลเดอร์นี้เป็นต้น หากถามว่าทำไมต้องอัพ xxx ขึ้นไป อันนี้ผมยกตัวอย่าง อิอิ(อย่าอยากรู้นักเลยนะ เหอะๆ)

robots.txt จะต้องนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเวบไซค์)

ตัวอย่างไฟล์ robots.txt
# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact  hackicq@hotmail.com

User-agent: *
Disallow: /xxx/
Disallow: /pic/
Disallow: /images/

ความหมาย และคําอธิบาย

# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact hackicq@hotmail.com

ปิดกั้นด้วย # เป็นคําอธิบาย (comment) เพื่อให้ Spider ไม่สนใจข้อความในบรรทัดนี้
จากตัวอย่างคือไม่ให้ Robot เข้าไปเก็บข้อมูลที่โฟลเดอร์
/xxx/
/pic/
/images/

User-agent : webcrawler
Disallow :
อนุญาตให้ webcrawler ทําดัชนีได้โดยไม่มีข้อกําหนด

User-agent : lycra
Disallow : /
ไม่อนุญาตให้ lycra ทําดัชนีที่ Server นี้ โดยปิดกั้นด้วย /

User-agent: *
Disallow:

หากแบบนี้คืออนุญาตทั้งหมดครับดูตัวอย่างได้ที่ http://blog.gootum.com/robots.txt


ที่มา : http://blog.gootum.com/seo-blog/robotstxt