Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),您可以在您的網站中創建一個純文本文件robots.txt,在文件中聲明該網站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
珠海網絡推廣
robots.txt文件的用處是非常大的,它在網站建設和
SEO優化中起著很關鍵的作用。搜索引擎在訪問任意網站的網頁之前,都會查看是否存在阻止它們訪問特定網頁的robots.txt文件。
我們給出樣本,并且應該把robots.txt文件放置在網站根目錄下:
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
譬如,如果您想告訴Excite搜索引擎的Spider(ArchitextSpider),不檢索您站點中三個特定頁面,您可這樣操作:
User-agent: ArchitextSpider
Disallow: /orderform.html
Disallow: /product1.html
Disallow: /product2.html
如果您不想讓Excite的Spider檢索在abc目錄下的def.htm文件:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
不檢索整個mydirectory目錄:
User-agent: ArchitextSpider
Disallow: /mydirectory/
不讓所有Spider檢索:
User-agent: *
不檢索整個站點:
Disallow: /
我們給出其他實例:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
User-agent: Infoseek
Disallow: /ghi/jkl.htm
User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: /abc/def.htm