配置Magento 2的robots.txt
robots.txt是一个文件,可指导搜索引擎爬网程序进行哪些爬网操作或不进行哪些爬网操作。
如果在你网站的根目录中没有robots.txt,搜索引擎抓取工具会抓取它们可以抓取的所有内容,其中包括重复的页面或不重要的页面。
您不希望搜索引擎抓取工具浪费抓取预算 的话。robots.txt应该可以解决此问题。
注意:robots.txt文件不适用于从Google隐藏你的网页。你可以使用noindex 标记。
Magento 2中的默认robots.txt指令
默认情况下,Magento生成的robots.txt文件仅包含有关Web爬网程序的一些基本说明
# Default instructions provided by Magento User-agent: * Disallow: /lib/ Disallow: /*.php$ Disallow: /pkginfo/ Disallow: /report/ Disallow: /var/ Disallow: /catalog/ Disallow: /customer/ Disallow: /sendfriend/ Disallow: /review/ Disallow: /*SID=
后台可以生成这些默认内容,点击Reset to Defaults按钮。
为什么需要在Magento 2中制作自定义robots.txt指令
尽管Magento提供了默认的robots.txt指令来告诉抓取工具避免抓取系统内部使用的某些文件,但对于大多数Magento商店而言,它们还远远不够。
搜索引擎机械手只有有限数量的资源可用于爬网网页。对于具有成千上万个甚至上百万个URL进行爬网的站点(这比您想象的要普遍得多),您需要确定需要爬网的内容的优先级(使用sitemap.xml),并禁止不相关的内容网页被抓取(使用robots.txt)。后一部分是通过禁止在robots.txt中抓取重复的,无关的和不必要的页面来完成的。
robots.txt指令的基本格式
# Rule 1 User-agent: Googlebot Disallow: /nogooglebot/ # Rule 2 User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
User-agent: 表示该规则适用的特定搜寻器。一些常见的用户代理是
Googlebot
,Googlebot-Image
,Mediapartners-Google
,Googlebot-Video
,等对于广泛的共同爬虫的列表,请参阅谷歌爬虫的概述。
Allow&
Disallow : 指定指定的搜寻器可以访问或不能访问的路径。例如,这
Allow: /
意味着搜寻器可以不受限制地访问整个站点
Sitemap : 表示商店的站点地图的路径。Sitemap是一种可以告诉搜索引擎抓取工具优先处理哪些内容的好方法,而robots.txt中的其余内容则告诉抓取工具他们可以抓取或不能抓取哪些内容
同样,在robots.txt中,您可以将多个通配符用于路径值,例如:
*: 输入
user-agent
时,星号(*)表示访问该网站的所有搜索引擎搜寻器(AdsBot搜寻器除外)。在Allow
/Disallow
指令中使用时,它表示0个或多个任何有效字符的实例(例如,Allow: /example*.css
匹配/example.css以及/ example12345.css).$: 指定URL的结尾。例如,
Disallow: /*.php$
将阻止所有以.php结尾的文件#: 指定注释的开始,搜寻器将忽略该注释。
注意:除了sitemap.xml路径之外,robots.txt中的路径始终是相对路径,这意味着您不能使用完整的URL(例如https://simicart.com/nogooglebot/)来指定路径。
在Magento 2中配置robots.txt
管理员登录后台
1,去 Content > Design > Configuration
2,编辑Global配置
3,找到Search Engine Robots 这一栏, edit custom instructions
推荐的robots.txt说明
这是我们建议的说明,该说明应适合一般需求。当然,每个商店都不一样,您可能需要调整或添加更多规则以获得最佳效果。
# Default instructions: User-agent:* Disallow: /lib/ Disallow: /*.php$ Disallow: /pkginfo/ Disallow: /report/ Disallow: /var/ Disallow: /catalog/ Disallow: /customer/ Disallow: /sendfriend/ Disallow: /review/ Disallow: /*SID= # Disallow common Magento files in the root directory: Disallow: /cron.php Disallow: /cron.sh Disallow: /error_log Disallow: /install.php Disallow: /LICENSE.html Disallow: /LICENSE.txt Disallow: /LICENSE_AFL.txt Disallow: /STATUS.txt # Disallow User Account & Checkout Pages: Disallow: /checkout/ Disallow: /onestepcheckout/ Disallow: /customer/ Disallow: /customer/account/ Disallow: /customer/account/login/ # Disallow Catalog Search Pages: Disallow: /catalogsearch/ Disallow: /catalog/product_compare/ Disallow: /catalog/category/view/ Disallow: /catalog/product/view/ # Disallow URL Filter Searches Disallow: /*?dir* Disallow: /*?dir=desc Disallow: /*?dir=asc Disallow: /*?limit=all Disallow: /*?mode* # Disallow CMS Directories: Disallow: /app/ Disallow: /bin/ Disallow: /dev/ Disallow: /lib/ Disallow: /phpserver/ Disallow: /pub/ # Disallow Duplicate Content: Disallow: /tag/ Disallow: /review/ Disallow: /*?*product_list_mode= Disallow: /*?*product_list_order= Disallow: /*?*product_list_limit= Disallow: /*?*product_list_dir= # Server Settings # Disallow general technical directories and files on a server Disallow: /cgi-bin/ Disallow: /cleanup.php Disallow: /apc.php Disallow: /memcache.php Disallow: /phpinfo.php # Disallow version control folders and others Disallow: /*.git Disallow: /*.CVS Disallow: /*.Zip$ Disallow: /*.Svn$ Disallow: /*.Idea$ Disallow: /*.Sql$ Disallow: /*.Tgz$ Sitemap: https://www.example.com/sitemap.xml