配置Magento 2的robots.txt

robots.txt是一个文件,可指导搜索引擎爬网程序进行哪些爬网操作或不进行哪些爬网操作。

如果在你网站的根目录中没有robots.txt,搜索引擎抓取工具会抓取它们可以抓取的所有内容,其中包括重复的页面或不重要的页面。

您不希望搜索引擎抓取工具浪费抓取预算 的话。robots.txt应该可以解决此问题。

注意:robots.txt文件不适用于从Google隐藏你的网页。你可以使用noindex 标记。

 

Magento 2中的默认robots.txt指令

默认情况下,Magento生成的robots.txt文件仅包含有关Web爬网程序的一些基本说明

# Default instructions provided by Magento
User-agent: *
Disallow: /lib/
Disallow: /*.php$
Disallow: /pkginfo/
Disallow: /report/
Disallow: /var/
Disallow: /catalog/
Disallow: /customer/
Disallow: /sendfriend/
Disallow: /review/
Disallow: /*SID=

后台可以生成这些默认内容,点击Reset to Defaults按钮。

Reset to default robots.txt instructions

 

 

为什么需要在Magento 2中制作自定义robots.txt指令

尽管Magento提供了默认的robots.txt指令来告诉抓取工具避免抓取系统内部使用的某些文件,但对于大多数Magento商店而言,它们还远远不够。

搜索引擎机械手只有有限数量的资源可用于爬网网页。对于具有成千上万个甚至上百万个URL进行爬网的站点(这比您想象的要普遍得多),您需要确定需要爬网的内容的优先级(使用sitemap.xml),并禁止不相关的内容网页被抓取(使用robots.txt)。后一部分是通过禁止在robots.txt中抓取重复的,无关的和不必要的页面来完成的。

 

robots.txt指令的基本格式

# Rule 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Rule 2
User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml
  • User-agent: 表示该规则适用的特定搜寻器。一些常见的用户代理是GooglebotGooglebot-ImageMediapartners-GoogleGooglebot-Video,等对于广泛的共同爬虫的列表,请参阅谷歌爬虫的概述
  • Allow&Disallow : 指定指定的搜寻器可以访问或不能访问的路径。例如,这Allow: /意味着搜寻器可以不受限制地访问整个站点
  • Sitemap : 表示商店的站点地图的路径。Sitemap是一种可以告诉搜索引擎抓取工具优先处理哪些内容的好方法,而robots.txt中的其余内容则告诉抓取工具他们可以抓取或不能抓取哪些内容

 

同样,在robots.txt中,您可以将多个通配符用于路径值,例如:

  • *: 输入user-agent时,星号(*)表示访问该网站的所有搜索引擎搜寻器(AdsBot搜寻器除外)。在Allow/Disallow指令中使用时,它表示0个或多个任何有效字符的实例(例如,Allow: /example*.css匹配/example.css以及/ example12345.css).
  • $: 指定URL的结尾。例如,Disallow: /*.php$将阻止所有以.php结尾的文件
  • #: 指定注释的开始,搜寻器将忽略该注释。

注意:除了sitemap.xml路径之外,robots.txt中的路径始终是相对路径,这意味着您不能使用完整的URL(例如https://simicart.com/nogooglebot/)来指定路径。

 

在Magento 2中配置robots.txt

管理员登录后台

1,去 Content > Design > Configuration

2,编辑Global配置

Edit global design configuration

3,找到Search Engine Robots 这一栏, edit custom instructions

Edit custom instructions of robots.txt file

 

推荐的robots.txt说明

这是我们建议的说明,该说明应适合一般需求。当然,每个商店都不一样,您可能需要调整或添加更多规则以获得最佳效果。

# Default instructions:
User-agent:*
Disallow: /lib/
Disallow: /*.php$
Disallow: /pkginfo/
Disallow: /report/
Disallow: /var/
Disallow: /catalog/
Disallow: /customer/
Disallow: /sendfriend/
Disallow: /review/
Disallow: /*SID=

# Disallow common Magento files in the root directory:
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt

# Disallow User Account & Checkout Pages:
Disallow: /checkout/
Disallow: /onestepcheckout/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/

# Disallow Catalog Search Pages:
Disallow: /catalogsearch/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/

# Disallow URL Filter Searches
Disallow: /*?dir*
Disallow: /*?dir=desc
Disallow: /*?dir=asc
Disallow: /*?limit=all
Disallow: /*?mode*

# Disallow CMS Directories:
Disallow: /app/
Disallow: /bin/
Disallow: /dev/
Disallow: /lib/
Disallow: /phpserver/
Disallow: /pub/

# Disallow Duplicate Content:
Disallow: /tag/
Disallow: /review/
Disallow: /*?*product_list_mode=
Disallow: /*?*product_list_order=
Disallow: /*?*product_list_limit=
Disallow: /*?*product_list_dir=

# Server Settings
# Disallow general technical directories and files on a server
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php

# Disallow version control folders and others
Disallow: /*.git
Disallow: /*.CVS
Disallow: /*.Zip$
Disallow: /*.Svn$
Disallow: /*.Idea$
Disallow: /*.Sql$
Disallow: /*.Tgz$

Sitemap: https://www.example.com/sitemap.xml

 

 

发表评论