在使用 Ahrefs 创建新项目并配置 site audit 站点扫描时,可能会遇到各种问题。在 SEO 优化中常使用 Ahrefs 扫描作为补充,以下是常见问题及解决方法,希望对大家有所帮助。
一、Robots.txt 规则禁止爬取
问题描述:
当看到 “Robots.txt 规则禁止爬取” 的错误消息时,可能是 robots.txt 文件在阻止 Ahrefs 爬取目标网站。
解决方法:
- 使用 Ahrefs 的 robots.txt 检查器(https://ahrefs.com/robot/site-audit)检查 robots.txt 文件,确保没有对 AhrefsSiteAudit 或 AhrefsBot 的禁止规则。
- 若使用 Shopify,建议手动修改 robots.txt.liquid,并在 robots.txt 文件中添加以下内容以允许 Ahrefs 爬虫访问。
User-agent: AhrefsSiteAudit
Allow: /
User-agent: AhrefsBot
Allow: /
二、IP 被阻止 / 获取 robots.txt 时间过长 / 无法连接到服务器
问题描述:
出现 “IP 被阻止”、“获取 robots.txt 时间过长” 或 “无法连接到服务器” 等错误信息,可能是服务器或托管服务提供商阻止了 Ahrefs 的访问。
解决方法:
- 将 Ahrefs 的 IP 地址添加到服务器的白名单中。可在 https://help.ahrefs.com/about-ahrefs/what-is-the-list-of-your-current-ip-ranges 找到 Ahrefs 的 IP 地址列表。
- 联系托管服务提供商,确认是否在阻止 Ahrefs 的访问,并请求解除封锁。
- 检查是否有插件(如 Incapsula)阻止了 Ahrefs 的访问,并禁用或配置这些插件。
三、HTTP 服务器返回错误 403:“禁止访问”
问题描述:
此错误消息通常意味着 Ahrefs 被网站防火墙或插件阻止。
解决方法:
将 Ahrefs 的 IP 地址和 user-agent(AhrefsSiteAudit 和 / 或 AhrefsBot)添加到网站防火墙或插件的白名单中。
四、错误 406 Not Acceptable:防火墙
问题描述:
此错误消息可能是由于网络服务器配置、托管服务提供商管理的防火墙、CDN 的保护等原因导致。一些已知的例子包括:ModSecurity、Sucuri、Cloudflare。
解决方法:
- 错误消息可能会提供一些可能原因的提示,仔细阅读错误信息以获取更多线索。
- 联系站长、托管公司或 CDN,要求他们解封 Ahrefs 的 bot。
五、其他问题
如果以上方法都无法解决问题,可以尝试以下操作:
- 确保网站可以正常访问,并且没有出现服务器错误或其他技术问题。
- 清除浏览器缓存和 cookies,然后重试。
- 联系 Ahrefs 的客服团队寻求帮助。
六、Ahrefs 爬虫的相关信息
(一)Ahrefs Bot 的 UA、IP 范围以及 API
截止 2024 年 10 月 23 日,Ahrefs 有两种爬虫:
- AhrefsBot:是 Ahrefs 的网络爬虫,如同 Google 的 Googlebot,负责日常抓取。主要工作是抓取和索引网页内容,为用户提供 SEO 分析数据。
- AhrefsSiteAudit:为 Ahrefs 网站审计工具提供动力的网络爬虫。用户可使用网站审计分析网站,找到技术 SEO 和页面 SEO 问题。该机器人可抓取任何网站,除非不允许,并防止网站服务器上过多的负载,默认限制抓取 1 请求每 2 秒。若网站所有者,可在站点审计工具中验证所有权后以更高速度抓取自己的网站,并允许 AhrefsSiteAudcrawler 忽略 robots.txt。
(二)关于 Ahrefs 爬虫的 FAQs
- Ahrefs 爬虫会遵守 robots.txt 文件吗?
答:默认情况下会遵守。只有经过验证的所有者才能允许 AhrefsSiteAudit 爬虫在其网站上违反 robots.txt。
- AhrefsSiteAudit 机器人在我的网站上做什么?
答:如果在服务器日志中看到 AhrefsSiteAudit,意味着有人使用 Ahrefs 的站点审核工具对网站进行了分析。该机器人会抓取网站并跟踪其内部链接,还会检查网站资源,如 CSS 文件、JS 文件和图像。
- Ahrefs 爬虫会不会影响 GA 数据?
答:AhrefsSiteAudit 抓取工具不会向 Google Analytics 4 流量添加数字。
希望以上信息能够帮助大家解决 Ahrefs 扫描出错的问题。