我通过谷歌的网站管理员工具发现,谷歌正在抓取路径,这些路径看起来像是json中嵌入的链接
问题是json包含的路径不是有效的链接,Google将它们视为链接,因此它试图对它们进行爬网,并获得稳定增长的404数量,从而增加不必要的爬网程序流量。
我能做些什么来阻止google尝试爬网这些路径?我可以给机器人添加一些图案。txt,但我想确保google完全忽略脚本标记的内容,而不是试图解析看起来像链接的路径。
尝试此标记:
<!--googleoff: all-->
<script type="application/json">
// your json content here
</script>
<!--googleon: all>
如本文所述。
再加上几篇文章:
准备爬网
常见问题解答-如何使用googleon/googleoff标签?
附言:
更安全的方法是:如果可能,
尝试使用“动态”生成的内容,如ajax加载。