大型网站谷歌收录与Crawl Budget预算:找回90%被遗漏的优质页面
打开网站后台的报表,数字的悬殊差距直逼眼底。一家上架了五十万款单品的五金工具电商网站,自然搜索流量报表里仅仅有四万五千个页面产生过点击。剩下高达四十五万五千个商品页,长达数月处于零曝光的状态。站长们习惯去检查内容源头,怀疑编辑撰写的商品描述不够出彩。翻看服务器日志文件,Googlebot每天准时准点光顾服务器八万次。五万两千次请求全部消耗在带有?sort=price的价格排序链接上。真正的商品本体连被蜘蛛看一眼的机会都没有。
三个月前检查一个二手车交易平台。车库里停放着三万辆待售现车,站内生成的详情页多达四万八千个,囊括了已售出未下架的历史记录。站长工具报表显示,每天新发布的一千两百个车源,只有不到五十个能在一周内出现在搜索结果里。蜘蛛每天分配给该域名的配额只有区区五千次。一辆2018年产的二手丰田凯美瑞页面,按常规浏览习惯,需要点击十七次鼠标才能到达。爬虫走到第八层目录层级就彻底停止了抓取动作。
排查日常收录停滞的现象,留意几项具体数据指标:
服务器状态码500占比突破百分之二点一
单机单日承受Googlebot抓取超三万次
网页跳转链条长度超过五次跳转
首字节到达时间长于八百五十毫秒
无尽滚动功能生成一万两千个多余分页
把视线转向内部链接架构的疏通。三万个常年没有销量的滞销商品内链被技术团队从首页撤下,腾出宝贵的展示位给两千个高利润新品。运用谷歌搜索中心文档里提到的rel="canonical"标签,把五个不同颜色的同款电钻页面,统一指向那把黄色的主打款链接。多余的四个颜色变体不再白白消耗爬虫的访问次数。原本分散在五万个页面的抓取频次,迅速集中到一万个主推页面上。后台流量表显示,当月该部分主推产品的独立访客突破了八万五千人次。
日常维护伴随大量的商品页面下架动作。下架2022年之前的旧款手机壳,产生了四千个404错误页面。蜘蛛每天坚持不懈地访问这批死链接,白白烧掉每天15%的访问限额。技术人员介入后,编写了三行正则表达式,将这批废弃地址用301状态码引流至全新的配件大类页。原本毫无用处的六百次无功而返的抓取,变成了对新栏目页面的权重传递。次月,新大类页面的日均点击量攀升到了两千三百次。
网站管理员需要对服务器日志保持敏感,每天抓取量低于页面总数三分之一的站点,大概率存在配额浪费现象。
不同类型网站的访问配额分配参考:
| 网站属性 | 拦截目录指引 | 放行抓取区域 | 预期收录量增幅 |
|---|---|---|---|
| B2C独立站 | 用户评价分页 | 本月首发新品 | 百分之二十五 |
| 房产信息网 | 租金排序参数 | 本周新挂牌房源 | 百分之三十八 |
| UGC社区 | 按时间排序标签 | 热门长篇万字帖 | 百分之四十二 |
| 软件下载站 | 历史旧版本安装包 | 更新日志专区 | 百分之十五 |
调整 robots.txt 文件的动作收效迅速。上周三下午两点,技术部在文件里添加了 Disallow 规则,拦截了站内搜索结果页/search/。当天夜里十一点,抓取统计信息里的闲置爬虫频次上升了百分之四十。原本两周毫无动静的三千个新上架水杯商品页,四十八小时内全部出现在搜索结果框里。自然搜索曝光量增加了六百八十万次,顺势迎来了九百多个新注册会员。
XML网站地图的提交讲究策略。把包含五十万条网址的单一地图文件,强行塞给搜索引擎,极易引发读取超时。开发团队花了两天时间,将其拆解成五十个独立的小文件,每个文件严格控制在一万条网址以内。搭配上<lastmod>标签精准标注网页的最后修改时间戳。爬虫读取效率肉眼可见地变快了。每天处理的网址数量从六千条跃升到了两万四千条。包含高清配图的四千篇长评测文章,在一个月内收获了每天六千次的稳定点击。
手机设备浏览流畅度严重左右着访问配额的发放。使用Chrome浏览器自带的Lighthouse工具测试,原本的网页体积高达四点五兆。大量未经压缩的PNG图片拉长了整站的加载节奏。网页开发人员换上了WebP图片格式,移除了两百行冗长的JavaScript代码。页面体积瞬间缩减到八百KB以内。服务器响应速度加快后,蜘蛛在固定时间内能带走两倍的资料。三千篇往期热门问答被重新激活,每篇每天多出了二十个真实的访客阅读记录。
多语言版本的网站吞噬着更为庞大的爬取限额。外贸商城开了八个语种站点,通过 hreflang 标签互相关联。原本六万个英文页面,衍生出四十八万个小语种页面。未加限制的自动翻译功能生成了五万个语法生硬的空白占位页。搜索引擎每天在毫无用处的占位页上浪费一万两千次访问。技术人员清理了三万个没有任何销量的冷门语言页,把有限的爬虫指引到英语和西班牙语这两个主力语种上。三个月内,西班牙语站点的日均自然访问人数从一百人涨到了四千五百人。
网页内部的无限滚动加载机制吞噬了大量抓取限额。浏览者向下滑动鼠标,不断冒出新的商品瀑布流。蜘蛛面对深不见底的滚动机制,往往抓取前三十个单品就转身离开。技术团队花了一周时间,把瀑布流改造成带有?page=1格式的静态分页结构。确保每一页都有明确的超文本标记指向下一页。六千个原本永远不见天日的深层商品,全部分配到了独立网址。上架超过半年的旧款库存,奇迹般地迎来了每天八百个的新访客。
清理冗余臃肿的代码标签。五千篇长篇行业观察文章,每篇文章附带了八十个不相干的推荐阅读标签。代码行数逼近三千行,真正的纯文本内容只占区区百分之十。爬虫下载网页的时间被无限拉长。修改网页模板设计,砍掉多余的侧边栏推荐位,把代码行数压缩到八百行以内。信噪比大幅提升。八万字的长篇文字内容,收录耗时从原本的十五天缩短到了惊人的十二小时。每天从文章带来的长尾词搜索流量稳定在三万两千次。
