谷歌不收录中文网站语言设置:改错这3个地方流量直接掉没
出海企业的独立站后台常常挂满零访问量的中文网页。每天更新5篇5000字的行业文章,文章发布30天后在搜索框输入网址查询,界面只显示一片空白的未找到相关网页。服务器每天消耗着数千G的带宽,引来的只有垃圾邮件脚本,真实的搜索引擎爬虫绕开了所有的中文目录。机器爬虫通过固定的协议读取网页。一处字母拼写错误,整站的索引权限会被系统挂起停用。
Hreflang 标签断层切断了传递链条。国际站点依靠一段特定的代码指挥访客。这段代码写在网页的头部区域,向机器说明当前网页对应哪种语言的读者。在排查的100个多语言站点中,72个出现了代码断层现象。一份英文原版页面包含了指向中文页面的代码,中文页面漏掉了指向英文页面的对应代码。爬虫校验这种关系时需要双向确认。单向的指引会被算法当作错误指令丢弃。
缺失网页本身的自我引用代码。
简体中文代码写成非标准格式。
繁体中文使用了无效的地区缩写。
跨语种链接采用了带有参数的动态URL。
网站地图文件与网页头部代码产生指令冲突。
网页头部的前100KB包含了大量渲染指令。把代码推挤到了100KB以后,爬虫来不及读取便截断连接。一个包含英语、日语、简体中文、繁体中文4个版本的产品页面需要编写16行互相关联的代码。网站有1万个产品,产生了16万个链接关系。一条出错会连带影响整组页面的评分。检查谷歌搜索控制台的报表,屏幕上会显示无返回标签的红色警告。1000个外语页面产生的警告数量可能高达800个。这种断层切断了不同语言页面间的权重传递。中文网页变成了一座孤岛,无法获得英文主站积累的域名信任度。
Lang 属性代码套用引发了识别错乱。前端模板的标头控制着浏览器的首选渲染语言。建站公司套用英文模板制作中文分站,忘记修改标头。网页里填满了10万字的中文产品介绍,顶部的代码依然向外宣告这是一份英文文件。爬虫在每天抓取200亿个网页的高压任务下极其依赖底层标签进行快速分类。标记错误的页面进入处理队列后,自然语言处理程序提取字符,发现匹配度不足10%。运算资源的浪费使得爬虫降低对该域名的抓取频率。原本每天来访10次,数日后下降到每月1次。
网页编辑器自动覆盖语言标头。
单页面应用切换路由时未刷新底层标签。
网站包含大量机器翻译的英文字符。
头部元描述使用全英文填写。
缺少配套的字符集声明代码。
网页需要配合UTF-8声明字符集。老旧的建站程序仍在使用GBK编码,遇到海外服务器解析,中文字符变成了一堆乱码。乱码网页的跳出率高达95%。分析50个流量暴跌的外贸网站发现,其中38个网站的中英文页面采用了完全相同的HTML文档结构与语言标头。机器审核程序把这些中文网页视作英文网页的劣质仿制品。打开浏览器开发者工具,按下F12键,查看源代码第一行。正确的简体中文代码是zh-Hans。写错的标头会把网页推向不可知的深渊,搜索引擎对混乱信息的处理方式常常是不予收录。
谷歌技术博客曾发布一组测试数据显示,正确标注语言属性的页面初次收录速度比无标注页面快14天。
IP检测与强制定向彻底锁死了抓取通道。运维部门配置了一项针对海外IP的自动跳转规则。访客的IP地址位于大中华区以外,服务器返回一个302状态码,强行把网页切换到英文首页。位于美国加州的谷歌数据中心派出了无数爬虫。这些爬虫带着北美的IP地址发起获取中文页面的请求。服务器瞬间响应,拦截了爬虫,下发跳转指令。爬虫掉头前往英文页面。中文目录下存放的500款机器零件详情页、20万字的中文操作手册,爬虫一个字都看不到。
Nginx配置了全域IP地理位置拦截。
CDN边缘节点启动了语言强跳脚本。
弹窗脚本附带了强制重定向功能。
屏蔽了无来源信息的爬虫请求。
移动端适配与语言跳转产生无限循环。
谷歌在官方指南中禁止基于IP的重定向策略。爬虫发送的请求头中包含en-US的语言偏好。服务器依据这条信息做决定,中文页面将永远被屏蔽。使用动态渲染工具呈现中文内容的站点常出现白屏加载时间超过5000毫秒的情况。爬虫的耐心极度有限,超过3000毫秒未获取到有效文本便放弃抓取。导出服务器的访问日志检索带有Googlebot标识的记录。一整天的记录里塞满了302跳转记录,找不到一条200状态码的成功读取记录。爬虫被锁死在英文网页里打转,中文网页的自然搜索流量数周内清零。
| 检查项目 | 正常状态码与代码 | 异常表现 |
|---|---|---|
| 首页多语言跳转 | 200 OK | 302强跳 |
| 简中语言代码 | zh-Hans | zh-cn |
| 代码读取位置 | 前100KB内 | 尾部加载 |
| 爬虫模拟测试 | 抓取中文字符 | 返回全英 |
建立正确的网页基础环境需核对多项参数。舍弃花哨的自动跳转功能。在网页的右上角放上一个简单的语言切换菜单。把选择权交还给访客和机器爬虫。清理掉多余的语言包插件,请熟悉底层代码的工程师手写一遍完整的多语言地图。查看谷歌站长工具的抓取统计报告。只要看到抓取量从每天10次上升到每天500次,前期的改写工作便产生了实质的效用。千万篇中文文章就能正正当当地出现在搜索结果的前排。
