k1体育2500页文档曝谷歌搜索黑幕:用户数据被挪用、设白名单机制、品牌主宰搜索排名

行业资讯 小编 发布时间:2024-05-30 浏览:

  k1体育智东西5月29日消息,近日,据市场和受众研究公司SparkToro在官网博客发布的文章,一位匿名消息人士(后证实为搜索引擎优化行业资深从业者Erfan Azimi)向SparkToro公司的CEO Rand Fishkin提供了来自谷歌搜索API的大量泄露文档,这些文档揭示了谷歌搜索引擎内部排名算法的详细信息。

  本次泄露文档中的部分内容与谷歌公开表态的信息以及2023年的美国司法部起诉谷歌的反垄断案件中的证词相矛盾。比如,谷歌曾一再否认使用点击导向的排名机制,否认子域名在排名中被单独考虑,否认收集或考虑域名的年限等等。但泄露文档证实,这些因素都是谷歌搜索引擎排名机制中的一环。

  此次泄露的谷歌搜索API文档共计2500余页,共包含14014个属性特征。这些文档据称是谷歌内部“Content API Warehouse”的一部分,并在代码托管平台GitHub上不慎公开了一段时间。

  博客作者Rand Fishkin在多位前谷歌员工的沟通中确认,泄露的文档具备谷歌内部API文档的特征。Rand Fishkin与和技术SEO(搜索引擎优化)专家Mike King进行交流,并再次验证了这些文档的真实性。

  这些文档的泄露可能对搜索营销领域产生深远的影响,因为它们提供了对谷歌搜索引擎内部工作机制的前所未有的洞察,包括它如何使用点击数据、浏览器点击流、白名单、质量评估员反馈和链接质量来影响搜索结果排名。

  一、泄露文档3月底便已公开,谷歌前员工确认文档线日,Rand Fishkin与爆料者Erfan Azimi进行了视频通话。Erfran Azimi一开始决定以匿名的形式爆料此事,但在5月28日他决定公开自己的身份。Erfan Azimi在通话中具体展示了本次泄露的谷歌搜索API文档。根据文档的提交历史记录,这些文档于2024年3月27日上传到代码托管平台GitHub,直到2024年5月7日才被删除。

  在向Rand Fishkin介绍了其中的一些API模块后,Erfan Azimi解释了他的动机。他希望能提升谷歌搜索排名机制的透明度,让谷歌对自己的行为承担责任。Erfan Azimi也希望Rand Fishkin能发表一篇文章分享这次泄露,揭示其中包含的许多有趣的数据,并驳斥一些谷歌员工多年来一直在传播的“谎言”。

  为进一步解读本次泄露的文档,Rand Fishkin联系了知名技术SEO专家,数字营销机构iPullRank的创始人Mike King。Mike King在iPullRank的官网博客上详细分析了泄露文件的内容,而Rand Fishkin综合爆料者透露的信息和Mike King的分析,总结出了以下5个早期发现:

  2017年,谷歌搜索关系团队(Search Relations team)的负责人John Mueller在一次采访中说道,谷歌没有直接在搜索排名算法中使用点击量数据和用户行为数据。然而2023年9月,曾在谷歌搜索质量和排名部门工作了17年的谷歌前员工Eric Lehman却在谷歌的反垄断调查听证会上作证说:“几乎所有人都知道我们(谷歌)正在搜索排名中使用点击量数据”。

  本次泄露的文档进一步坐实了这一点。文档内容显示,谷歌已经将点击量数据在文档中进行了命名和描述,这说明这些数据已经成为了搜索排名算法中的衡量标准之一。

  John Mueller在2022年的一场活动中被问到,谷歌是否会使用Chrome收集用户数据并对搜索结果进行排名。John Mueller的回应是据他所知,谷歌不会这么做。

  然而,Erfan Azimi声称,早在2005年,谷歌就希望获得数十亿互联网用户的全部点击流(clickstreams,即用户访问网站时留下的轨迹数据)。而有了Chrome,他们现在已经得到了这些数据。泄露的API文档显示,谷歌会计算几种类型的指标,这些指标可以使用与单个页面和整个域相关的Chrome视图来调用。

  例如,在上方的谷歌搜索截图中,谷歌会通过跟踪数十亿Chrome用户点击流,来对网站内部的页面进行排序。

  Mike King在他的分析文章中也指出,泄露文件中一个与页面质量评分相关的模块包含一个基于Chrome浏览量的站点级衡量标准。另一个似乎与生成站点链接相关的模块也具有一个与Chrome相关的属性。

  一份泄露的谷歌内部演示文稿也显示,早在2016年5月Chrome数据就有计划被引入谷歌搜索。

  在本次泄露的文档中,有一个叫做优质旅游网站的模块。这一模块说明谷歌在旅游领域存在一个白名单,但目前的信息还不能证明这一白名单机制是专门针对旅游相关的搜索,还是更为广泛的网络搜索。本次泄露的文档内还有一些标签,比如“isCovidLocalAuthority”和“isElectionAuthority”。这些标签进一步说明谷歌正在将特定域名列入白名单。这可能是为了在执行一些极具争议性的查询时,提供更为准确的信息。

  谷歌长期以来一直有一个名为EWOK的质量评级平台。本次泄露的文档表明,谷歌在搜索系统中使用了质量评估器中的一些元素。EWOK的质量评估者生成的分数和数据可能直接参与谷歌的搜索系统,而不仅仅是实验的训练集。这些数据在注释和模块细节中被特别提到了。

  上方图片中的内容提到了“人类评级(例如来自EWOK的评级)”,并指出它们“通常只填充在评估管道中”,这表明它们可能主要是该模块中的训练数据。

  Erfan Azimi指出,谷歌按照三个层级(低、中、高质量)来分类他们的链接索引。点击量数据被用于确定文档所属的链接图索引层。如果一个链接获得的点击量很小,它将进入低质量索引,这意味着链接将被忽略。但如果一个链接拥有来自可验证设备的大量点击量,它就会被归入高质量索引,这一链接也会表现出高排名信号。来而自低质量链接索引的链接不会影响网站的排名。这些链接仅仅是会被忽略。

  谷歌本次泄露的文档展现了谷歌搜索排名算法中不为人知的一面,这对搜索引擎优化界的从业者有很好的借鉴意义。

  尽管谷歌多次强调其算法的公平性和中立性,但这次泄露的文件再次引发了人们对谷歌透明度的质疑。

在线咨询

点击这里给我发消息QQ客服

在线咨询

免费通话

24h咨询:020-8888-8888


如您有问题,可以咨询我们的24H咨询电话!

免费通话

微信扫一扫

微信联系
返回顶部