设计出品
扫描关注网站建设微信号

扫一扫微信二维码

基于人工智能的搜索算法是什么样的?

新乡云优化2020-03-07经验之谈
基于人工智能的搜索算法是什么样的?
三年前,我出生于Google AlphaGo时,我写了一篇名为AlphaGo,深度学习和SEO的出版物。从那时起,我一直非常关注人工智能和搜索算法的进步。
人工智能和搜索算法
我不知道搜索算法何时将基于大规模AI,也不知道搜索算法中目前使用了多少AI技术。由于当前人工智能技术的莫名其妙,搜索引擎在将AI用作其算法的基础时将非常谨慎,否则将不容易调试。
但是,AI在算法中某些模块上的应用是正确的。之前已经介绍了百度DNN模型和Google的RankBrain算法。两者都是搜索算法中的AI应用程序。
那么,完全基于人工智能的搜索算法是什么样的呢?工作原理和工作流程是什么?简要解释一下我的理解。
优势和对人工智能的追求。
当前实现人工智能的主要方法是机器学习的深度学习分支,在此出版物中没有严格区分。
简而言之,人工智能为系统提供了大量训练数据,而人工智能则可以从中找到模式和规则。提供给AI系统的数据被标记,或将结果告知AI系统。例如,在Go中,人工智能系统具有很多历史象棋数据(后来的Alpha甚至不需要历史象棋游戏,只需要个人比赛数据),并且结果这些游戏中有标签。然后,AI系统学习棋盘位置与结果(赢或输)之间的关系。
在搜索中,人工智能系统在页面上具有大量数据,即搜索引擎索引库本身,并且还需要标签,这是说,要知道哪些页面是高质量的?哪些搜索结果适合查询词?然后,AI算法自行学习页面特征(即分类因素)与分类之间的关系。
传统的搜索算法是:搜索工程师手动选择分类因子,并手动给分类因子赋予一定的权重,然后根据f车计算分类。给定公式。该方法的缺点是,当数据量大且分类因子较多时,很难调整分类因子的权重。初始权重很可能基于常识,加上爆头,它们具有很大的主观任意性。当有数百个因素相互影响时,调整这些因素的权重将变得混乱且不可预测。
从海量数据中找到模式是AI擅长的。 AI可以快速找到可能的分类因子,调整分类因子的权重,自动迭代计算并调整分类因子与结果之间的计算公式用户满意的搜索数量。
通过训练数据训练的计算公式是AI搜索算法,用户可以将其应用于更多搜索。
谁来标记?
由于标记的数据是训练AI搜索算法所必需的,因此该标记的数据来自何处?这就是搜索引擎质量评估员的工作。
最近出版的《 Google质量保证指南》详细介绍了质量顾问的工作。这些真实用户(不是Google员工)在研究了质量评估指南后,Google为评估人员提供了一个真实的网站,并在评估系统中提供了真实的查询字词数据,然后评估者执行相关评估。最重要的是:
评价页面质量
特定查询词的搜索结果评分
Google质量评估器已经存在很长时间了,不应招聘Google开发质量评估器来开发AI算法,而是评估传统算法的质量。但是它们的评估数据已被人工智能系统有效地使用。
通过这种方式,AI系统知道用户对给定查询词的搜索结果满意的页面以及搜索顺序。
既然人工智能系统具有大量的页面功能数据,并且知道真实用户可以满足哪些搜索结果,下一步就是使系统能够找到功能之间的关系。页面和搜索分类。
人工智能搜索算法的培训
搜索引擎可以将标记为标签的搜索结果数据分为两组。一种游戏用于训练,另一种用于验证。
AI算法会验证页面在训练组的搜索结果中具有哪些特征,这些特征应具有的权重以及什么类型的计算公式可用于计算用户满意(带标签)的搜索结果。
与传统算法不同,工程师不会确定这些特征(分类因子)以及这些特征给出多少权重,而是由AI系统本身进行搜索和评估。这些因素可能是工程师想要并长期使用的,例如:
页面的关键字密度
页面内容长度
页面上有广告吗?
页面上有多少个外部链接?
页面上有多少个内部链接?
该查询字词锚定了页面上的多少链接
该页面的域名有多少个链接?
页面打开的速度
等等,也许有成千上万
也许工程师甚至都没有考虑过,也许有些不相关且不合理的东西,例如:
页面正文中使用了哪些字符?
文章作者的名字是三个字。
该页面是哪一天第一次爬网?
页面上的外部链接数量是唯一的,甚至是
以上仅是一个示例:为了说明,人工智能不是寻求因果关系,而是寻求关联。只要AI看到分类页面的特征,就足够了。至于将这些特征与分类相关联是否合理,则不是AI问题,您不必担心。
当然,某些因素可能是负面的,例如域名的长度,这可能与高排名负相关。
AI系统的训练过程是找到这些分类因素(无论人类看起来是否好看),对这些因素给予一定的权重,并调整计算公式以排除用户满意的搜索结果。该调整过程必须是迭代的。权重值和公式将不起作用。它将自动调整并再次计算,直到评估者标记的搜索结果得到完美调整。此培训过程可能需要几天,甚至几周,具体取决于数据量。
AI搜索算法验证
经训练的AI搜索算法可以应用于不在训练数据中的其他查询词。
首先使用上述验证组数据进行验证。如果新训练的算法提供的搜索结果与验证组的数据匹配(也由评估者标记),则表示该算法很好并且可以连接。如果AI算法提供的搜索结果与验证组搜索结果中的页面不同,或者页面基本相同,但是顺序非常大与此不同,您可能需要重新培训AI系统。
当然,要获得所有查询词,AI算法提供的搜索结果与评估者最满意的标签的搜索结果完全相同,这不太可能。 。据估计,例如,只要在前面,主要20页的顺序的差异就在一定的公差范围内。等级越高,容错率越低,例如,第一和第二等级的页面不正确,这比后来的分类页面更严重。第三页。
经过验证的算法可以连接并接受真实用户的测试。这很可能暗示SEO通常认为与排名相关的排名因素,但是搜索引擎始终否认:用户体验数据是排名因素吗?
有关SEO排名因素的许多统计数据表明,页面点击率,跳出率,用户保留时间,访问深度和排名是高度相关,但是Google始终明确否认这些数据是分类因素。当然,对于百度来说,点击率显然是排名因素。
原因很可能是搜索引擎需要使用此用户体验数据来验证搜索算法的质量。如果用户的整体点击率降低而跳出率增加,则意味着新推出的算法存在问题,需要进行调整。尽管搜索引擎不会直接使用用户数据进行排名,但是该算法的目的是改善用户数据,以便两者高度相关。
启动新的AI算法后,搜索引擎监视的用户数据表明用户满意并且算法成功,等待下一次优化。
以上纯粹是推测。
文章关键词