机器之心编辑部
在前段韶光举办的「Search On」活动中,谷歌宣告,BERT 现在险些为谷歌搜索引擎上的每一个基于英文的查询供应支持。而在去年,这一比例仅为 10%。
BERT 是谷歌开源的一款自然措辞处理预演习模型,一经推出就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。
(图片来自网络侵删)详细到搜索引擎来说,BERT 可以帮助搜索引擎更好地理解 web 页面上的内容,从而提高搜索结果的干系性。BERT 模型中创新性的Transformer架构是一大亮点。Transformer 处理一个句子中与所有其他单词干系的单词,而不是按顺序逐个处理。基于此,BERT 模型就可以借助某个单词前后的词来考虑其所处的完全语境,这对付理解查询语句背后的意图非常有用。
2019 年 9 月,谷歌宣告将 BERT 用到搜索引擎中,但仅有 10% 的英文搜索结果得到改进;2019 年 12 月,谷歌将 BERT 在搜索引擎中的利用扩展到 70 多种措辞。如今,这家搜索巨子终于宣告:险些所有英文搜索都能用上 BERT 了。
BERT 对付搜索引擎意味着什么?
作为自然措辞处理领域里程碑式的进展,BERT 为该领域带来了以下创新:
利用无标签文本进行预演习;
双向高下文模型;
transformer 架构的运用;
masked 措辞建模;
把稳力机制;
文本蕴涵(下一句预测);
……
这些特性使得 BERT 对付搜索引擎的优化非常有帮助,尤其是在肃清歧义方面。用上 BERT 之后,对付比较长、会话性比较强的查询,或者在「for」、「to」等介词比较主要的语句中,谷歌搜索引擎将能够理解查询语句中词的高下文。用户可以用更加自然的办法进行搜索。
此外,BERT 对付搜索中的指代消解、一词多义、同形异义、命名实体确定、本文蕴涵等任务也有很大的帮助。个中,指代消解指的是追踪一个句子或短语在某个语境或广泛的会话查询中指代的是谁或什么东西;一词多义指同一个词有多个义项,几个义项之间有联系,搜索引擎须要处理模棱两可的细微差别;同形异义是指形式相同但意义绝不相同的词;命名实体确定是指从许多命名实体中理解文本与哪些干系;文本蕴含是指下一句预测。这些问题构成了搜索引擎面临的常见寻衅。
在过去的一年,谷歌扩展了 BERT 在搜索引擎中的运用范围,「搜索引擎营销之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顾问 Glenn Gabe 等人在推特中先容了谷歌搜索的最近亮点。
在谷歌搜索中,有十分之一的搜索查询拼写缺点。很快,一项新的变革将帮助我们在检测和处理拼写缺点方面取得比过去五年更大的进步。
另一个即将到来的变革是,谷歌搜索将能够识别网页中的单个段落,并将它们处理为与搜索最干系的段落。我们估量这会改进 7%的 Google 搜索查询。
Search On 2020:谷歌可以索引一个网页的段落,而不仅仅是全体网页。新算法可以放大一段回答问题的段落,而忽略页面的别的部分。从下个月开始。
利用人工智能,我们可以更好地检测视频的关键部分,并帮助人们直接跳到感兴趣的内容,而不须要创作者手动标记。到今年年底,10% 的谷歌搜索将利用这项技能。
此外,谷歌还表示,他们还运用神经网络来理解搜索干系的子主题,当你搜索宽泛的内容时,这有助于供应更多样化的内容。这项做事估量年底推出。
参考链接:
https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193
https://searchengineland.com/a-deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522
https://blog.google/products/search/search-on/