seo研讨页面_SEO研究｜800万HTML页面情况分析

文章目录 [+]

他们撰写了有关标记结果的信息，以及排名前20的Google结果页如何实现它们的内容，然后进行了进一步先容，并得到了有关它们的HTML 利用情形见地。

与SEO有什么关系？

seo研讨页面_SEO研究｜800万HTML页面情况分析 seo研讨页面_SEO研究｜800万HTML页面情况分析神马SEO

HTML的编写办法决定了用户看到的内容以及搜索引擎如何阐明网页。
有效，格式精确的HTML页面还可以减少搜索引擎可能对构造化数据，元数据，措辞或编码的误解。

（图片来自网络侵删）

我们打算从一开始就做一次技能性SEO审核：HTML用法的细分以及结果与当代SEO技能和最佳实践的关系。

在本文中，我们将办理Google可以理解的元标记，JSON-LD构造化数据，措辞检测，标题用法，社交链接和元分布，AMP等问题。

Google可以理解的元标记

当谈到紧张的搜索引擎作为流量来源时，可悲的是只有谷歌和别的的人，最近Duckduckgo得到了关注，Bing险些不存在。

因此，在本部分中，我们将仅关注Google在Search Console帮助中央中列出的meta标签。

饼图显示了Google可以理解的meta标签总数，以下部分对此进行了详细解释。

元描述是〜150个字符的择要，总结了页面的内容。
当搜索的短语包含在描述中时，搜索引擎会在搜索结果中显示元描述。

选择器计数

在极度情形下，我们创造了685,341个元内容少于30个字符的元和1,293,842个元内容文本超过160个字符的元。

<标题>

从技能上讲，标题不是meta标记，而是与meta name =“ description”结合利用。

当涉及SEO时，这是两个最主要的HTML标签之一。
根据W3C，这也是必须的，这意味着短缺标题标签的任何页面均无效。

研究表明，如果您将标题保持在合理的60个字符以内，则可以期望在SERP中精确显示标题。
过去，有迹象表明Google的搜索结果标题长度有所延长，但这并不是永久性的变革。

考虑到以上所有情形，我们创造在全部6,263,396个标题中，有1,846,642个标题标签彷佛太长（超过60个字符），而1,985,020个标题的长度却认为太短（少于30个字符）。

饼状图显示了标题标签的长度分布，长度小于30个字符为31.7％，长度大于60个字符为约29.5％。

标题太短不应该是问题，毕竟，这取决于网站业务，是主不雅观的。
意义可以用更少的词来表达，但这绝对是优化机会摧残浪费蹂躏的迹象。

选择器计数

<title> </ title> 6,263,396

短缺<title>标签 1,285,738

另一个有趣的事情是，在Google排名第1-2页的网站中，有351,516个（约占750万个的5％）在其索引页上利用相同的标题和h1文本。

其余，您知道吗，利用HTML5，您只须要指定HTML5文档类型和标题即可拥有完备有效的页面？

<！
DOCTYPE html><title>赤色</ title>

这些元标记可以掌握搜索引擎抓取和体例索引的行为。
机器人元标记适用于所有搜索引擎，而“ googlebot”元标记特定于Google。
” - Google可以理解的元标记

选择器计数

带有元漫游器的HTML代码段及其内容参数。

因此，漫游器元指令可向搜索引擎供应有关如何对页面内容进行爬网和索引的解释。
除了googlebot元数很少之外，我们很想知道最常见的robots参数，由于一个巨大的误解是您必须在HTML的头部添加robots meta标签。
这是前5名：

选择器计数

“当用户搜索您的网站时，Google搜索结果有时会显示特定于您网站的搜索框，以及指向您网站的其他直接链接。
此元标记见告Google不要显示附加链接搜索框。
” - Google可以理解的元标记

选择器计数

绝不奇怪，当网站涌如今搜索结果中时，很少有网站选择明确见告Google不要显示附加链接搜索框。

“此meta标签见告Google您不肯望我们为该页面供应翻译。
”- Google理解的meta标签

在某些情形下，可能不肯望将您的内容供应给更多的用户。
就像上面的Google支持答案中所说的那样，此meta标签见告Google您不肯望他们供应此页面的翻译。

选择器计数

“您可以在网站的顶级页面上利用此标签来验证Search Console的所有权。
” - Google可以理解的元标签

选择器计数

当我们谈论这个主题时，您是否知道如果您是Google Analytics（剖析）媒体资源的经由验证的所有者，那么Google现在会在Search Console中自动验证该网站吗？

“这定义了页面的内容类型和字符集。
” - Google可以理解的元标记

这基本上是好的元标记之一。
它定义页面的内容类型和字符集。
考虑到下表，我们把稳到我们剖析的索引页中只有大约一半定义了元字符集。

选择器计数

“此元标记会在一段韶光后将用户发送到新的URL，有时会用作一种大略的重定向形式。
” - Google理解的元标记

最好利用301重定向而不是元刷新来重定向您的网站，尤其是当我们假设30倍重定向不会丢失PageRank 且W3C 建议不要利用此标记时。
Google也不是粉丝，建议您利用做事器端301重定向。

选择器计数

从我们解析的统共750万个索引页中，我们创造了7167个利用上述重定向方法的页。
作者并不总是拥有对做事器端技能的掌握权，显然他们利用此技能来启用客户端重定向。

此外，利用Workers是一种最前辈的替代方案，目的是为了战胜利用传统技能堆栈和平台限定时碰着的问题。

“此标签见告浏览器如何在移动设备上呈现页面。
此标签的存在向Google表示该页面适宜移动设备。
” - Google可以理解的元标签

选择器计数

从2019年7月1日开始，所有网站开始利用Google的移动优先索引体例索引。
Lighthouse检讨文件头中是否有meta name =“ viewport”标记，因此无论您利用的是哪种框架或CMS，此meta都应位于每个网页上。

考虑到上述情形，我们可以预期在剖析的750万个索引页面中，有超过4,992,791个网站的网站在其头部利用了有效的meta name =“ viewport”。

设计适宜移动设备的网站可确保您的页面在所有设备上都能正常运行，因此请确保此处的网页适宜移动设备。

“将网页标记为包含成人内容，以表示该网页已被安全搜索结果过滤。
” - Google可以理解的元标记

选择器计数

此标签用于表示内容的成熟度等级。
直到最近，它才被添加到Google可以理解的meta标签中。
请查看Kate Morris撰写的有关如何标记成人内容的文章。

JSON-LD构造化数据

构造化数据是一种标准化格式，用于供应有关页面的信息并分类页面内容。
构造化数据的格式可以是Microdata，RDFa和JSON-LD，所有这些都可以帮助Google理解您网站的内容并触发页面的分外搜索结果功能。

在与出色的Dan Shure交谈时，他提出了一个好主张，可以在搜索结果和“知识图”中查找构造化数据，例如组织的徽标。

在本部分中，我们将仅利用JSON-LD（用于链接数据的JavaScript工具表示法）来网络构造化数据信息。
无论如何，这是Google建议的有关网页含义的线索。

一些有用的信息：

在Google I / O 2019上，宣告构造化数据测试工具将由功能丰富的结果测试工具取代。
现在，Googlebot利用最新的Chromium而不是旧的Chrome 42对网页进行索引，这意味着您还可以通过构造化数据支持来减轻过去可能碰着的SEO问题。
杰森·巴纳德（Jason Barnard）在2019年SMX伦敦会议上就Google搜索排名的事情办法进行了有趣的演讲，根据他的理论，我们可以依赖七个排名成分; 构造化数据绝对是个中之一。
关于微数据，JSON-LD和Schema.org的Builtvisible指南包含您须要理解的有关在网站上利用构造化数据的所有信息。
这是Alexis Sanders 撰写的给初学者的JSON-LD很棒指南。
末了但并非最不主要的一点是，在Linking Data网站的官方JSON上有很多文章，演示文稿和帖子可供参考。

高等网络排名的HTML研究仅依赖于剖析索引页面。
有趣的是，纵然指南中未对此进行解释，但Google彷佛并不关心索引页上的构造化数据，正如几年前Gary Illyes 在Stack Overflow回答中所说的那样。
但是，在Google理解的 JSON-LD构造化数据类型上，我们创造了统共2,727,045个功能：

饼图显示了Google可以理解的构造化数据类型，个中“附加链接”搜索框为49.7％（最高值）。

构造化数据功能计数

文章 35,961

面包屑 30,306

书 143

轮播 13,884

公司联系办法 41,588

课程 676

评论家评论 2,740

数据集 28

店主总评分 7

事宜 18,385

事实检讨 7

常见问题页面 16

如何 8

招聘缘由 355

现场直播 232

当地的商业 200,974

牌号 442,324

媒体 1,274

占用 0

产品 16,090

问答页面 20

食谱 434

评论片段 72,732

网站贯串衔接征采框 1,354,754

社会概况 478,099

软件运用 780

可以说 516

订阅和付费内容 363

视频 14,349

rel =规范

rel = canonical元素（常日称为“规范链接”）是一种HTML元素，可帮助网站管理员防止重复的内容问题。
它通过指定“规范URL”（网页的“首选”版本）来实现。

选择器计数

meta name =“ keywords”

“只管紧张搜索引擎不该用元关键字进行排名，但是它们对付像Solr这样的现场搜索引擎非常有用。
” - JP Sherman阐明了为什么如今这种过期的元数据仍旧有用。

选择器计数

标题

在750万页中，h1（59.6％）和h2（58.9％）是利用最多的28个元素之一。
只管如此，网络所有的标题后，我们创造，H3是出场最多的标题- 29565562 3H公司出70428376个总标题的创造。

随机事实：

在H1-H6元素表示六个层次部分的标题的。
下面是对标题利用完全统计，但我们创造的23116 h7s和7,276 H8S了。
这很有趣，由于很多人乃至都不常常利用h6。
有3,046,879个页面短缺h1标签，而在别的4,502,255页中，h1的利用频率为2.6，共有11,675,565个h1元素。
虽然有6263396个网页与一个有效的标题，如上面看到的，只有个中的4502255利用的是H1的内体的内容。

短缺alt标签

剖析这组数据后，这个永恒的SEO和可访问性问题彷佛仍旧很常见。
在统共669,591,743张图像中，险些90％短缺alt属性或将其与空缺值一起利用。

饼状图显示了img标签的alt属性分布，个中缺失落的alt占主导地位-在我们创造的约6.7亿张图像中，占81.7％。

选择器计数

img 669,591,743

img alt =“ ” 79,953,034

img alt =“” 42,815,769

img w / missing alt 546,822,940

措辞检测

根据规范，用户代理可以利用通过lang属性指定的措辞信息以各种办法掌握渲染。

我们在此处感兴趣的部分是有关“赞助搜索引擎”的。

“ HTML lang属性用于识别网络上文本内容的措辞。
这些信息有助于搜索引擎返回特定于措辞的结果，屏幕阅读器也可以利用这些信息来切换措辞配置文件，以供应精确的口音和发音。
” - LéonieWatson

不久前，约翰·穆勒（John Mueller）说Google忽略了HTML lang属性，而是建议利用链接hreflang。
Google Search Console文档指出，Google利用hreflang标记将用户的措辞偏好与页面的精确变体进行匹配。

条形图显示750万个索引页中有65％利用html元素上的lang属性，同时21.6％至少利用链接hreflang。

在我们可以查看的750万个索引页中，有4,903,665个利用html元素上的lang属性。
大约是65％！

关于hreflang属性，这表明存在一个多措辞网站，我们创造大约有1,631,602个页面—这意味着大约21.6％的索引页面至少利用链接rel =“ alternate” href =“ ” hreflang =“ ”元素。

Google跟踪代码管理器

从一开始，Google Analytics（剖析）的紧张任务便是天生有关您的网站的报告和统计信息。
但是，如果要将某些页面分组在一起以查看人们如何浏览该渠道，则须要一个唯一的Google Analytics（剖析）标签。
这便是事情变得繁芜的地方。

Google跟踪代码管理器使您更轻松地进行以下操作：

通过让您定义标签应触发的韶光和用户操作的自定义规则，来管理这些混乱的标签随时变动标签，而无需实际变动网站的源代码，由于发布周期缓慢，有时可能会令人头疼再次与GTM一起利用其他剖析/营销工具，而无需触及网站的源代码

我们搜索了 googletagmanager.com / gtm.js参考资料，创造大约有345,979个页面正在利用Google跟踪代码管理器。

rel =“ nofollow”

“ Nofollow”为网站管理员供应了一种见告搜索引擎“不遵照此页面上的链接”或“不遵照此特定链接”的方法。

Google不遵照这些链接，并且同样不转让权柄。
考虑到这一点，我们对rel =“ nofollow”数字感到好奇。
我们在750万个索引页面中找到了统共12,828,286个rel =“ nofollow”链接，打算得出的均匀每页为1.69 rel =“ nofollow”。

上个月，Google宣告了两个新的链接属性值，用于标记链接的nofollow属性：rel =“ sponsored”和rel =“ ugc”。
我建议您阅读Cyrus Shepard 关于Google的nofollow，资助商和ugc链接如何影响SEO的文章，理解Google变动nofollow的缘故原由，nofollow链接的排名影响等等。

赛勒斯·谢泼德（Cyrus Shepard）的文章中的表格显示了Google的nofollow，Sponsored和UGC链接属性如何影响SEO。

我们走得更远，查找了这些新的链接属性值，找到了278 rel =“ sponsored”和123 rel =“ ugc”。
为了确保我们拥有与这些查询干系的数据，我们专门在Google宣告此事后两周更新了索引页数据集。

加速移动网页（AMP）是Google的一项举措，旨在加快移动网络的速率。
许多发布者正在使其内容与AMP格式并行可用。

为了让Google和其他平台理解这一点，您须要将AMP和非AMP页面链接在一起。

在我们浏览的数百万个页面中，我们创造只有24,807个非AMP页面利用rel = amphtml引用其AMP版本。

社会的

我们想知道当今网站的可共享性或社交性，因此知道Josh Buchea列出了一个很棒的列表，个中包含所有可能涌如今您网页顶部的内容，我们从中提取了社交部分，并得到了以下数字：

Facebook开放图

条形图显示了Facebook Open Graph元标记的分布，不才表中进行了详细解释。

选择器计数

元属性=“ fb：app_id” content =“ ”277,406

元属性=“ og：url”内容=“ ”2,909,878

元属性=“ og：type” content =“ ”2,660,215

元属性=“ og：title” content =“ ”3,050,462

元属性=“ og：image” content =“ ”2,603,057

元属性=“ og：image：alt” content =“ ”54,513

元属性=“ og：description” content =“ ”1,384,658

元属性=“ og：site_name” content =“ ”2,618,713

元属性=“ og：locale” content =“ ”1,384,658

元属性=“ article：author” content =“ ”14,289

Twitter卡

条形图显示了Twitter Card meta标签的分布，不才表中有详细解释。

选择器计数

元名称=“ twitter：card” content =“ ” 1,535,733

元名称=“ twitter：site” content =“ ” 512,907

元名称=“ twitter：creator” content =“ ”283,533

元名称=“ twitter：url” content =“ ”265,478

元名称=“ twitter：title” content =“ ”716,577

元名称=“ twitter：description” content =“ ”1,145,413

元名称=“ twitter：image” content =“ ”716,577

元名称=“ twitter：image：alt” content =“ ”30,339

说到链接，我们捉住了所有指向最受欢迎的社交网络的链接。

下表显示了外部社交链接分布的饼图。

选择器计数

<a href="facebook.com">6,180,313

<a href="twitter.com">5,214,768

<a href="linkedin.com">1,148,828

<a href="plus.google.com">1,019,970

显然，仍有许多网站仍链接到其Google+个人资料，考虑到最近Google+的关闭，这可能是一个轻忽。

rel =上一个/下一个

根据Google的说法，利用rel = prev / next不再是索引旗子暗记，正如今年早些时候宣告的那样：

“在评估索引旗子暗记时，我们决定停用rel = prev / next。
研究表明，用户喜好单页内容，在可能的情形下只管即便做到这一点，但对付Google搜索来说，多部分内容也可以。
” - Google网站管理员发布的推文

但是，如果对您来说很主要，Bing表示它将它们用作提示以创造页面和理解网站构造。

“我们将这些标记（如大多数标记）用作页面创造和网站构造理解的提示。
此时，我们不会基于这些页面将页面合并在一起，也不会在排名模型中利用prev / next。
” - Bing的FrédéricDubut

不过，这是我们在查看数百万个索引页面时创造的利用情形统计信息：

选择器计数

大概就这样吧！

通过利用大约800万个索引页面中的数据理解均匀网页的外不雅观，可以使我们更清楚地理解趋势，并帮助我们直不雅观地理解SEO当代和新兴技能中HTML的常见用法。
但这可能是一个永无止境的传奇-只管有大量的数字和统计数据须要探索，但仍有许多问题须要回答：

我们知道现在如何在野外利用构造化数据。
它将如何发展，将足够考虑多少构造化数据？我们是否该当期望AMP利用量将来会增加？rel =“ sponsored”和rel =“ ugc”将如何改变我们每天编写HTML的办法？在编码外部链接时，除了target =“ _ blank”和rel =“ noopener”组合之外，我们现在必须考虑rel =“ sponsored”和rel =“ ugc”组合也是如此。
我们是否会学会始终为具有装饰目的的图像添加alt属性值？我们必须将多少其他元标记或属性添加到网页中，才能媚谄搜索引擎？我们真的须要新发布的data-nosnippet HTML属性吗？接下来是data-allowsnippet吗？

我们还希望办理其他问题，例如“第一字节韶光”（TTFB）值，该值与排名高度干系。
我强烈建议为此利用HTTP存档。
他们定期抓取Web上的热门站点，并记录有关险些所有内容的详细信息。
根据最新信息，他们已经剖析了4,565,694个独特的网站，这些网站具有完全的Lighthouse评分，并且为全体数据集存储了诸如jQuery或WordPress之类的特定技能。
Rick Viscomi的巨大道具，他喜好称呼自己为“管家”，做得非常出色。

（文： Catalin Rosu 前端开拓工程师 Advanced Web Rank 高等程序员）