新站如何分析网站日志百度蜘蛛爬取的情况,它对网站收录有什么帮助 / 新站过百度沙盒期

2月前 阅读 / 71 来源 / 原创 文 / 老幺

这篇文本来计划在2019年12月31日发布的,但是那天老幺工作完回家后发现自己的mac book无法开机了,原先就计划再买一个台式机,这次算是下了决心,让我姐夫哥给配了一台中等性能的组装机,当作备用,以免以后出现类似的情况,导致网站断更,老幺索性10天就放松一下没有更新网站,今天组装机刚好装完继续来补充完这篇文章,主要内容是围绕通过分析百度蜘蛛爬取情况,来预测新站的收录情况。

新站如何分析网站日志百度蜘蛛爬取的情况,它对网站收录有什么帮助


老幺今天起来查看了一下零幺零网站的日志,自上次百度蜘蛛爬取内页,这是建站以来百度蜘蛛第二次爬取内页,日志如下

220.181.108.96 - - [30/Dec/2019:03:59:50 +0800] "GET /shahe/2.html HTTP/1.1" 200 18704 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"


凌晨3点钟爬取了《新站是否有必要一直坚持写高质量原创文章》这篇文章,从这篇文章的质量来看肯定是没有问题的,老幺在这里做一个大胆的预测,这篇文可能会48小时内被百度收录并释放出来。当然这只是预测,若是48小时没有被释放出来,老幺也能肯定这篇文章是零幺零seo网站的被收录的第二篇内页。


据老幺对百度蜘蛛近段时间的观察来看,只要蜘蛛开始抓取某一个页面,即便该页面没有被马上放出来,后续也会重复对该页面进行抓取的可能性极高,那么被收录的可能性就是极高了。相对其他没有被爬过的页面被收录的可能性就级小。


通过loghao分析,“220.181.108.96”这个IP段是百度的权重蜘蛛,当然百度官方也一直强调没有所谓的权重蜘蛛或者降权蜘蛛,老幺暂且先不管它,当然不同ip段的蜘蛛爬虫放出页面的时间长短也有所不同的,这是肯定的,如果该内页被蜘蛛爬去后48小时内收录,也就证明了该蜘蛛对收录的重要性,如果是时隔几天才放出来,可能文章的质量还不够好或者不是稀缺的内容,蜘蛛暂时将该文章放入库中等过一段时间再放出来,说明这个ip段的蜘蛛是抓取质量较低的文章。


通常当页面被蜘蛛爬取并马上被收录后,过一段时间你会发现蜘蛛还是会反复爬这个页面,这则说明百度在对这篇文章的质量进行重新评估调整单篇文章的排名。


好了,老幺回归正题,新站与其每天通过搜索查询收录情况,不如分析网站日志蜘蛛爬去的状况,提前预测网站的收录。


以上是老幺2019年12月31日写了一半的内容,后来电脑出了问题就停更了,以下(2020年1月10日)新电脑组装好以后老幺家里补充完整的内容。


首先结合老幺之前的预测,果不其然《新站是否有必要一直坚持写高质量原创文章》这篇蜘蛛在2019年12月30日爬取后隔天2019年12月31日被收录,这是老幺没有电脑的这段时间里通过手机查询的收录情况且真实有效,由此可见通过关注蜘蛛的爬取情况是可以提前有效的判断出网站收录情况的!特别是新站,新站前期蜘蛛的爬取频率比较少,更加有利于观察分析。


那么通过蜘蛛爬取日志分析网站收录还有一个什么好处呢,打个比方,蜘蛛今天爬取了你新站的某一篇文章,如果第二天该文章被收录那说明,你的这篇文章质量肯定是没有问题的,如果第二天甚至是通过一个星期的观察该篇文章依然没有被百度收录,那么说明你的文章质量是有问题的,蜘蛛不太喜欢你的这篇文章,这个时候你就需要对你的文章写作进行一些调整了。看看到底是哪里有问题。


同时你也可以留意这个蜘蛛的ip段,如果该ip段的蜘蛛爬取的频率比较高,同时也说明你网站的整体内容质量没有太大的问题。


新站每天对蜘蛛的爬取访问做一个简单的总结分析,也有助于准确的判断新站大概会在什么时候收录首页、什么时候收录内页,如果发现蜘蛛爬取新站一个星期内网站还没有被搜索引擎收录,这个时候就需要注意,好好分析一下你网站到底有哪些问题。记住这个很重要很重要,很多朋友总是问为什么我的网站1个月了还没收录首页,为什么收录了首页3-4个月还不收录内页这样的问题。问这种问题的站长明显就是新手站长完全不懂seo。


当新站出现长时间不被百度收录的时候,一定要及时去分析网站日志蜘蛛爬取的情况!如果只是放任不管随着时间的累积,不被收录的因素可能会越来越多,也就越来越难找到真正具体的原因从而无法对症下药。导致后续的调整可能涉及到很多内容修改,这对新站来说是一个比较大的伤害,也浪费了之间付出的努力。


那么新站应该如何有调理有步骤的去分析网站日志中蜘蛛的爬取情况呢!


一、新站建立后前一个星期内暂时不用去分析日志,因为新站的前几天一般是不会有蜘蛛爬取,特别是百度的蜘蛛,你只用专注管好内容质量的更新即可,基本上第7天就可以打开网站的日志分析一下近一周的蜘蛛爬取情况了。


二、新站第7天不管你网站有没有被百度收录都必须要去分析蜘蛛的爬取情况。我们分几种情况去分析:蜘蛛未爬取网站也未被收录、蜘蛛爬取了网站但网站未被收录、蜘蛛爬取了网站且收录的首页。


1、如果未发现蜘蛛爬取的记录,网站基本不太可能被百度收录,因为百度根本就没有发现你网站的存在,这个时候就需要做一些外链或者把网站提交给百度然后给网站做百度自动以及主动提交,这里老幺推荐只做一下主动提交即可,目前零幺零seo网站就只是做了百度主动提交,效果还是比较明显!最不推荐的就是发外链,通常一般的seoer都会说新站多做一些外链引蜘蛛,但是老幺不是一般的seoer,新站做外链弊大于利,首先新站没有足够的内容让访客进行深度阅览,跳出率会很高,特别是如果你装了百度统计,百度会对你网站的跳出率进行评估,如果跳出率太高,会直接影响百度对网站质量的评估。


2、有蜘蛛抓取记录但网站未被收录,可能是蜘蛛抓取了暂时还未放出来,需要等几天,可能是你网站的内容质量比较低,百度需要在观察一段时间再确定是否放出收录。新站如果发现被百度蜘蛛抓取了,如果网站内容质量没有什么问题,基本上1-2天就会放出首页,但如果超过1-2个星期首页还没放出来,这个时候就需要重视了,首先先审查自己的网站是否有大量复制采集内容,然后二级分类设置是否合理,是否分类过多或者大量分类中没有什么实质性的内容。所写文章是否围绕着网站的主题,tkd设置是否合理其具有一定的独特性,未粘贴复制别人的tkd,网站模板是否有被滥用。


3、有蜘蛛爬取记录同时网站也被收录了,对于新站来说一周内能被收录首页是一个好的开端,但并不能掉以轻心,收录首页3-4个月未被收录内容的网站有一大堆。首页被收录这个时候就需要查一个你的网站品牌词是否有排名了,如果有排名且排名在第一说明你的网站质量没有任何问题。按部就班的更新高质量的原创内容,过不了多久就能收录内页了,但是如果品牌词没有排名就需要小心了,参考(2)进行一下审查,看是网站有哪些不足的地方,并持续更新高质量的原创内容。


三、首页收录后,主要是针对内页蜘蛛爬取进行分析,但这不代表就不用关注首页蜘蛛的爬取情况了,当你发现蜘蛛经常爬取这说明离内页爬取不远了,据老幺观察,即便是后续你的新站进入收录稳定期,蜘蛛也是先爬取首页探一下路然后再开始爬内页。这个时间段主要是观察一些说明内容呢,一定要筛查出蜘蛛爬取你第一个内页是哪一篇文章是什么时候爬的,一般蜘蛛开始爬取一个内页,那么该内页基本上2-3天就会放出来,如果没有放出来,那就是你的内容质量有问题了,但是不雅灰心,不管有没有内页被收录,只要开始爬取内页就是一个很也好的迹象,这个时候写文章一定要更加勤快,内容质量一定要提高。如果你能保证高质量文章输出,最多10天内就会后内页收录并且其他文章也可能会被收录。多多关注百度蜘蛛内页的爬取情况。


如果你能做到上面的三点,老幺基本上可以保证你的文章陆陆续续的被百度收录。零幺零seo网站目前建站32天更新了有22篇文章,目前已被总收录量是15。


四、当文章开始陆陆续续被收录,这时我就需要观察蜘蛛爬取新文章的情况了,比例老幺今天更新的这篇文章,后面老幺每天都会观察蜘蛛会在哪一天会来爬这篇文章,以及这篇文章什么时候会被收录。如果有精力和时间没更新一篇文章就像这样观察分析一下,经过一个月你大概就能摸清楚蜘蛛喜欢什么样的文章,什么样的文章24小时就能被收录,什么样的文章需要隔几天才能被放出来,这样不断的来调整自己的写作方式。提高每一篇文章的收录速度和几率。


再往后的分析就如果让网站达到秒收录,但不属于新站范畴了,所以老幺这篇文就不继续写了,留着以后再开一篇文写。


下一篇可能又是一篇记录文了,因为老幺没电脑断更了10天,所以这10天也没有详细对零幺零seo网站进行观察,可能漏掉了很多内容,目前建站一个月已经有关键词排名,网站也被百度收录了一大半,所以下一篇文章主要围绕这些改变来写。


最后2020新的一年祝大家新年快乐。

1

评论列表
共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~