网站优化

baidu站长东西之连接剖析:怎样定位网站的SEO疑问?

点击次数:    更新时间:2016/5/20 9:15:53  【打印此页】  【关闭

网站连接剖析,源于对Web结构中超连接的多维剖析,是网站优化运营中不可短少疑问确诊办法。baidu站长渠道也推出其官方的连接剖析东西。那么,咱们该怎样运用好baidu站长东西的连接剖析功用,来定位网站也许存在的SEO疑问呢?

以下为来自baidu站长社区斑竹响1亮2的3名4字的共享:

有一次在社区里边看到有站长兄弟发问,说baidu站长东西的连接剖析里,[email protected]@的数据,感到非常不明觉厉。

然后我就试着联系了一些平常经常打交道的站长兄弟,问了下他们是不是重视过baidu站长东西中的连接剖析,是不是定时进行过统一剖析,当呈现许多死链数据时,是不是对疑问进行了定位……成果发现有许多站长兄弟,在平常很少进行这么的剖析作业,所以当呈现疑问的时分,就感到不明觉厉,忍不住大骂度娘坑爹。

实际上,度娘究竟坑不坑爹我是不知道啦,不过我想说度娘仅仅把疑问反映出来,更多地还需求咱们自个去定位疑问并进行处理,才能确保网站不会因为该疑问而遭到较大程度的影响。

所以,我就有了制作本期专题的打算,专题地址:http://bbs.zhanzhang.baidu.com/thread-75492-1-1.html。

1、这篇文章的首要内容有哪些呢?

(1)查找是不是有黑链呈现——从日志剖析,baidu蜘蛛抓取了网站的哪些预期外的页面,是不是存在黑链。(这个也许要先卖个关子,因为这又是个大工程啦,本期专题会提到一些)

(2)baidu站长东西外链剖析——查看是不是有废物外链、黑链等,以及链向的站内什么地方,怎样处理。(本期里边也有所触及)

(3)baidu站长东西连接剖析——三大死链(内链死链、链出死链、链入死链),批量下载数据,兼并数据,excel操作,按逻辑分类,定位疑问,处理疑问。(定位和处理,资料不够,因为许多现已处理过了,没有资料了= =|||||)

(4)从剖析这些数据,得到的与SEO作用有关的别的信息(废物查找引擎、废物外链带来的无用抓取,糟蹋资本配额,怎样回绝。)

(5)怎样主动化地运用shell脚本,定位到被baidu蜘蛛抓取到的死链,并进行复查,然后将确定为死链的URL进行主动化提交。(本期专题内容太多,留作下期专题用)

(6)剖析东西介绍(firefox设置,插件,excel,windows命令提示符批处理)

2、这篇文章中首要运用到的东西

(仅仅联系例子中,如果有别的相似功用的东西,请联系本身习气运用即可)

【阅读器】火狐(Firefox)阅读器,版本无所谓

【插件】:Launch Clipboard

功用:一键翻开剪切板中存在的URL。(留意URL中只能有英文数字标点,如果有中文也许无法被辨认)。快捷键:alt + shift +K(先仿制好单个或许多个URL)

设置:翻开选项设置,挑选好下载文件主动保留的方位(我这儿挑选了桌面,你也能够独自创立一个文件夹,好对批量下载的文件进行归类)

【表格处理】:Microsoft Office 2013 Excel

【文本处理】:Notepad++

【批量处理】:Windows自带命令提示符

一、咱们能够先看一下外链剖析。

剖析外链数据的首要意图是,找出废物外链,主动去封堵废物外链也许对网站构成的恶劣影响。终究方针:

1、找到废物外链的域名,进行防盗链处理(对于来历为废物域名的,直接回来404状况码);

2、处理站内也许存在疑问的页面。

这儿,我会重点解说第一点;第二点对比简单,我会解说得对比大略。

1、定位出废物域名。


咱们能够下载外链数据,来进行开始剖析。


可是这么一份原始数据,是很难进行剖析的。因而咱们需求依照必定逻辑对其进行剖析——即是依照【被连接的页面url】进行分类。

首先,咱们能够迅速阅读一下,进行直观判别,这些页面大多数是什么页面呢?

对于咱们网站的状况来说,外链数据分为两类,正常外链与废物外链。

而废物外链又分为两种:站内查找成果页面(废物查找词)以及被黑客侵略植入的黑链(现已处理为死链)。

咱们进行数据处理的意图有两个:辨认出哪些是正常外链,哪些是废物外链,并依据废物外链的有关数据,进行一些处理,维护好网站;而且需求使被废物连接指向的页面,不被查找引擎抓取(糟蹋抓取资本配额)以及被录入/索引(确保网站词库不受污染,不为网站带来形象与关键字方面的负面影响)。

第一步,筛选出网站的查找成果页面



还有几类查找连接格局,都以相同办法进行处理。

然后把原始sheet中剩下的数据进行去重(空白行),得到剩下的连接信息。


然后,咱们需求对黑链进行筛选。黑链的数据,通常需求先从网站日志中剖析得到(这么是最全面的,为了确保效率,会需求运用到shell脚本来主动运转,可是触及篇幅过多,我将在往后的专题中进行解说)。

当然也能够对表格中【被连接的页面url】这一列依照次序排序后,挨着剖析得到(自个去翻开,同时黑客会运用一些特殊手法,阻碍咱们去辨认真实的会被查找引擎辨认到的废物内容,最常见的状况即是,运用js跳转。这么咱们通过阅读器拜访时,会看到彻底不相同的内容,而查找引擎抓取时,则下载到了废物内容。)

这时,咱们需求运用一款firefox插件【No Script】,旨在屏蔽网站上的js,看到与查找引擎相似的内容。


另外还有一种不是很靠谱的甄选办法,在查找引擎里边去搜:【site:域名 博彩】之类的关键字,把不符合网站预期的关键字拿去搜,就能够得到许多连接了。(这儿需求运用一些办法,把连接全都批量导出,在往后的专题中,我会继续解说的)

筛选进程我就只能省掉啦,能够联系视频看一看。


咱们之所以要这么辛苦地找出废物外链,意图即是要把这些废物外链的域名记录下来,避免这些废物域名被黑客重复运用,拿去制作新的废物连接,从而在第一时间回绝掉这些废物外链,使baidu蜘蛛从废物外链拜访咱们网站上内容时,无法获取到任何信息(也即是回来404状况码,被辨认成死链),一朝一夕,这些废物域名的权重就会越来越低(因为导出了死链,影响查找引擎的正常抓取作业),这么咱们不仅维护了自个,也惩罚了敌人。

具体办法是,把废物页面找出来——从查找成果页面和黑链的两个sheet中,把外链页面整合到一同。

接下来的处理会运用到一款小东西,来迅速获取这些连接的主域名。


如此一来,咱们就得到了这些废物外链页面的主域名,咱们只需求在咱们服务器上配置一下防盗链,制止refer(来历)为这些域名的拜访(回来404http状况码)即可。

2、从站内对查找成果页面进行处理(黑链处理我保留在下一次专题,因为要许多联系linux的shell脚本):

权重对比高的网站的站内查找,必定要留意antispam(反废物)。如果不加以防范的话,一旦被黑客运用,那么也许会构成许多查找页面被baidu抓取,黑客运用高权重网站的资本,迅速做好黄赌毒职业的关键字排行。可是这对于咱们网站来说,则是噩梦般的冲击。不作处理的话,也许会致使如下几方面的疑问:糟蹋许多的蜘蛛抓取配额,去抓取废物页面;废物页面被查找引擎录入,网站词库被黑客污染,使得网站的职业词和品牌词排行不抱负;对网站形象构成丢失……等。

在进行这类反废物策略的时分,咱们需求重视四个方面:站内用户能够正常运用;不允许查找引擎抓取这类页面;回绝废物外链的拜访;页面上不得呈现废物关键字。

既然有了明确的方针,那么相应的应对计划也就出来了,那即是:

A 约束来历,回绝掉一切非站内来历的查找

B 页面上的TKD等关键方位,不对查找词进行调用

C 指定灵敏词库过滤规矩,将灵敏词悉数替换为星号*(有必定技术开发要求)

D 在robots.txt声明,不允许抓取

E 在页面源代码head区间添加meta robots信息,声明该页面不允许树立索引(noindex)

进行以上处理,能够处理掉大多数站内查找页面(不局限于该类页面,乃至别的的页面只要不期望查找引擎抓取以及树立索引的话,都能够这么处理)简单呈现的疑问。


本文链接:http://www.yizheng.org.cn/news/news295.html
上一条:【SEO实战】怎么发掘关键字?    下一条:你能够不明白SEO 但有必要要懂用户!