baidu站长东西之连接剖析：怎样定位网站的SEO疑问？

点击次数：更新时间：2016/5/20 9:15:53 【打印此页】【关闭】

网站连接剖析，源于对Web结构中超连接的多维剖析，是网站优化运营中不可短少疑问确诊办法。baidu站长渠道也推出其官方的连接剖析东西。那么，咱们该怎样运用好baidu站长东西的连接剖析功用，来定位网站也许存在的SEO疑问呢？

以下为来自baidu站长社区斑竹响1亮2的3名4字的共享：

有一次在社区里边看到有站长兄弟发问，说baidu站长东西的连接剖析里，[email protected]@的数据，感到非常不明觉厉。

然后我就试着联系了一些平常经常打交道的站长兄弟，问了下他们是不是重视过baidu站长东西中的连接剖析，是不是定时进行过统一剖析，当呈现许多死链数据时，是不是对疑问进行了定位……成果发现有许多站长兄弟，在平常很少进行这么的剖析作业，所以当呈现疑问的时分，就感到不明觉厉，忍不住大骂度娘坑爹。

实际上，度娘究竟坑不坑爹我是不知道啦，不过我想说度娘仅仅把疑问反映出来，更多地还需求咱们自个去定位疑问并进行处理，才能确保网站不会因为该疑问而遭到较大程度的影响。

所以，我就有了制作本期专题的打算，专题地址：http://bbs.zhanzhang.baidu.com/thread-75492-1-1.html。

1、这篇文章的首要内容有哪些呢？

（1）查找是不是有黑链呈现——从日志剖析，baidu蜘蛛抓取了网站的哪些预期外的页面，是不是存在黑链。（这个也许要先卖个关子，因为这又是个大工程啦，本期专题会提到一些）
（2）baidu站长东西外链剖析——查看是不是有废物外链、黑链等，以及链向的站内什么地方，怎样处理。（本期里边也有所触及）
（3）baidu站长东西连接剖析——三大死链（内链死链、链出死链、链入死链），批量下载数据，兼并数据，excel操作，按逻辑分类，定位疑问，处理疑问。（定位和处理，资料不够，因为许多现已处理过了，没有资料了= =|||||）
（4）从剖析这些数据，得到的与SEO作用有关的别的信息（废物查找引擎、废物外链带来的无用抓取，糟蹋资本配额，怎样回绝。）
（5）怎样主动化地运用shell脚本，定位到被baidu蜘蛛抓取到的死链，并进行复查，然后将确定为死链的URL进行主动化提交。（本期专题内容太多，留作下期专题用）
（6）剖析东西介绍（firefox设置，插件，excel，windows命令提示符批处理）

2、这篇文章中首要运用到的东西

（仅仅联系例子中，如果有别的相似功用的东西，请联系本身习气运用即可）

【阅读器】火狐（Firefox）阅读器，版本无所谓

【插件】：Launch Clipboard

功用：一键翻开剪切板中存在的URL。（留意URL中只能有英文数字标点，如果有中文也许无法被辨认）。快捷键：alt + shift +K（先仿制好单个或许多个URL）

设置：翻开选项设置，挑选好下载文件主动保留的方位（我这儿挑选了桌面，你也能够独自创立一个文件夹，好对批量下载的文件进行归类）

【表格处理】：Microsoft Office 2013 Excel

【文本处理】：Notepad++

【批量处理】：Windows自带命令提示符

一、咱们能够先看一下外链剖析。

剖析外链数据的首要意图是，找出废物外链，主动去封堵废物外链也许对网站构成的恶劣影响。终究方针：

1、找到废物外链的域名，进行防盗链处理（对于来历为废物域名的，直接回来404状况码）；

2、处理站内也许存在疑问的页面。

这儿，我会重点解说第一点；第二点对比简单，我会解说得对比大略。

1、定位出废物域名。

咱们能够下载外链数据，来进行开始剖析。

可是这么一份原始数据，是很难进行剖析的。因而咱们需求依照必定逻辑对其进行剖析——即是依照【被连接的页面url】进行分类。

首先，咱们能够迅速阅读一下，进行直观判别，这些页面大多数是什么页面呢？

对于咱们网站的状况来说，外链数据分为两类，正常外链与废物外链。

而废物外链又分为两种：站内查找成果页面（废物查找词）以及被黑客侵略植入的黑链（现已处理为死链）。

咱们进行数据处理的意图有两个：辨认出哪些是正常外链，哪些是废物外链，并依据废物外链的有关数据，进行一些处理，维护好网站；而且需求使被废物连接指向的页面，不被查找引擎抓取（糟蹋抓取资本配额）以及被录入/索引（确保网站词库不受污染，不为网站带来形象与关键字方面的负面影响）。

第一步，筛选出网站的查找成果页面

还有几类查找连接格局，都以相同办法进行处理。

然后把原始sheet中剩下的数据进行去重（空白行），得到剩下的连接信息。

然后，咱们需求对黑链进行筛选。黑链的数据，通常需求先从网站日志中剖析得到（这么是最全面的，为了确保效率，会需求运用到shell脚本来主动运转，可是触及篇幅过多，我将在往后的专题中进行解说）。

当然也能够对表格中【被连接的页面url】这一列依照次序排序后，挨着剖析得到（自个去翻开，同时黑客会运用一些特殊手法，阻碍咱们去辨认真实的会被查找引擎辨认到的废物内容，最常见的状况即是，运用js跳转。这么咱们通过阅读器拜访时，会看到彻底不相同的内容，而查找引擎抓取时，则下载到了废物内容。）

这时，咱们需求运用一款firefox插件【No Script】，旨在屏蔽网站上的js，看到与查找引擎相似的内容。

另外还有一种不是很靠谱的甄选办法，在查找引擎里边去搜：【site:域名博彩】之类的关键字，把不符合网站预期的关键字拿去搜，就能够得到许多连接了。（这儿需求运用一些办法，把连接全都批量导出，在往后的专题中，我会继续解说的）

筛选进程我就只能省掉啦，能够联系视频看一看。

咱们之所以要这么辛苦地找出废物外链，意图即是要把这些废物外链的域名记录下来，避免这些废物域名被黑客重复运用，拿去制作新的废物连接，从而在第一时间回绝掉这些废物外链，使baidu蜘蛛从废物外链拜访咱们网站上内容时，无法获取到任何信息（也即是回来404状况码，被辨认成死链），一朝一夕，这些废物域名的权重就会越来越低（因为导出了死链，影响查找引擎的正常抓取作业），这么咱们不仅维护了自个，也惩罚了敌人。

具体办法是，把废物页面找出来——从查找成果页面和黑链的两个sheet中，把外链页面整合到一同。

接下来的处理会运用到一款小东西，来迅速获取这些连接的主域名。

如此一来，咱们就得到了这些废物外链页面的主域名，咱们只需求在咱们服务器上配置一下防盗链，制止refer（来历）为这些域名的拜访（回来404http状况码）即可。

2、从站内对查找成果页面进行处理（黑链处理我保留在下一次专题，因为要许多联系linux的shell脚本）：

权重对比高的网站的站内查找，必定要留意antispam（反废物）。如果不加以防范的话，一旦被黑客运用，那么也许会构成许多查找页面被baidu抓取，黑客运用高权重网站的资本，迅速做好黄赌毒职业的关键字排行。可是这对于咱们网站来说，则是噩梦般的冲击。不作处理的话，也许会致使如下几方面的疑问：糟蹋许多的蜘蛛抓取配额，去抓取废物页面；废物页面被查找引擎录入，网站词库被黑客污染，使得网站的职业词和品牌词排行不抱负；对网站形象构成丢失……等。

在进行这类反废物策略的时分，咱们需求重视四个方面：站内用户能够正常运用；不允许查找引擎抓取这类页面；回绝废物外链的拜访；页面上不得呈现废物关键字。

既然有了明确的方针，那么相应的应对计划也就出来了，那即是：

A 约束来历，回绝掉一切非站内来历的查找
B 页面上的TKD等关键方位，不对查找词进行调用
C 指定灵敏词库过滤规矩，将灵敏词悉数替换为星号*（有必定技术开发要求）
D 在robots.txt声明，不允许抓取
E 在页面源代码head区间添加meta robots信息，声明该页面不允许树立索引（noindex）

进行以上处理，能够处理掉大多数站内查找页面（不局限于该类页面，乃至别的的页面只要不期望查找引擎抓取以及树立索引的话，都能够这么处理）简单呈现的疑问。

本文链接：http://www.yizheng.org.cn/news/news295.html
上一条：【SEO实战】怎么发掘关键字？下一条：你能够不明白SEO 但有必要要懂用户！

网站优化

baidu站长东西之连接剖析：怎样定位网站的SEO疑问？

相关新闻