SEO新人快速入门篇

第一部、致新人seo的秘密《论如何学习seo》

很多人把seo看的很神秘，其实seo并没有什么神秘的。如果说seo有什么秘密，那就是COPY。也就是你能不能记下成百上千的“好站”的做法。以前看王通写的那个书上说，他每天看3个站，虽然不知道这个是不是真的这么做了，但我肯定这个绝对是有效果的。很多seo高手都是这样的，把几个站的优点合并在一处。而且效果很好。

第二部、青梅煮酒论COPY《论如何学习seo》

先从日本的一个漫画火影忍者说起。漫画中有一个人物叫卡卡西，他有个能力可以复制别人的忍术然后转化为自己的忍术使用。其实，做SEO不过也是这样的。你复制别人成功站点的能力，直接能反应在你的优化中。我曾经观察过一个COPY丘的seo资料站优化的玩具网站。学得了一些技巧，同样取得了一定排名。但由于COPY能力不强，并没有将seo资料站的全部优点发挥出来。也有人跟我说过，自己能做一个网站，而且超过某某网站。其实，这个还都是很初级。如果，你真正的能做到和排第一名的网站一样。其实，哪怕是第二名，没有超过他，但是你确实已经成功了。

copy能力大概有3个层次

第一层能看到别人是怎么做表象优化的，例如：加粗。感觉到自己已经可以出师了，好像所有的排名自己都不惧，优化不过如此。

第二层能看到基本的优化思路，可以分辨出一部分优化“陷阱”。优化陷阱是常有的事，比如说我做一个轴承的站，如果后入者能轻易看出你的优化思路，那你可能就要做第二了。所以，优化陷阱是必须的。比如在不该加粗的地方加粗等等，让他人搞不明白优化者为什么要那么做，而且还不符合逻辑。

第三层大概是高级的复制能力吧。我也没达到，不知道该怎么形容他好。但肯定是前两个层次你已经使用的灵活自如了

第三部、SEO门之黑帽无敌《论如何学习seo》

就像搜索引擎有BUG一样，SEO圈子从来就不缺少黑客。从早期在keyword里大量堆砌关键字开始，到现在的一些高水准作弊，花样层出不穷。但都有一个致命的问题，只要BUG已公布天下，那这个BUG就离死期不远了。所以，真正的seo高手是不会公布自己发现搜索引擎的BUG，而是用它来低调赚钱。而公布出来的BUG就将成为“陷阱”。由于SE（搜索的缩写）本身的技术问题，很多时候这些自身的问题还是很难解决。

说一个当下典型的做垃圾外链的方法：众所周知每个网页的权重都有个最低值或者说基值。由于蜘蛛的更新是周期性，所以你就可以利用这个时间上的差值，打造1万一个垃圾外链，当然只要你服务器承受的起。现在可以在yahoo上查询www.sf123.com的外链。

结果是：链向该地址的网页：共 129986 条。

你可以通过程序大量制造这种页面，当然制作类似页面的方法还有很多，比如通过404等等。

编后：如果你只会群发，不得不说，你在亵渎黑帽这个词。关于各种bug确实还依然存在，如果你在为白帽那种机械式的劳动为耻，如果你愿意从事黑帽排名，那你探索的路现在就要开始了。好比如说我可以提一个词“傈”。这个词在百度里是搜不到的，给你的答案是“僳”。很不幸，百度同志，你露馅了。我轻易的窥探了你的字库索引编码。如果，我现在去找一个词，和“免费电影”向对应的编码，我堆砌1000次这个编码，我就可以轻易绕过你的过滤器。我既堆砌了，而你又查不出来。免费电影这个词排名第一很容易的就成自己的了。而这个编码在哪里？gb2312-80？gbk？utf-8？需要你丰富的计算机知识。例如:你要知道“gb2312-80”,一级字库和二级字库一共有几个字，各有哪些字。而且现在我可以明确的说se的bug依然过多，剩下的路你由自己寻觅吧。我们的黑帽SEOER未来是你们的。

第四部、物理学在说话之百度的三连击《论如何学习seo》

本文是旨在讨论百度对网站自动描述（description）抓取的基本原理。

在此先解释一个英文“HIT”，喜欢看棒球或者拳击比赛的朋友对这个词一定不会陌生。翻译成中文就是：打，击中。本人高中时代曾经在体校学习过一段时间散打，教练曾跟我说，你要学会打出组合拳狠击对手，不要多，就击打三次，用你最快，最准，最擅长的方式。而打出第一拳到出第二拳中间耗费的时间就是你所消耗的物理空间距离。现在在百度的搜索技术中一样存在这个概念。

言归正传，se（搜索引擎的缩写）中hit是什么呢？就是你的关键词在文档中，词与词之间的距离。

例如：小平是学习论坛新手区的版主，小平家住北京，小平也是北京的搜索优化专家。

以(A)title为小平，和以(B)title为北京个举两个例子。我们现在来算一下他们的物理距离。即：第一个出现小平位置到第二个小平出现的位置，再由第二个小平出现的位置到第三个小平出现的位置之间相隔的字数。

第一词（A）hit距离是（12，4）
第二词（B）hit距离是（4）

如果，你现在能正确数的出来，我们来进入下一步实战，百度实际网页中描述的自动抓取。

现在，我们去随机找几个关键词来验证。

第一个词：中国

以排名第2的百度百科为例，因为这个网页head区没有描述（description）。现在我们来网页中抓取3段hit距离最短的文字。

重点：因为百度里描述一般在100至120个汉字，所以百度抓取的时候，一般平分为1至3段文字，如果（正文规则）一段就达到120字就不再继续抓取。而且这一段文字要出现“中国”这个关键词最多，频率最高，也是hit的物理距离最小的位置。

现在我们发现有两个位置出现的最密集。

ok，我现在看一下百度是不是这么抓取的。

第二个词：邓小平

我们选择排名第一的中国经济网的一个网页。这个网页head区同样没有描述（description）。

现在我们发现有两个位置出现的最密集。

（问题：为什么选择第2个分段，因为第2个分段离第3个分段关键词出现的物理距离比较近。这样也符合人类阅读的方式，可以看一段精彩的故事内容，但不能看一个故事开口，然后就看故事结尾。）

现在我们在看一下百度自动抓取的描述内容。

实验到此结束。

我想通过上面的讲述，你应该可以自己判断出百度抓取的技巧。

编后：前一段时候被误会了，我真的不是研究黑帽作弊的。研究黑帽作弊需要相当的计算机知识。说实话，能做到黑帽的人不简单，我是相当佩服。其实，我可以明确的告诉新手，现在搜索引擎也就是幼儿阶段，只要你目光足够敏锐，他不过是一个玩具而已。

第五部、蜘蛛的三集篇，初篇。《论如何学习seo》

蜘蛛，对spider程序。

前一段时间在51job上查找招聘seo岗位的信息。都提到过要求对蜘蛛程序的认识。其实蜘蛛是建立在基于tcp协议3次握手的一个程序。由于线程生存时间和下载数据包大小的限制，给我们呈现到眼前的是例如百度最大限度125K的快照。如果超过125K数据包，蜘蛛程序将停止下载。这里要说明的是一般搜索引擎都有很好的容错能力，就算html或者其他网页文件未能下载完成，百度的分析器依然可以分析的出来。很多XX私服由于未使用嵌入的方式来显示广告条，导致大量网站首页都没有完整下载，可谓是seo的失败。因为，多线程的工作方式。收录新站的时候，总是先下载首页文件，分析器来分析收录首页。通过上一次分析出的link地址，放出下一次的蜘蛛爬行网页，如此反复运行。

两个关于蜘蛛爬行的说法。

第一，蜘蛛爬行是从上到下，从左到右。第二，层的嵌套数量影响蜘蛛的爬行。

蜘蛛是一个下载程序，不存在分析能力。

A,如果，非要查从上到下，从左到右的典故的话，这个传说来自有ibm网路研究学院。而且他的网站是确实是这么写的。为什么呢？这个来自于2叉树的正确书写格式。

B,还有一种理解就是写代码时候的思路，把有用的代码写在web文件的前面，把一些非面对搜索的内容写在后面。比如常用的css方法来控制你的版面。

至于嵌套影响蜘蛛爬行更是不可能,ISO七层网络模型下，没有任何协议有数据分析能力。如果，非要说层对搜索引擎的不利，就是seo工作中，操作者对网页内层次的混乱导致各个节点在递归计算时产生的对网页讲述主题的偏离。

风月凝思整理此文，源于平同志。

SEO新人快速入门篇

Blog Archive

Categories