u=3871974655,2427310119&fm=26&gp=0.jpg


如何快速排名、如何把自己公司网站排名快速上升,研究搜索引擎原理特别是爬虫实现原理非常重要,如下给大家总结了相关关键点。


一、基本概念

SEO(Search Engine Optimization) :搜索引擎优化,SEO是指通过网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而把精准用户带到网站,获得免费流量。

爬虫(web机器、spider):是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人,它们会递归地对各种信息性的web站点进行遍历,获取第一个web页面,然后获取那个页面指向的所有的web页面,依次类推。

搜索引擎使用爬虫在web上游荡,并把他们碰到的文档全部拉回来。然后对这些文档进行处理,形成一个可搜索的数据库。简单来说,网络爬虫就是搜索引擎访问你的网站进而收录你的网站的一种内容采集工具。熟悉乃至精通爬虫知识,对于日后的SEO工作,起着极大的正面作用。


二、搜索引擎工作原理

在搜索引擎程序背后有一个强大的数据库,里面记录了很多关键字,这些关键字都指向了对应的URL地址。当我们使用搜索引擎查找关键字时就能匹配到对应的一些网址,这个关键字往往能匹配出很多对应的信息,这就涉及到排序的问题,搜索引擎会根据数据库中哪个关键字更贴切就相对应的网址就会排在越前面。 

搜索引擎程序不停的在互联网上爬取信息,从一个链接到另一个链接不停的查找下去,如果找到的信息是自己数据库中不存在的就会收录进去,相反的一些无用的垃圾信息也会被忽略。

搜索引擎原理对于我们操作seo的重要性,爬虫是其中不可或缺的一环,seo与爬虫的关系是密不可分的,是搜索引擎用来抓取互联网网页的软件程序,处于整个搜索引擎业务和技术的最上游模块

搜索引擎与爬虫的关系,如下:

网络 <==> 爬虫 <==>网页内容库 <==>索引程序 <==> 索引库 <==> 搜索引擎<==> 用户


爬虫是搜索引擎的重要部分,负责信息的采集,搜索引擎还包括语义分析和全文索引等。


三、爬虫的种类

按照抓取对象的侧重点,可以将爬虫分为以下几类:

1、批量型爬虫(BatchCrawler)

批量型爬虫有较明确的抓取范围及抓取目标,目标可能是一段时间,也可能是一批网页,一旦完成要求的抓取要求,则爬虫就会停止抓取进程,算是完成了此阶段批量的抓取任务。

2、增量型爬虫(IncrementalCrawler)

不同于批量型爬虫,增量型爬虫会持续不断地抓取网页,并且要对新抓到的网页进行更新。又称“通用爬虫”,在搜索业务内,如百度、Google采用的都是增量型爬虫。

3、垂直型爬虫(FocusCrawler)

垂直型爬虫关注在某一个固定的专题内容或者固定的行业网页。在互联网行业,存在千万种行业分类,垂直型爬虫要明确爬虫哪方面的内容,进而对此行业内进行抓取。一般垂直型搜索引擎,如携程,就会重点抓取出行方面的数据,不会考虑到食品类别的网页。

以上三种爬虫,技术难度最大最复杂的当属增量型爬虫,也是Google、百度等一般搜索引擎采用的爬虫类型。

与批量型相比,增量型爬虫需要对能发现的任务网页进行抓取,而不是关注在某一范围或目标上。与垂直型相比,增量型爬虫需要对全网内容进行抓取,而不仅只抓取某一专题内容。

此外,增量型爬虫还要考虑到所有抓取下来内容的更新,一遍遍地抓取,更新内容,具体策略见下文。

timg.jpg



四、搜索引擎优化注意点

如果想把自己的网站做到搜索排名快速提升,针对搜索引擎的优化必不可少:


1、网站和页面的权重大小

这是衡量网站价值的重要标准,高质量老资格的网站被百度评为高权重,这种网站的页面被爬虫抓取的机率比较高,所以会有很多内页被收录。

2、页面更新频率

会直接影响爬虫的光临频率,爬虫把每次光临获得的页面数据保存到服务器上,如果下次光临页面发现内容跟储存数据相同,那么会被爬虫认为页面不会经常更新,然后会给网站一个优先级,来决定以后光临的时间和频率。如果网站内容经常更新,每次爬虫抓取的内容都不一样,那么爬虫会更加频繁的访问这类页面,页面出现的新连接也自然会被爬取收录。

3、引导链接的建立

无论网站的外部链接或内部链接,想要被爬虫抓取,必须有引导链接进入页面,所以内部链接的合理性搭建非常重要,否则爬虫无法发现页面的存在。高质量的外部链接导入也是非常重要的,会增加爬虫跟踪爬行深度的增加。

4、建立首页的引导链接

爬虫访问最频繁的是首页,有内容更新时,一定要在首页体现出来并建立链接,便于爬虫最快抓取到,增加抓取机会。

5、原创内容

爬虫最厉害的是会对网站新发布内容同服务器收录数据做比对,如果是抄袭或部分修改的非原创伪原创内容,百度是不会收录的,如果经常发布的是非原创内容,那么也会降低爬虫的光临频率,严重的直接不收录,甚至0收录。

6、突出重要内容

合理的title、description和keywords。虽然现在搜索对这三项的权重慢慢减小,但还是希望能够合理的写好他们,只写有用的东西,不要在这里写小说,要表达重点。

title:只强调重点即可,重要关键词出现不要超过2次,而且要靠前,每个页面title要有所不同description:把网页内容高度概括到这里,长度要合理,不可过分堆砌关键词,每个页面description要有所不同,keywords:列举出几个重要关键词即可,也不可过分堆砌。

7、语义化书写HTML代码,符合W3C标准

对于搜索引擎来说,最直接面对的就是网页HTML代码,如果代码写的语义化,搜索引擎就会很容易的读懂该网页要表达的意思。

8、利用布局,把重要内容HTML代码放在最前

搜索引擎抓取HTML内容是从上到下,利用这一特点,可以让主要代码优先读取,让爬虫最先抓取

9、重要内容不要用JS输出

爬虫不会读取JS里的内容,所以重要内容必须放在HTML里

10、尽少使用iframe框架

搜索引擎不会抓取到iframe里的内容,重要内容不要放在框架中。

11、为图片加上alt属性

alt属性的作用是当图片无法显示时以文字作为代替显示出来,对于SEO来说,它可以令搜索引擎有机会索引你网站的图片。

12、需要强调的地方可以加上title属性

在进行SEO优化时,适合将alt属性设置为图片本来的含义,而将 ttitle属性为设置该属性的元素提供建议性的信息。

13、为图片加上长宽

图片大的会排在前面一点。

14、保留文字效果

如果需要兼顾用户体验和SEO效果,在必须用图片的地方,例如个性字体的标题,我们可以利用样式控制,让文本文字不会出现在浏览器上,但在网页代码中是有该标题的。

注意:不可使用display:none;的方法让文字隐藏,因为搜索引擎会过滤掉display:none;里边的内容,就不会被爬虫检索了。

15、提高网站速度

网站速度是搜索引擎排序的一个重要指标

16、对于指向外部网站的链接要使用rel="nofollow"属性告诉爬虫不要去爬其他的页面

timg (1).jpg


五、爬虫程序开发注意点

了解爬虫程序开发方法对做SEO优化快速排名优化策略有很大启发,下面我们来了解下爬虫开发关键点。


1、爬虫的更新策略

在爬虫完成第一遍抓取之后,还要考虑到再次抓取的情况,因为网页的内容都是变化的,如不能及时抓取,那么用户看到的可能还是很久之前的信息,就没有意义了。

爬虫一般会根据以下三个方面进行更新:历史更新频率、用户体验、网页类型

1)历史更新频率

搜索引擎爬虫在爬虫某些网页时,会判断网页的主体内容是否发生了变化,如果发现网页内容经常更新,就会增加抓取网页的几率。比如一些时事类的新闻版块,分分钟会更新出许多的内容,那么爬虫也在以秒为单位进行实时的抓取。但如果爬虫尝试抓取的时候,发现网页内容都是一成不变,则减少抓取频率,甚至不再对其抓取。在一个动态调整中,爬虫会发现最合理的抓取规律。

2)用户体验

互联网上有海量的页面和数据,但搜索引擎最关心的是用户需要的那一小部分。在用户输入查询词之后经常点击的网页,爬虫则会认为其实用户体验良好的页面,增加对其的抓取。

3)网页类型

不同的网页更新频率是不同的,一般网页分为首页、分类页、内容页。爬虫抓取首页、分类页的几率比内容页要高,因为爬虫会认为内容页的内容更新频率小,而首页和分类页因为层级浅,且更新频率高,则会受到爬虫青睐。

5 爬虫的部署特点

搜索引擎为了满足用户的需求,需要大量的爬虫对互联网上的网页进行抓取。对Google或者百度来说,在全球范围内配置了很多数据中心,比如Google在香港的数据中心,数据中心中配备了许多服务器,服务器上运行着许多爬虫程序。可以理解为,有许多机房,机房有许多台电脑,电脑上运行着许多程序,对互联网上的网页进行着抓取。


2、爬取策略

1)深度优先(DepthFirst)

深度优先策略,指的是爬虫根据一个页面顺着抓取下去,即一条路走到黑。

2)广度优先(BreadthFirst)

广度优先策略,指的是爬虫在同一个等级上进行抓取,直到同等级页面都被抓取完毕之后,再去抓取下一层级的页面。以广度优先的方式去访问可以将环路的影响最小化。

3)大站优先策(LargerSite First)

大站优先策略就很简单粗暴了,以站点为单位,表示这不同的重要性,对爬虫来说,会优先且更高频率地去抓取大站。

以上,三种基本的爬虫抓取策略,各有优缺点。综合而言,广度优先的策略不太理想,因为如果只在一个层级抓取,永远达到不了一些网页,而深度优先的策略,总能根据网页之间的链接关系达到其他的网页,但是可以将环路的影响最小化。

在实际应用中,一般都是多种策略混合使用。


3、其他总结

1)链接提取以及相对链接的标准化

爬虫在web上移动的时候会不停的对HTML页面进行解析,它要对所解析的每个页面上的URL链接进行分析,并将这些链接添加到需要爬行的页面列表中去。关于具体的方案我们可以查阅这篇文章

2)避免环路的出现

web爬虫在web上爬行时,要特别小心不要陷入循环之中,至少有以下三个原因,环路对爬虫来说是有害的。

他们会使爬虫可能陷入可能会将其困住的循环之中。爬虫不停的兜圈子,把所有时间都耗费在不停获取相同的页面上。

爬虫不断获取相同的页面的同时,服务器段也在遭受着打击,它可能会被击垮,阻止所有真实用户访问这个站点。

爬虫本身变的毫无用处,返回数百份完全相同的页面的因特网搜索引擎就是这样的例子。

同时,联系上一个问题,由于URL“别名”的存在,即使使用了正确的数据结构,有时候也很难分辨出以前是否访问过这个页面,如果两个URL看起来不一样,但实际指向的是同一资源,就称为互为“别名”。

3)标记为不爬取

可以在你的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被蜘蛛访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎访问和收录了,或者可以通过robots.txt指定搜 索引擎只收录指定的内容。搜索引擎爬行网站第一个访问的文件就是robot.txt。同样也可以把链接加上rel=”nofollow”标记。

4)节流

限制一段时间内爬虫可以从一个web站点获取的页面数量,也可以通过节流来限制重复页面总数和对服务器访问的总数。

5)限制URL的大小

如果环路使URL长度增加,长度限制就会最终终止这个环路



要想网站排名优化上百度首页、在各大搜索引擎中都被快速收录互点排名给大家总结的这些希望对大家有所帮助。