导航

上海网站建设

专业的网站建设,上海网站建设中心,我们有最专业的团队与最优秀的网站设计人才,选择我们就是选择成功!站长联系电话:(021)68046287 / 68046297 QQ:450591584 EMAIL:shwebc@gmail.com我们提供的服务:
网站建设,网站优化,网站维护,空间域名,企业邮局

关键字:上海网站建设网站排名网页制作网站建设网页设计网站优化上海WAP建站

[置顶] 网站建设最新报价(2007-11-20)

[置顶] 作弊手法一览

中文搜索引擎技术揭密:网络蜘蛛(二)----上海网站建设

网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,...

中文搜索引擎技术揭密:网络蜘蛛(一)---上海网站建设

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一个重要的且是免费的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网...

搜索引擎友好的标题和META标签 (一)

在这篇文章里,我会向你一步一步介绍如何创建搜索引擎优化的标题META标签。文章分两个部分来讲,这里我们先讨论下标题元素。

标题元素

在搜索引擎“眼里”,标题元素 (通常也称为标题标签)是当用户进行搜索查询时,可决定网页相关性的一个重要因素。在他们的排名算法中,搜索结果与标题标签的内容都是高度相关的,几乎所有主要的搜索引擎都有这一共同的特征。

我们虚拟一花店网站来做例子,在网站的HTML 代码里,标题标签一般会这样显示:

[TITLE]晓芳花店- 插花花艺和订购 [/TITLE]

(注意:在标签的开头和结尾都分别要使用方括号[ ],防止该网页代码被破坏。)

要查看任何站点的HTML代码,你可以在浏览器的工具栏上选择“查看,源文件”,或直接在网页上的任何一个位置右击并选择“查看源文件”。

META 描述标签

META描述标签是用来描述网页内容的,在索引网站时,搜索引擎机器人会聚集这一信息,并用来作为在搜索列表中的参考网页。

当然,并不是所有的搜索引擎都会利用META 描述标签,大多数搜索引擎只是用这一标签内容来提供网站信息,保证搜索结果与用户查询的信息相匹配。对网络管理员来说,在META 描述文本里加入关键字是尤为重要的,这样的话搜索者就能通过META描述标签找到他们网站的内容。

在网站的HTML 代码里,META描述标签会这样显示:

[META名称="描述" 内容="晓芳花店,插花艺术,预定各种花篮、花束、婚车会场布置、市区免费送花。”]

搜索引擎优化和反向链接

有一件事是所有网络管理员都一致认同的,他们都想让自己的网站在搜索引擎结果里获得最高的排名,为网站赢得流量和真正的顾客。

而事实是,搜索引擎就像我们童年时的游戏“小山之王”,最终只有一个人能站在山的顶端,搜索结果里的最高排名也一样。且在搜索引擎结果的首页最多只能显示十个网站,当新的网站进入这十大排名时,其中必然有另一网站是要离开的。

在任何给定的时间下,搜索任何给定的搜索词,搜索引擎结果的首页始终只能显示十个网页。而在数据库中,还有数百万个相关的网页。

搜索引擎优化(SEO)类网站设计

介绍

在你打开Dreamweaver或你喜欢的html编辑器,开始设计你的网站之前,这里有些事是需要你先去做的。这篇文章里,我将像你介绍怎样才能加快你的工作流程;并介绍一些普通的技巧,它们能加快你网站设计的速度,让它更快的在搜索引擎里显示。

购买并优化你的域名

首先你需要考虑的是你的域名。我建议你千万别套用公司的名称,举例来说,如果你的公司专营油漆,公司名称为“大宝油漆”,你千万别选dabaopaints.com作为你公司的域名。换我会选一个富含关键字的域名。有些搜索引擎优化师说,在域名里包含关键字对你的网站来说没有任何差别,我并不同意这种说法。在搜索引擎结果网面(SERPS)里,Google会用红色突出你的关键字,这使我相信关键词确实是有一定重量的;此外关键词能让搜索者更加清楚你网站的内容。

什么是关键字?

搜索引擎算法研究5

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10

搜索引擎算法研究4

2.3 SALSA算法

PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回退浏览网页。基于上述直觉知识,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for Link-Structure Analysis)算法[8],考虑了用户回退浏览网页的情况,保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想,取消了Authoritive和Hub之间的相互加强关系。

搜索引擎算法研究3

2.2.3 HITS的变种

HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:

2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进

对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。I,O操作改为如下

I 操作:

O操作:

调整后的算法有效的解决了问题2,称之为imp算法。

在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:



,,=项i在查询Q中的出现次数,

=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。

在S扩展到T后,计算每个文档的主题相似度,根据不同的阈值(threshold)进行刷选,可以选择所有文档相似度的中值,根集文档相似度的中值,最大文档相似度的分数,如1/10,作为阈值。根据不同阈值进行处理,删除不满足条件的文档,再运行imp算法计算文档的A/H值,这些算法分别称为med,startmed,maxby10。

在此改进的算法中,计算文档的相似度时间开销会很大。

2.2.3.2 ARC算法

IBM Almaden研究中心的Clever工程组提出了ARC(Automatic Resource Compilation)算法,对原始的HITS做了改进,赋予网页集对应的连结矩阵初值时结合了链接的锚(anchor)文本,适应了不同的链接具有不同的权值的情况。

ARC算法与HITS的不同主要有以下3点:

1.由根集S扩展为T时,HITS只扩展与根集中网页链接路径长度为1的网页,也就是只扩展直接与S相邻的网页,而ARC中把扩展的链接长度增加到2,扩展后的网页集称为增集(Augment Set)。

2.HITS算法中,每个链接对应的矩阵值设为1,实际上每个链接的重要性是不同的,ARC算法考虑了链接周围的文本来确定链接的重要性。考虑链接p->q,p中有若干链接标记,文本1锚文本文本2,设查询项t在文本1,锚文本,文本2,出现的次数为n(t),则w(p,q)=1+n(t)。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W,如果有网页i->j ,Wi,j=w(i,j),否则Wi,j=0,H值设为1,Z为W的转置矩阵,迭代执行下面3个的操作:

(1)A=WH (2)H=ZA (3)规范化A,H

3.ARC算法的目标是找到前15个最重要的网页,只需要A/H的前15个值相对大小保持稳定即可,不需要A/H整个收敛,这样2中迭代次数很小就能满足,[10]中指出迭代5次就可以,所以ARC算法有很高的计算效率,开销主要是在扩展根集上。 

2.2.3.3 Hub平均( Hub-Averaging-Kleinberg)算法

Allan Borodin等在[11]指出了一种现象,设有M+1个Hub网页,M+1个权威网页,前M个Hub指向第一个权威网页,第M+1个Hub网页指向了所有M+1个权威网页。显然根据HITS算法,第一个权威网页最重要,有最高的Authority值,这是我们希望的。但是,根据HITS,第M+1个Hub网页有最高的Hub值,事实上,第M+1个Hub网页既指向了权威值很高的第一个权威网页,同时也指向了其它权威值不高的网页,它的Hub值不应该比前M个网页的Hub值高。因此,Allan Borodin修改了HITS的O操作:

O操作: ,n是(v,u)的个数

调整以后,仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高,此算法称为Hub平均(Hub-Averaging-Kleinberg)算法。

2.2.3.4 阈值(Threshhold—Kleinberg)算法

Allan Borodin等在[11]中同时提出了3种阈值控制的算法,分别是Hub阈值算法,Authority阈值算法,以及结合2者的全阈值算法。

计算网页p的Authority时候,不考虑指向它的所有网页Hub值对它的贡献,只考虑Hub值超过平均值的网页的贡献,这就是Hub阈值方法。

Authority阈值算法和Hub阈值方法类似,不考虑所有p指向的网页的Authority对p的Hub值贡献,只计算前K个权威网页对它Hub值的贡献,这是基于算法的目标是查找最重要的K个权威网页的前提。

同时使用Authority阈值算法和Hub阈值方法的算法,就是全阈值算法

搜索引擎算法研究2

2.1.2 算法的一些问题

Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在 Google中查询search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的结果中这些网页并没有出现。 同样的查询例子也可以说明另外一个问题,Google,Yahoo是WWW上最受欢迎的网页,如果出现在查询项car的结果集中,一定会有很多网页指向它们,就会得到较高的rank值, 事实上他们与car不太相关。

在PageRank算法的基础上,其它的研究者提出了改进的PageRank算法。华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出了结合链接和内容信息的PageRank算法,去除了PageRank算法需要的前提2,增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。斯坦大学计算机科学系Taher Haveliwala提出了主题敏感(Topic-sensitive)PageRank算法[4]。斯坦福大学计算机科学系Arvind Arasu等经过试验表明,PageRank算法计算效率还可以得到很大的提高[22]。



2.2 HITS算法及其变种

PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征:

1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。
2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。
3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。

可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的HITS算法中引入了另外一种网页,称为Hub网页,Hub网页是提供指向权威网页链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是Hub网页确提供了指向就某个主题而言最为重要的站点的链接集合,比一个课程主页上的推荐参考文献列表。一般来说,好的Hub网页指向许多好的权威网页;好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authoritive网页之间的相互加强关系,可用于权威网页的发现和WEB结构和资源的自动发现,这就是Hub/Authority方法的基本思想。

2.2.1 HITS算法

HITS(Hyperlink-Induced Topic Search)算法是利用Hub/Authority方法的搜索方法,算法如下:将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集(root set),用S表示。S满足如下3个条件:

1.S中网页数量相对较小
2.S中网页大多数是与查询q相关的网页
3.S中网页包含较多的权威网页。

通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T.

以T中的Hub网页为顶点集Vl,以权威网页为顶点集V2,Vl中的网页到V2中的网页的超链接为边集E,形成一个二分有向图SG=(V1,V2,E)。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下

搜索引擎算法研究1

1.引言

万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
分页:[«]1[2][»]

Powered By Z-Blog .Templete from Google黑板报

Copyright 上海网站建设 沪ICP备07037033号 Some Rights Reserved.