<?xml version="1.0" standalone="yes"?>
<?xml-stylesheet type="text/css" href="css/rss.css"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>上海网站建设 - 搜索引擎优化</title><link>http://www.shwebc.com/</link><description>专业的上海网站建设中心|上海网站制作|上海网站设计-----大海工作室 - </description><generator>RainbowSoft Studio Z-Blog 1.7 Laputa Build 70216</generator><language>zh-CN</language><copyright>&amp;lt;META name=&amp;quot;y_key&amp;quot; content=&amp;quot;f238a0a5b34535a1&amp;quot; /&amp;gt;Copyright 上海网站建设 &amp;lt;a href=&amp;quot;http://www.miibeian.gov.cn&amp;quot; target=&amp;quot;_blank&amp;quot;&amp;gt;沪ICP备07037033号&amp;lt;/a&amp;gt; Some Rights Reserved.&amp;lt;img src='http://ip.chinaz.com/ipshow.asp'&amp;gt;&amp;lt;script type=&amp;quot;text/javascript&amp;quot; src=&amp;quot;http://js.tongji.yahoo.com.cn/0/35/500/ystat.js&amp;quot;&amp;gt;&amp;lt;/script&amp;gt;&amp;lt;noscript&amp;gt;&amp;lt;a href=&amp;quot;http://js.tongji.yahoo.com.cn&amp;quot;&amp;gt;&amp;lt;img src=http://js.tongji.yahoo.com.cn/0/35/500/ystat.gif&amp;gt;&amp;lt;/a&amp;gt;&amp;lt;/noscript&amp;gt;</copyright><pubDate>Tue, 07 Sep 2010 08:21:19 +0800</pubDate><item><title>中文搜索引擎技术揭密：网络蜘蛛(二)----上海网站建设</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/2007102603.html</link><pubDate>Fri, 26 Oct 2007 22:47:55 +0800</pubDate><guid>http://www.shwebc.com/post/2007102603.html</guid><description><![CDATA[网络蜘蛛基本原理 网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，...]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/2007102603.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=492</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=492&amp;key=a06a69c3</trackback:ping></item><item><title>中文搜索引擎技术揭密：网络蜘蛛(一)---上海网站建设</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/2007102602.html</link><pubDate>Fri, 26 Oct 2007 22:45:54 +0800</pubDate><guid>http://www.shwebc.com/post/2007102602.html</guid><description><![CDATA[随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为学者，会把有代表性的搜索引擎作为研究对象&hellip;&hellip; 而作为一个网站的经营者，其更关心的或许是如何通过网络载体让更多的网民知道自己的网站，进而获得更高的流量和知名度。这其中，搜索引擎已经成了一个重要的且是免费的宣传途径。一方面，搜索引擎会主动出击，寻找网络上的各种网...]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/2007102602.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=491</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=491&amp;key=a7972fb2</trackback:ping></item><item><title>搜索引擎友好的标题和META标签 （一）</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/200791906.html</link><pubDate>Tue, 18 Sep 2007 21:41:47 +0800</pubDate><guid>http://www.shwebc.com/post/200791906.html</guid><description><![CDATA[在这篇文章里，我会向你一步一步介绍如何创建搜索引擎优化的标题META标签。文章分两个部分来讲，这里我们先讨论下标题元素。 <br/><br/>标题元素<br/><br/>    在搜索引擎“眼里”，标题元素 (通常也称为标题标签)是当用户进行搜索查询时，可决定网页相关性的一个重要因素。在他们的排名算法中，搜索结果与标题标签的内容都是高度相关的，几乎所有主要的搜索引擎都有这一共同的特征。 <br/><br/>    我们虚拟一花店网站来做例子，在网站的HTML 代码里，标题标签一般会这样显示：<br/><br/>    [TITLE]晓芳花店- 插花花艺和订购 [/TITLE]<br/><br/>(注意：在标签的开头和结尾都分别要使用方括号[ ]，防止该网页代码被破坏。)<br/><br/>    要查看任何站点的HTML代码，你可以在浏览器的工具栏上选择“查看，源文件”，或直接在网页上的任何一个位置右击并选择“查看源文件”。 <br/><br/>META 描述标签<br/><br/>    META描述标签是用来描述网页内容的，在索引网站时，搜索引擎机器人会聚集这一信息，并用来作为在搜索列表中的参考网页。<br/><br/>    当然，并不是所有的搜索引擎都会利用META 描述标签，大多数搜索引擎只是用这一标签内容来提供网站信息，保证搜索结果与用户查询的信息相匹配。对网络管理员来说，在META 描述文本里加入关键字是尤为重要的，这样的话搜索者就能通过META描述标签找到他们网站的内容。 <br/><br/>    在网站的HTML 代码里，META描述标签会这样显示：<br/><br/>    [META名称="描述" 内容="晓芳花店，插花艺术，预定各种花篮、花束、婚车会场布置、市区免费送花。”] <br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/200791906.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=349</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=349&amp;key=565b86bd</trackback:ping></item><item><title>搜索引擎优化和反向链接</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/200791905.html</link><pubDate>Tue, 18 Sep 2007 21:38:31 +0800</pubDate><guid>http://www.shwebc.com/post/200791905.html</guid><description><![CDATA[ 有一件事是所有网络管理员都一致认同的，他们都想让自己的网站在搜索引擎结果里获得最高的排名，为网站赢得流量和真正的顾客。 <br/><br/>    而事实是，搜索引擎就像我们童年时的游戏“小山之王”，最终只有一个人能站在山的顶端，搜索结果里的最高排名也一样。且在搜索引擎结果的首页最多只能显示十个网站，当新的网站进入这十大排名时，其中必然有另一网站是要离开的。 <br/><br/>    在任何给定的时间下，搜索任何给定的搜索词，搜索引擎结果的首页始终只能显示十个网页。而在数据库中，还有数百万个相关的网页。 <br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/200791905.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=348</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=348&amp;key=ae3e1022</trackback:ping></item><item><title>搜索引擎优化（SEO）类网站设计</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/200791904.html</link><pubDate>Tue, 18 Sep 2007 21:37:27 +0800</pubDate><guid>http://www.shwebc.com/post/200791904.html</guid><description><![CDATA[介绍<br/><br/>    在你打开Dreamweaver或你喜欢的html编辑器，开始设计你的网站之前，这里有些事是需要你先去做的。这篇文章里，我将像你介绍怎样才能加快你的工作流程；并介绍一些普通的技巧，它们能加快你网站设计的速度，让它更快的在搜索引擎里显示。<br/><br/>购买并优化你的域名<br/><br/>    首先你需要考虑的是你的域名。我建议你千万别套用公司的名称，举例来说，如果你的公司专营油漆，公司名称为“大宝油漆”，你千万别选dabaopaints.com作为你公司的域名。换我会选一个富含关键字的域名。有些搜索引擎优化师说，在域名里包含关键字对你的网站来说没有任何差别，我并不同意这种说法。在搜索引擎结果网面(SERPS)里，Google会用红色突出你的关键字，这使我相信关键词确实是有一定重量的；此外关键词能让搜索者更加清楚你网站的内容。<br/><br/>什么是关键字?<br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/200791904.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=347</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=347&amp;key=1443bc53</trackback:ping></item><item><title>作弊手法一览</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/165.html</link><pubDate>Fri, 07 Sep 2007 21:26:56 +0800</pubDate><guid>http://www.shwebc.com/post/165.html</guid><description><![CDATA[Google排名优化：<br/><br/>优化的方式形形色色，一般无外乎按照一定的关键词，通过对网站结构，页面因素和外部链接的优化，使网站得到最佳的搜索引擎排名。但事实上我们发现，有一些网站由于采取了不正确的优化策略，不但未能有效提升网站的排名，反而使网站排名惨跌甚至遭到搜索引擎删除。在此我们列出被Google明令禁止的属SPAM性质的优化技术供大家借鉴。<br/><br/>一：隐藏文本/隐藏链接<br/><br/>一般指网页专为搜索引擎所设计，但普通访问者无法看到的文本内容或链接。在形形色色的隐藏技术中，最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。<br/><br/>隐藏文本内容(Invisable/hidden text)<br/>  意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分，从而达到改善搜索引擎排名的目的。<br/><br/>隐藏链接(Invisable/hidden links)<br/>  意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接，通过提升链接得分而改善搜索引擎排名。 <br/>现在大多数搜索引擎都能检测隐藏技术，并视为作弊。因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚。虽然在Google上不乏使用隐形技术而侥幸逃脱的网站，但多数人还是认为不值得冒这个险。其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果。<br/><br/>二：网页与Google描述不符<br/><br/>一般发生于先向搜索引擎提交一个网站，等该网站被收录后再以其它页面替换该网站。“诱饵行为(Bait-&-Switch)”就属于此类偷梁换柱之举--创建一个优化页和一个普通页，然后把优化页提交给搜索引擎，当优化页被搜索引擎收录后再以普通页取而代之。<br/><br/>三：误导性或重复性关键词<br/><br/>误导性关键词(Misleading Words)<br/>  在页面中使用与该网页毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。这种做法严重影响了搜索引擎所提供结果的相关性和客观性，为搜索引擎所深恶痛绝。<br/><br/>重复性关键词(Repeated Words)<br/>  这种作弊技术也被称为“关键词堆砌欺骗(Keyword Stuffing)”，它利用搜索引擎对网页正文和标题中出现的关键词的高度关注来对关键词进行不合理的(过度)重复。类似的其它做法还包括在HTML元标识中大量堆砌关键字或使用多个关键字元标识来提高关键词的相关性。这种技术很容易被搜索引擎察觉并受到相应惩罚。 <br/>四：隐形页面(Cloaked Page)<br/><br/>对实际访问者或搜索引擎任一方隐藏真实网站内容，以向搜索引擎提供非真实的搜索引擎友好的内容提升排名。 <br/><br/>五：欺骗性重定向(Deceptive redirects)<br/><br/>指把用户访问的第一个页面(着陆页)迅速重定向至一个内容完全不同的页面。<br/><br/>“鬼域(Shadow Domain)”<br/>这是最常见的欺骗性重定向技术，通过欺骗性重定向使用户访问另外一个网站或页面。一般利用HTML刷新标识(Meta Refresh)来实现。大多搜索引擎都不会索引使用该标识的页面。如果你使用刷新标识来检测浏览器或分辨率，那么就请使用Javascript，且尽可能延长重定向时间。如果一定要使用重定向功能，那么请务必确保刷新周期不少于10秒钟。<br/><br/>还有一种情况就是当用户打开一个网站，该网站声称其网站已移至新域名下，并请用户点击新域名链接进入网站。但当用户进去后才发现，这个链接是一个“会员”链接。这也属欺骗性重定向行为。 ]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/165.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=315</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=315&amp;key=0688ea64</trackback:ping></item><item><title>搜索引擎算法研究5</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/164.html</link><pubDate>Fri, 07 Sep 2007 21:22:34 +0800</pubDate><guid>http://www.shwebc.com/post/164.html</guid><description><![CDATA[为了符合贝叶斯统计模型的规范，要给2M＋N个未知参数（，，）指定先验分布，这些分布应该是一般化的，不提供信息的，不依赖于被观察数据的，对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N（μ，）,均值μ＝0，标准方差δ＝10]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/164.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=314</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=314&amp;key=e9c52f0f</trackback:ping></item><item><title>搜索引擎算法研究4</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/163.html</link><pubDate>Fri, 07 Sep 2007 21:21:26 +0800</pubDate><guid>http://www.shwebc.com/post/163.html</guid><description><![CDATA[２.３　SALSA算法<br/><br/>   PageRank算法是基于用户随机的向前浏览网页的直觉知识，HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中，用户大多数情况下是向前浏览网页，但是很多时候也会回退浏览网页。基于上述直觉知识，R. Lempel和S. Moran提出了SALSA（Stochastic Approach for Link-Structure Analysis）算法[8]，考虑了用户回退浏览网页的情况，保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想，取消了Authoritive和Hub之间的相互加强关系。]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/163.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=313</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=313&amp;key=595b142b</trackback:ping></item><item><title>搜索引擎算法研究3</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/162.html</link><pubDate>Fri, 07 Sep 2007 21:20:48 +0800</pubDate><guid>http://www.shwebc.com/post/162.html</guid><description><![CDATA[２.２.３　HITS的变种<br/><br/>   HITS算法遇到的问题，大多是因为HITS是纯粹的基于链接分析的算法，没有考虑文本内容，继J. Kleinberg提出HITS算法以后，很多研究者对HITS进行了改进，提出了许多HITS的变种算法，主要有：<br/><br/>２.２.３.１　Monika R. Henzinger和Krishna Bharat对HITS的改进<br/><br/>   对于上述提到的HITS遇到的第2个问题，Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d，则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k，而不是HITS中的每个文档贡献1，总共贡献k。类似的，对于Hub值，假定主机A上某个文档t指向主机B上的m个文档，则B上m个文档对t的Hub值总共贡献1，每个文档贡献1/m。I，O操作改为如下<br/><br/>I 操作：  <br/><br/>O操作：<br/><br/>   调整后的算法有效的解决了问题2，称之为imp算法。<br/><br/>   在这基础上，Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5，实际上也同时解决了问题3。具体方法如下，提取根集S中的每个文档的前1000个词语，串连起来作为查询主题Q，文档Dj和主题Q的相似度按如下公式计算：<br/><br/><br/><br/>，，＝项i在查询Q中的出现次数，<br/><br/>＝项i在文档Dj中的出现次数，IDFi是WWW上包含项i的文档数目的估计值。<br/><br/>   在S扩展到T后，计算每个文档的主题相似度，根据不同的阈值（threshold）进行刷选，可以选择所有文档相似度的中值，根集文档相似度的中值，最大文档相似度的分数，如1/10，作为阈值。根据不同阈值进行处理，删除不满足条件的文档，再运行imp算法计算文档的A/H值，这些算法分别称为med，startmed，maxby10。<br/><br/>   在此改进的算法中，计算文档的相似度时间开销会很大。<br/><br/>２.２.３.２　ARC算法<br/><br/>   IBM Almaden研究中心的Clever工程组提出了ARC（Automatic Resource Compilation）算法，对原始的HITS做了改进，赋予网页集对应的连结矩阵初值时结合了链接的锚（anchor）文本，适应了不同的链接具有不同的权值的情况。<br/><br/>   ARC算法与HITS的不同主要有以下3点：<br/><br/>１．由根集S扩展为T时，HITS只扩展与根集中网页链接路径长度为1的网页，也就是只扩展直接与S相邻的网页，而ARC中把扩展的链接长度增加到2，扩展后的网页集称为增集（Augment Set）。<br/><br/>２．HITS算法中，每个链接对应的矩阵值设为1，实际上每个链接的重要性是不同的，ARC算法考虑了链接周围的文本来确定链接的重要性。考虑链接p－>q，p中有若干链接标记，文本1<a href=”q”>锚文本</a>文本2，设查询项t在文本1，锚文本，文本2，出现的次数为n（t），则w（p，q）＝1+n（t）。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W，如果有网页i－>j ，Wi,j＝w（i，j），否则Wi,j＝0，H值设为1，Z为W的转置矩阵，迭代执行下面3个的操作：<br/><br/>（1）A＝WH （2）H＝ZA （3）规范化A，H<br/><br/>３．ARC算法的目标是找到前15个最重要的网页，只需要A/H的前15个值相对大小保持稳定即可，不需要A/H整个收敛，这样2中迭代次数很小就能满足，[10]中指出迭代5次就可以，所以ARC算法有很高的计算效率，开销主要是在扩展根集上。　<br/><br/>２.２.３.３　Hub平均（ Hub－Averaging－Kleinberg）算法<br/><br/>   Allan Borodin等在[11]指出了一种现象，设有M＋1个Hub网页，M＋1个权威网页，前M个Hub指向第一个权威网页，第M＋1个Hub网页指向了所有M＋1个权威网页。显然根据HITS算法，第一个权威网页最重要，有最高的Authority值，这是我们希望的。但是，根据HITS，第M＋1个Hub网页有最高的Hub值，事实上，第M＋1个Hub网页既指向了权威值很高的第一个权威网页，同时也指向了其它权威值不高的网页，它的Hub值不应该比前M个网页的Hub值高。因此，Allan Borodin修改了HITS的O操作：<br/><br/>O操作： ，n是(v,u)的个数<br/><br/>   调整以后，仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高，此算法称为Hub平均（Hub－Averaging－Kleinberg）算法。<br/><br/>２.２.３.４　阈值（Threshhold—Kleinberg）算法<br/><br/>   Allan Borodin等在[11]中同时提出了3种阈值控制的算法，分别是Hub阈值算法，Authority阈值算法，以及结合2者的全阈值算法。<br/><br/>   计算网页p的Authority时候，不考虑指向它的所有网页Hub值对它的贡献，只考虑Hub值超过平均值的网页的贡献，这就是Hub阈值方法。<br/><br/>   Authority阈值算法和Hub阈值方法类似，不考虑所有p指向的网页的Authority对p的Hub值贡献，只计算前K个权威网页对它Hub值的贡献，这是基于算法的目标是查找最重要的K个权威网页的前提。<br/><br/>   同时使用Authority阈值算法和Hub阈值方法的算法，就是全阈值算法 <br/><br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/162.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=312</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=312&amp;key=7523490e</trackback:ping></item><item><title>搜索引擎算法研究2</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/161.html</link><pubDate>Fri, 07 Sep 2007 21:19:48 +0800</pubDate><guid>http://www.shwebc.com/post/161.html</guid><description><![CDATA[２.１.２　算法的一些问题<br/><br/>   Google是结合文本的方法来实现PageRank算法的[2]，所以只返回包含查询项的网页，然后根据网页的rank值对搜索到的结果进行排序，把rank值最高的网页放置到最前面，但是如果最重要的网页不在结果网页集中，PageRank算法就无能为力了，比如在 Google中查询search engines，像Google，Yahoo，Altivisa等都是很重要的，但是Google返回的结果中这些网页并没有出现。 同样的查询例子也可以说明另外一个问题，Google，Yahoo是WWW上最受欢迎的网页，如果出现在查询项car的结果集中，一定会有很多网页指向它们，就会得到较高的rank值， 事实上他们与car不太相关。<br/><br/>   在PageRank算法的基础上，其它的研究者提出了改进的PageRank算法。华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出了结合链接和内容信息的PageRank算法，去除了PageRank算法需要的前提2，增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。斯坦大学计算机科学系Taher Haveliwala提出了主题敏感（Topic-sensitive）PageRank算法[4]。斯坦福大学计算机科学系Arvind Arasu等经过试验表明，PageRank算法计算效率还可以得到很大的提高[22]。<br/><br/> <br/><br/>２.２　HITS算法及其变种<br/><br/>   PageRank算法中对于向外链接的权值贡献是平均的，也就是不考虑不同链接的重要性。而WEB的链接具有以下特征：<br/><br/>   1.有些链接具有注释性，也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。<br/>   2.基于商业或竞争因素考虑，很少有WEB网页指向其竞争领域的权威网页。<br/>   3.权威网页很少具有显式的描述，比如Google主页不会明确给出WEB搜索引擎之类的描述信息。<br/><br/>   可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的HITS算法中引入了另外一种网页，称为Hub网页，Hub网页是提供指向权威网页链接集合的WEB网页，它本身可能并不重要，或者说没有几个网页指向它，但是Hub网页确提供了指向就某个主题而言最为重要的站点的链接集合，比一个课程主页上的推荐参考文献列表。一般来说，好的Hub网页指向许多好的权威网页；好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authoritive网页之间的相互加强关系，可用于权威网页的发现和WEB结构和资源的自动发现，这就是Hub/Authority方法的基本思想。<br/><br/>２.２.１　HITS算法<br/><br/>   HITS（Hyperlink－Induced Topic Search）算法是利用Hub/Authority方法的搜索方法，算法如下：将查询q提交给传统的基于关键字匹配的搜索引擎．搜索引擎返回很多网页，从中取前n个网页作为根集(root set)，用S表示。S满足如下3个条件：<br/><br/>   1．S中网页数量相对较小<br/>   2．S中网页大多数是与查询q相关的网页<br/>   3．S中网页包含较多的权威网页。<br/><br/>   通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T．<br/><br/>   以T中的Hub网页为顶点集Vl，以权威网页为顶点集V2，Vl中的网页到V2中的网页的超链接为边集E，形成一个二分有向图SG＝(V1，V2，E)。对V1中的任一个顶点v，用h(v)表示网页v的Hub值，对V2中的顶点u，用a(u)表示网页的Authority值。开始时h(v)＝a(u)＝1，对u执行I操作修改它的a(u)，对v执行O操作修改它的h(v)，然后规范化a（u），h（v），如此不断的重复计算下]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/161.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=311</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=311&amp;key=0ff65925</trackback:ping></item><item><title>搜索引擎算法研究1</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/160.html</link><pubDate>Fri, 07 Sep 2007 21:18:57 +0800</pubDate><guid>http://www.shwebc.com/post/160.html</guid><description><![CDATA[１．引言<br/><br/>   万维网WWW（World Wide Web）是一个巨大的，分布全球的信息服务中心，正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14]，每天增加约1百万的文档[6]，不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较，有很多新的特点，它们是分布的，异构的，无结构或者半结构的，这就对传统信息检索技术提出了新的挑战。<br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/160.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=310</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=310&amp;key=4954fd16</trackback:ping></item><item><title>Web Directories and Specialized Search Engines</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/WebDirectoriesandSpecializedSearchEngines.html</link><pubDate>Tue, 04 Sep 2007 21:52:23 +0800</pubDate><guid>http://www.shwebc.com/post/WebDirectoriesandSpecializedSearchEngines.html</guid><description><![CDATA[SEO experts spend most of their time optimizing for Google and occasionally one or two other search engines. There is nothing wrong in it and it is most logical, having in mind that topping Google is the lion's share in Web popularity but very often, no matter what you do, topping Google does not happen. Or sometimes, the price you need to pay (not literally but in terms of effort and time) to top Google and keep there is too high. Maybe we should mention here the ultimate SEO nightmare – being banned from Google, when you simply can't use Google (or not at least until you are readmitted to the club) and no matter if you like it or not, you need to have a look about possible alternatives. <br/><br/>]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/WebDirectoriesandSpecializedSearchEngines.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=253</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=253&amp;key=488a5522</trackback:ping></item><item><title> Choosing SEO as Your Career</title><author>shwebc@163.com (shwebc)</author><link>http://www.shwebc.com/post/ChoosingSEOasYourCareer.html</link><pubDate>Tue, 04 Sep 2007 21:40:22 +0800</pubDate><guid>http://www.shwebc.com/post/ChoosingSEOasYourCareer.html</guid><description><![CDATA[Its always better to know in advance what you can expect from a career in SEO.]]></description><category>搜索引擎优化</category><comments>http://www.shwebc.com/post/ChoosingSEOasYourCareer.html#comment</comments><wfw:comment>http://www.shwebc.com/</wfw:comment><wfw:commentRss>http://www.shwebc.com/sydication.asp?cmt=250</wfw:commentRss><trackback:ping>http://www.shwebc.com/cmd.asp?act=tb&amp;id=250&amp;key=b7227342</trackback:ping></item></channel></rss>
