老虎美食博客

和老虎一起美食一下吧!

[置顶] 老虎SEO助手 0.6

[置顶] 老虎友情链接检查器 0.4

[置顶] 老虎Sitemap生成器 0.5.3

[置顶] 老虎网站更新器0.1

用C#2.0实现网络蜘蛛(WebSpider)

摘要:本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址(如http://www.comprg.com.cn)来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。
关键词:C#2.0,Html,网络蜘蛛, 键树,正则表达式

一、引言

    在最近几年,以Google为首的搜索引擎越来越引起人们的关注。由于在Google出现之前,很多提供搜索服务的公司都是使用人工从网络上搜集信息,并将这些信息分类汇总后作为搜索引擎的数据源。如yahoo公司一开始就是通过数千人不停地从网上搜集供查询的信息。这样做虽然信息的分类会很人性化,也比较准确,但是随着互联网信息爆炸式地增长,通过人工的方式来搜集信息已经不可能满足网民对信息的需求了。然而,这一切随着Google的出现而得到了彻底改变。Google一反常规的做法,通过程序7*24地从网上不停地获取网络资源,然后通过一些智能算法分析这些被下载到本地的网络资源,最后将这些分析后的数据进行索引后就形成了一套完整的基本上不需要人工干预的搜索引擎。使用这种模式的搜索引擎甚至可以在几天之内就可获取Internet中的所有信息,同时也节省了大量的资金和时间成本。而这种搜索引擎最重要的组成部分之一就是为搜索引擎提供数据源的网络蜘蛛。也就是说,实现网络蜘蛛是实现搜索引擎的第一步,也是最重要的一步。
...

老虎Blog进行中

这段时间都在开发一个多用户的BLOG系统,按照搜狐BLOG等大站的样式去写.先说这么多吧.

基于asp.net 2.0 + MS SQL

老虎Sitemap生成器 0.5.2

点击此处下载Sitemap生成器0.5.2此软件需要安装.net framework 2.0本软件可以分析您的网站并生成sitemap。您可以将生成的sitemap上传到您的网站,并通知搜索引擎(例如google)。通过设置sitemap文件可以提高您的网站对搜索引擎的亲和力,让搜索引擎更快、更全面地收录与刷新您的网站,提高您的网站在搜索引擎里的收录数量。同时本软件还可以帮您检查您网站中存在的死链、断链,监视网站连接状况。更多信息请关注软件更新网站:http://www.linglihu.com...

老虎Sitemap生成器 0.5.1

点击此处下载Sitemap生成器0.5.1此软件需要安装.net framework 2.0本软件可以分析您的网站并生成sitemap。您可以将生成的sitemap上传到您的网站,并通知搜索引擎(例如google)。通过设置sitemap文件可以提高您的网站对搜索引擎的亲和力,让搜索引擎更快、更全面地收录与刷新您的网站,提高您的网站在搜索引擎里的收录数量。同时本软件还可以帮您检查您网站中存在的死链、断链,监视网站连接状况。更多信息请关注软件更新网站:http://www.linglihu.com...

position:relative 与 position:absolute

position 有三个值,static(静态)、relative(相对)、absolute(绝对);由于static是所有页面元素的默认值,因此设置元素的定位类型时几乎不用这个值,除非用于覆盖之前的定义。对于后两者,一般应用:在一个相对定位的元素里面放置一个绝对定位的元素,如图: 子元素B可以通过top、right、bottom、left来精确定位,定位的参考目标就是其具有相对定位属性的父级元素A;并且设置这些偏移后,产生的空隙会被后面的元素填充(如果后面的元素足够尺寸的话)。由于B...

Last Day of Month


http://javascript.about.com/library/bllday.htmThere are various times when you are doing date manipulations and validations where you need to know how many days that there are in a specific month. There are also a variety of different ways that you c...

准确获取指定元素 CSS 属性值

当处理 DOM 元素的 CSS 属性时,我们经常会遇到一个问题:明明页面上已经定义了 CSS 属性值,但在获取的时候却为空,这是因为任何样式表文件或内联 CSS 预设的样式信息并不能可靠地反映到 style 属性上,本文向你介绍准确获取指定元素 CSS 属性值的方法。 --------------------------------------------------...

JavaScript 获得页面区域大小的代码

getPageSize函数返回一个数组,前两个是整个页面的宽度和高度,后两个是页面窗口的宽度和高度function getPageSize() ...{    var xScroll, yScroll;    if (window.innerHeight && window.scrollMaxY)   ...

prototype.js 中的 bind() 函數

prototype.js 中的 bind() 函數 看到一篇描述有關 closure 概念的有趣文章:Using Closures To Support Object-Oriented AJAX作者舉出一個在使用 AJAX時我們常犯的錯誤,並且解釋為什麼這個程式碼有問題: function User(username, password, div) {this.username = username;this.password = password;this.div = div;thi...

prototype.js 中的 bind() 函數

prototype.js 中的 bind() 函數 看到一篇描述有關 closure 概念的有趣文章:Using Closures To Support Object-Oriented AJAX作者舉出一個在使用 AJAX時我們常犯的錯誤,並且解釋為什麼這個程式碼有問題: function User(username, password, div) {this.username = username;this.password = password;this.div = div;thi...
分页:[«]1[2][3][4][5][6][7][8][9][10][11][12][13][14][»]

Powered By Z-Blog 1.8 Devo Build 80201

Copyright 2007 老虎美食博客. Some Rights Reserved.