第二百二十四章:You(1 / 1)
“从此以后我们又多了一项在全世界吸血的工具了,盛田昭夫刚刚亲自打电话来向我们通报了此事,明天将是我们的l的语法和格式,对读取的页面进行代码过滤,收入相关的文字内容。爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
可以说yout已经具备了后世搜索引擎的一些特征了,虽然还比较毛糙,在切词计算词之间距离的方面做得还不是那么完善,但是作为世界上第一个诞生的网页搜索器,yout仍然具备光辉的前景。没能将这一项目握在自己手上的张国栋还有些遗憾,不过旋即又开心起来,毕竟这第一的荣誉好歹也是中国人自己的了,于是张国栋马上自己炮制了一份pagerank算法的论文寄给了英国自然杂志。
历史上pagerank(网页级别),取自google的创始人larrypage。它是google排名运算法则(排名公式)的一部分,是google用于用来标识网页地等级重要性的一种方法。是google用来衡量一个网站的好坏的唯一标准。在揉合了诸如title标识和keywords标识等所有其它因素之后,google通过pagerank来调整结果,使那些更具“等级重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。
级别从1到10级,10级为满分。pr值越高说明该网页越受欢迎(越重要)。例如:一个pr值为1的网站表明这个网站不太具有流行度,而pr值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般pr值达到4,就算是一个不错的网站了。google把自己地网站的pr值定到10,这说明google这个网站说这个网站非常重要。
pagerank是google算法的重要内容。2001年9月被授予美国专利,专利人是googl创始人之一拉里?佩奇(larrypage)。因此,pagerank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名地。而现在张国栋毫不怀疑自己的这篇论文能够引起学术界的关注。毕竟作为hits并举的链接分析算法,在hits还没有出现之前能够有效的对网页做出基本公平地排名还是非常重要的。这两年随着互联网地兴起已经有越来越多的专家学者将自己的注意力转移到这上面来了。
反正自己叫它pagerank别人也只会以为是页面排序的意思。本来龙腾也可以做一个搜索引擎的,毕竟以龙腾在软件方面的实力和权威性,做出来地搜索引擎可能比yout更加先进,但是张国栋却并不准备让龙腾在每一个产业上都有所突出。毕竟太过于庞大的公司可能在西方有些事情不方便做。目前地yout还只能够搜索英文,也就是只开发了英文版本。其它语言都还没有做,但是这毕竟是一个公司由小到大的过程,不能什么事情都替人家做了,那样就没什么不知道是鉴于张国栋地威名还是怎么的,毕竟现在张国栋随着zip格式和cd-i两项压缩标准已经成为了世界上唯一一个不是phd地压缩权威,所以对于他的文章自然杂志自然非常重视。很快就给予了刊登,而且还加上了重点推荐。pagerank算法已经发表。马上引起了学术界方面的讨论。张国栋也趁此机会为pageran申请了专利,虽然还没有批下来。不过申请的是国际专利,不怕别人再搞鬼。
有了pagerank算法在手。张国栋让龚定雨去和赵维均谈判,也不知道杨柳这个丫头哪里得知的消息,反正对于张国栋看好的生意她都要插上一脚,结果就变成了两股资金对同一个公司注资的事情。最后龙腾以技术加资金入股占了49%的股份,杨家用资金入股占了30%的股份,赵维均这个公司的创始人占了21%的股份,他也比较满意了,毕竟以公司目前3000万的投资来看,他白捡600多万,还有什么不满意的呢。
就在yout成立之后的第三天,加拿大的三位同学就发表了archie,很险,差一点世界第一个搜索引擎的称呼就被拿走,张国栋也是暗乎侥幸,当然,archie肯定没有yout的生ftp基本上都要密码,搜索的内容比较狭隘。虽然龙腾不会进入通用搜索引擎,但是垂直搜索张国栋还是不愿意放过,毕竟再怎么说yout也不可能占领整个世界的市场。所以随着张国栋一声令下,整个龙腾的软件组又动了起来。(未完待续,如欲知后事如何,请登陆。。,章节更多,支持作者,支持正