SEOSEO
Google遗漏了什么Google遗漏了什么Google遗漏了什么Google遗漏了什么

Google遗漏了什么


Google遗漏了什么




摘自:沙之书{译者:郑晓云} 

许多人以为Google索引了互联网上的一切。不过,Google或许是我们所拥有的最好的搜索引擎,但是,Google所索引的互联网上的资源远比我们想象的要少得很多。根据Google首页面提供的数据,目前,它索引了3,083,324,652个页面,而据估计,实际上在互联网上有达100亿只夺得页面存在。我们不仅要问, 那些被Google省却的页面都是什么呢?


现在,我们遇到了一个难以提出的问题。如果我们想真实的知道Google到底遗漏了些什么,那我们必须要有一个比Google公司的能力更为强大的索引能力。在我们的此项研究中,作为理解Google索引了什么和遗漏了什么的开端,我们选取了"googlology"这样一个词来追踪, 'Goolology'是Webmaster World在2002年10月第十二期第一次提出来的,续而作为一个词在Microdoc News的前身站点Google Village上被使用,到2003年5月10日,通过Google的查询,该词意共出现在655个页面。然后,我们开始在互联网上到处搜索所有包含有"googlology"的页面,作为我们首次探究Google究竟遗漏了那些的实例,我们发现,"googlology"这个词在当前实际所出现的页面数目要比Google列出的要多。


Google从它的数据库中的总共655个页面中列出了624个页面的索引。我们抓取了那些链接的screen-scraped,把它们放入我们的文本数据库中。我们的研究人员设置了WebWolf?,让这个桌面“爬虫”在互联网上工作了两个星期来猎取那些包含有"googlology"的页面。 我们将网络上多达220,000个链接的Blogging新闻标题作为出发点;我们的爬虫从那里开始,跟随着一个又一个链接,直到它能在互联网上寻遍"googlology"这个词。


在两个礼拜的搜索之后,我们找到了2,199个页面包含"googlology"这个词。这也就意味着Google只索引了所有包含有"googlology"这个词的页面的29%。我们发现,另外的1,544包含有"googlology"的页面在Google的数据库中不存在。我们不尽要问,那些抡有被Google索引的页面都是哪些?它们都来自那种类型的站点?


Microdoc News使用了一个mapping工具来分析我们在搜索中创建的数据库。所有包含有"googlology" (2,199个)的页面用最外圈的犗黑线椭圆被标绘在我们的映射图上。这个大的椭圆里面的整个区域代表那些包含有"googlology"的所有页面。我们对这些页面按照下面的七类进行归类:




Blog页面

教育类页面

主流媒体站点的页面

新闻,信息和目录页面

Junk

Other database by Google

Other not-databased by Google




结果显示在下面这种映射图中。它为我们提供了一个包含有"googlology",但抡有被Google索引的页面的可视化图景。图中红艊区域标绘了哪些包含有"googlology",并且所有被Google索引的624个页面。


正如你所看到的,大约有一半左右包含有"googlology"的blog页面被Google索引,包含有"googlology"的教肊类站点页面中,约有37%被Google索引,类似的,主流媒体站点类页面中,29%被索引,News, Information and Directories类页面中大概是45%,junk站点类中,例如Geocities和其他类似的站点,约有8%被索引。


那些被Google数据库所遗漏的页面,看来多是那些用到该术语比较早的页面,例如2002年12月以前,在那里我们发现多达153个包含有该词的教肊类站点页面(它们引用到Webmaster World对该术语的使用),它们没有被Google索引。同样,也有许多在2月到3月之间的blog页面(它们引用到Google Village站点)和许多Microdoc News页面抡有被Google索引。我们还发现在在CNet?、ZDNet?和类似BBC、Siemens和其他媒体类站点的包含有该词的页面没有被列在Google中。


根据这些以及我们对数据的进一步分析,要是我们真的把对"googlology"这个词的分析的结果应用到所有的其他词去,那么,我们能得到这样一些试验性的结论:







Google并不索引互联网上的每一个页面;

Google倾向于抛下(或不索引)那些到现在三到六个月以前或更早的页面;

Google倾向于包含blogs、educational以及news and information类站点最新页面(在三个月内创建的页面)中的98%;

Google一般会索引主流媒体站点在最近三个月内创建的页面中的80%;

Google通常会忽略那些信息量很少的某些类型的站点的页面;


在网络上有2,199张包含有"googlology"的页面,Google仅仅列出了624张,而Google声称有655张。Google通常抛下较老的页面,它看上去是选择性的,比如"googlology",3个月、6个月或者更早以前的页面中,仍然有一张或更多的页面被索引,而同时,同期的包含其他该词的其他页面被抛下了。

虽然我们没有非常正规的对该词作研究,但是似乎是在所给的三个月的时期内,第一次包含有"googlology"的页面被Google长期的获留,而同时期的其他包含有"googlology"的页面被逐站的抛下。因此结果是,我们能在Webmaster World找到使用"googlology"的页面,特别是它第一次使用的页面,但是并不能发现在接下来的10、11、12月中所有的包含"googlology"的页面。我们能找到Google Village和Microdoc News中包含"googlology"的页面,但并不是所有的情况,在一月到三月这段时间,在Google数据库中,我们站点自己的页面仅出现一次,其他的全部都抡被数据库收进。


用什么描绘来比拟Google搜索引擎是什么样的呢?我们想Google像是一束巨大的搜索的光芒,很像地球上看到的太阳的光亮。它的光指向它所作用到的地方,and what else is going on, 例如象互联网上的多数静态部分,Google索引抛下引用到它们那里的引用。静态的意思是,那些页面抡有被更新,或者作任何的变动,也许是没有被个人搜索到。出现在Google的数据库中的,并不意味着它总是在那里。似乎是Google数据库频繁的将一些页面刨除。Google所索引的30亿或更多的页面看上去是互联网上最为重要的30亿个页面。Google所抛下的,是那些抡有被更新或者常被用到的页面,就像我那些六个月以前的老文章。




Google遗漏了什么
 
  • Google遗漏了什么2004/02/07
  • 综述:2003年的中国网络营销2004/02/07
  • 如何在GOOGLE上投放广告2004/02/07
  • 百度排名2004/02/07
  • Alexa 世界网站排名研究(下)2004/02/07
  • Alexa 世界网站排名研究(上)2004/02/07
  • Google:涉嫌商标侵权?2004/02/07
  • 警惕《揭穿Google关键词广告服务的暴利内幕! 》的更大骗局!2004/02/07
  • Google广告服务暴利内幕!2004/02/07
  • Alexa数据在中国被“强奸”2004/02/07
  • 马云:明年初进入搜索市场2004/02/06
  • 综述:大鱼Google面对问题2004/02/06
  • 评论:《黑客帝国3》之Google2004/02/06
  • 链接流行度(Link Popularity)2004/02/06
  • 几款搜索引擎优化检测工具2004/02/06
  • 别把GOOGLE太当真2004/02/06
  • 搜索引擎市场酝酿大并购2004/02/06
  • Google的技术剖析2004/02/06
  • Google的原罪--网页序列等级2004/02/06
  • 国外英文目录索引---Yahoo2004/02/06
  • 国外英文目录索引----[ODP/Dmoz]2004/02/06
  • 国外英文目录索引---ASK Jeeves2004/02/06
  • 国外英文目录索引---LookSmart2004/02/06
  • 国外英文目录索引---ABOUT2004/02/06
  • 国外搜索引擎介绍---Alltheweb2004/02/06
  • 国外搜索引擎介绍---AltaVista2004/02/06
  • 国外搜索引擎介绍----Overture2004/02/06
  • 国外搜索引擎介绍---Lycos2004/02/06
  • 国外搜索引擎介绍---HotBot2004/02/06
  • 国内目录索引--sohu搜狐2004/02/06
  • 国内目录索引 ---sina新浪2004/02/06
  • 国内目录索引-----163网易2004/02/06
  • 国内搜索引擎介绍---百度2004/02/06
  • 收费环境下的搜索引擎推广策略2004/02/06
  • 谁敢夸口跟google比?2004/02/06
  • 网络推广的效果评估标准2004/02/06
  • IBM统一人工智能学术2004/02/06
  • 雅虎收购Overture意味着什么?2004/02/06
  • 关于SEO写作中五个最常问的问题2004/02/06
  • 中文搜索引擎的十大误区2004/02/06
  • 微软看好网络搜索服务市场2004/02/06
  • 影响网站排名的一些问题2004/02/06
  • 如何使用关键字才算适当呢?2004/02/06
  • 创建有意义的链接人气度(链接数)2004/02/06
  • 桥页之道2004/02/06
  • Robots Meta Tag的使用2004/02/06
  • Robots.txt指南2004/02/06
  • 搜索引擎和网站的目录结构2004/02/06
  • 如何选择合适的域名2004/02/06
  • 拥有自己的域名的重要性2004/02/06
  • 关于搜索引擎提交的问题2004/02/06
  • 如何建立网站地图(site map)2004/02/06
  • 框架型网页的优化技巧2004/02/06
  • 怎样避免被搜索引擎视为作弊2004/02/06
  • 为网站的Web Robot 设计路标2004/02/06
  • HTML文档中小meta的大作用2004/02/06
  • 实战中文搜索引擎推广2004/02/06
  • 搜索引擎排名算法新趋势2004/02/06
  • 动态网站的搜索引擎策略2004/02/06
  • 从三个方面提高网站的链接广泛度2004/02/06
  • 搜索引擎的十大秘密2004/02/06
  • 如何在搜寻结果名中名列前茅2004/02/06
  • 搜索引擎与spam2004/02/06
  • robots.txt和Robots META标签2004/02/06
  • 用户搜索常见问题及解决方法小结2004/02/06
  • 恋上百度2004/02/06
  • 简谈搜索引擎工作流程2004/02/06
  • 什么是搜索引擎2004/02/06
  • 高级搜索指南2004/02/06
  • 搜索引擎控制关系2004/02/06
  • Google中site:的使用方法总结2004/02/06
  • 学习搜索的网站2004/02/06
  • 网络搜索引擎与智能代理技术2004/02/06
  • 全文检索2004/02/06
  • 从中国人网看搜索引擎的ASP服务2004/02/06
  • 自动分词与中文搜索引擎2004/02/06
  • 搜索引擎的技术发展趋势2004/02/06
  • 目前搜索引擎提供的主要检索服务2004/02/06
  • Google快速锁定内容技巧一瞥2004/02/06
  • 创建Google关键词广告的12高招2004/02/06
  • 对Google更新过程的最终解释2004/02/06
  • Googleplex-Google情结2004/02/06
  • 浅谈Google网页级别2004/02/06
  • 深度分析:Google毁了Web?2004/02/06
  • google中文关键词广告效果测试2004/02/06
  • 搜索引擎使用技巧2004/02/06
  • 搜索引擎跟踪2004/02/06
  • 搜索引擎技术及趋势2004/02/06
  • 如何提高网站的Google PR值2004/02/06
  • 了解Google Dance工具2004/02/06
  • 感动一广告 2004/02/06

  • SEO | Google排名 | Google左侧排名 | 网站设计 | 网站优化 | 网站建设 | 网页设计 | 网页制作 | 排名策略 | 网站排名
    国际Google排名 | Google优化排名 | Google推广 | 网站推广 | 网页推广 | Google排名研究 | Google搜索引擎排名 | 推广服务
    搜索引擎推广 | 搜索引擎排名 | 网络营销 | 中国SEO | 网页优化 | 国际网站推广 | Google排名推广
    搜索引擎注册 | Google广告 | 网站宣传 | 网络宣传 | 网络营销


    ©2004 66t.net 路路通营销网 Our Site Map
    2004/02/07