互联网的功能之一:信息的存储和提取
互联网就像一个长着无数只吸管的巨兽,从各种渠道,通过不同的方法,不断的吸纳进来各种各样无数的信息,现在互联网成了一个史无前例的巨大的信息载体、数据仓库,而且这个数据仓库的特点是没有中心的,分布式的,也就是说没有一个统一的权威的数据编目和检索中心。另外这个数据仓库的信息质量也是没有控制和评价的,在信息爆炸的同时带来了大量信息垃圾也一样存储在这个仓库中。
现在面对这样的一个巨型混乱的数据库,我们的问题就产生了:互联网解决了信息存储问题,但如何解决信息的提取问题?或者说每个不同的人,如何能让这个信息仓库为我们提供,我们所想要的,准确、全面和高质量的信息服务?
这就像人的大脑,虽然记忆了很多的内容,但在需要时却无法快速有效的回忆起来?大量无用的垃圾信息的干扰,使得互联网得了健忘症和记忆错乱证,甚至是记忆丧失。
在互联网的早期雅虎用人工分类编目的方法为人们解决这个问题,雅虎成了互联网的老大,随后的自动化的搜索引擎技术开始出现,使得人们可以检索的信息范围更大了,但信息检索的质量并不尽人意。
Google的出现,使得信息检索的数量、质量得到了大的提升,它独有的信息评价算法,和几乎可以无限扩增的存储技术,使得他迅速窜升为互联网的新贵,然而,互联网的信息填充者们,为了各自的利益,不断钻营seo,戏弄Google的算法,Google疲于应付,其信息检索的质量也只能达到目前这个程度,依然不能尽如人意。而且即使没有作弊者,这种算法的精确度也是有上限的,毕竟每个人搜索同一个关键字,所期望得到的结果是不同的,如何做到个性化搜索,智能化搜索和得到精确的、高质量的搜索结果,这依然是摆在互联网大门口的一个重要问题或者说课题,可以毫不夸张的说谁能找到解决办法,谁就将成为下一个Google。
除了搜索引擎这种机器的自动化的信息提取模式,分布式的半人工辅助的信息提取模式也在不断涌现,Flickr的图片标签,为图片的检索获得了更好的精准性,del.icio.us的标签化网摘收藏,DIGG的人工信息挖掘等等;一方面他们在为人们提供某种方便的服务,一方面他们在利用用户为自己积累高质量的信息检索库,可谓是一箭双雕的美事。
你能让互联网这个大脑有更好的记性吗?你能让它更聪明吗?如果你能,你将是互联网最大的看门人,最受宠的信息管理员,当然你也会是下一个世界首富!




