<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>

<channel>
	<title>风中飞行 &#187; 互联网功能</title>
	<atom:link href="http://blog.moligu.com/category/%e4%ba%92%e8%81%94%e7%bd%91%e5%8a%9f%e8%83%bd/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.moligu.com</link>
	<description>在网络里一起吹吹风</description>
	<pubDate>Sat, 26 Jul 2008 11:44:11 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.5.1</generator>
	<language>en</language>
			<item>
		<title>互联网的功能之一：信息的存储和提取</title>
		<link>http://blog.moligu.com/38</link>
		<comments>http://blog.moligu.com/38#comments</comments>
		<pubDate>Thu, 15 Nov 2007 02:42:17 +0000</pubDate>
		<dc:creator>风中飞行</dc:creator>
		
		<category><![CDATA[互联网功能]]></category>

		<guid isPermaLink="false">http://blog.moligu.com/38</guid>
		<description><![CDATA[互联网就像一个长着无数只吸管的巨兽，从各种渠道，通过不同的方法，不断的吸纳进来各种各样无数的信息，现在互联网成了一个史无前例的巨大的信息载体、数据仓库，而且这个数据仓库的特点是没有中心的，分布式的，也就是说没有一个统一的权威的数据编目和检索中心。另外这个数据仓库的信息质量也是没有控制和评价的，在信息爆炸的同时带来了大量信息垃圾也一样存储在这个仓库中。
现在面对这样的一个巨型混乱的数据库，我们的问题就产生了：互联网解决了信息存储问题，但如何解决信息的提取问题？或者说每个不同的人，如何能让这个信息仓库为我们提供，我们所想要的，准确、全面和高质量的信息服务？
这就像人的大脑，虽然记忆了很多的内容，但在需要时却无法快速有效的回忆起来？大量无用的垃圾信息的干扰，使得互联网得了健忘症和记忆错乱证，甚至是记忆丧失。
在互联网的早期雅虎用人工分类编目的方法为人们解决这个问题，雅虎成了互联网的老大，随后的自动化的搜索引擎技术开始出现，使得人们可以检索的信息范围更大了，但信息检索的质量并不尽人意。
Google的出现，使得信息检索的数量、质量得到了大的提升，它独有的信息评价算法，和几乎可以无限扩增的存储技术，使得他迅速窜升为互联网的新贵，然而，互联网的信息填充者们，为了各自的利益，不断钻营seo，戏弄Google的算法，Google疲于应付，其信息检索的质量也只能达到目前这个程度，依然不能尽如人意。而且即使没有作弊者，这种算法的精确度也是有上限的，毕竟每个人搜索同一个关键字，所期望得到的结果是不同的，如何做到个性化搜索，智能化搜索和得到精确的、高质量的搜索结果，这依然是摆在互联网大门口的一个重要问题或者说课题，可以毫不夸张的说谁能找到解决办法，谁就将成为下一个Google。
除了搜索引擎这种机器的自动化的信息提取模式，分布式的半人工辅助的信息提取模式也在不断涌现，Flickr的图片标签，为图片的检索获得了更好的精准性，del.icio.us的标签化网摘收藏，DIGG的人工信息挖掘等等；一方面他们在为人们提供某种方便的服务，一方面他们在利用用户为自己积累高质量的信息检索库，可谓是一箭双雕的美事。
你能让互联网这个大脑有更好的记性吗？你能让它更聪明吗？如果你能，你将是互联网最大的看门人，最受宠的信息管理员，当然你也会是下一个世界首富！
]]></description>
			<content:encoded><![CDATA[<p>互联网就像一个长着无数只吸管的巨兽，从各种渠道，通过不同的方法，不断的吸纳进来各种各样无数的信息，现在互联网成了一个史无前例的巨大的信息载体、数据仓库，而且这个数据仓库的特点是没有中心的，分布式的，也就是说没有一个统一的权威的数据编目和检索中心。另外这个数据仓库的信息质量也是没有控制和评价的，在信息爆炸的同时带来了大量信息垃圾也一样存储在这个仓库中。</p>
<p>现在面对这样的一个巨型混乱的数据库，我们的问题就产生了：互联网解决了信息存储问题，但如何解决信息的提取问题？或者说每个不同的人，如何能让这个信息仓库为我们提供，我们所想要的，准确、全面和高质量的信息服务？</p>
<p>这就像人的大脑，虽然记忆了很多的内容，但在需要时却无法快速有效的回忆起来？大量无用的垃圾信息的干扰，使得互联网得了健忘症和记忆错乱证，甚至是记忆丧失。</p>
<p>在互联网的早期雅虎用人工分类编目的方法为人们解决这个问题，雅虎成了互联网的老大，随后的自动化的搜索引擎技术开始出现，使得人们可以检索的信息范围更大了，但信息检索的质量并不尽人意。</p>
<p>Google的出现，使得信息检索的数量、质量得到了大的提升，它独有的信息评价算法，和几乎可以无限扩增的存储技术，使得他迅速窜升为互联网的新贵，然而，互联网的信息填充者们，为了各自的利益，不断钻营seo，戏弄Google的算法，Google疲于应付，其信息检索的质量也只能达到目前这个程度，依然不能尽如人意。而且即使没有作弊者，这种算法的精确度也是有上限的，毕竟每个人搜索同一个关键字，所期望得到的结果是不同的，如何做到个性化搜索，智能化搜索和得到精确的、高质量的搜索结果，这依然是摆在互联网大门口的一个重要问题或者说课题，可以毫不夸张的说谁能找到解决办法，谁就将成为下一个Google。</p>
<p>除了搜索引擎这种机器的自动化的信息提取模式，分布式的半人工辅助的信息提取模式也在不断涌现，Flickr的图片标签，为图片的检索获得了更好的精准性，del.icio.us的标签化网摘收藏，DIGG的人工信息挖掘等等；一方面他们在为人们提供某种方便的服务，一方面他们在利用用户为自己积累高质量的信息检索库，可谓是一箭双雕的美事。</p>
<p>你能让互联网这个大脑有更好的记性吗？你能让它更聪明吗？如果你能，你将是互联网最大的看门人，最受宠的信息管理员，当然你也会是下一个世界首富！</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.moligu.com/38/feed</wfw:commentRss>
		</item>
	</channel>
</rss>
