2008年1月7日

Google将可直接识别图片及视频里的文字


由. Ken Wong 将文章归档于 G事八卦

Googlebot
  Google搜索引擎之所以会成功,除了PageRank算法能更好地对网页进行排名外,还得益于Google强大的基层结构,能有效地分析及收录互联网上的内容。我们都知道Google派出的爬虫Googlebot会不断地访问互联网上的网页,然后将其中的内容进行分析及收录。 但一直以来这种机械式的爬虫最大的缺点便是它们对文本以外的内容比如图片及视频等基本无能为力,只能通过分析图片或视频附近的文字来猜测其内容。但互联网 的发展趋势已是多媒体内容的比重日益增大,因此如果无法很好地解决图片、视频等内容的分析及收录,搜索引擎本质上还只是文字搜索工具而已。但现在看起来情 况或许有改变。

  根据TechCrunch引述信息周刊的报道,Google在去年7月获得了一项专利, 而专利的主要内容正是一种使爬虫能读懂图片及视频里的文本内容的方法。这即意味着Googlebot在将来可以像人类一样看得懂图片及视频的文字内容。这 将会是搜索引擎史上的一大突破,因为文本、图片及视频是互联网内容里的主要元素,而Google有能力将它们更好地收录,这或将会改变互联网的面貌。

  这种技术几乎可用于改进Google所有的搜索产品,特别是图片搜索、YouTube、图书搜索等等。试想一下输入"很黄很暴力"后,马上可找到所有包含该短语的YouTube视频及图片,那将会是怎样一种强大的搜索功能(嗯,我们不期望会在中国能用这种强大到令某些人害怕的搜索技术)。 当然,它也并非万能的,因为并不是所有图片及视频里都包含有文字,但这至少会是搜索引擎进化过程中极其重要的一步。并且别忘了这种技术不仅可使用户获得更 优秀的搜索体验,Google的广告也将会有更广阔的发展空间。因为光是一个YouTube,如果爬虫能读懂视频内容,Google就已经可大赚特赚了。

  诚然在当前阶段,谈论这种技术的具体发布日期还太早了,但我们至少可以对互联网抱有一些期望和憧憬。

没有评论: