百度“阿拉丁计划"剑指暗网
要想了解阿拉丁计划,首先就要了解什么是“暗网”,因为这个计划是宣称要照亮“暗网”,完全改变搜索体验的。
百度所谓的暗网到底是什么呢?
暗网(hidden web)这个概念对于大众很新鲜,但是这是搜索圈里的老话题了。早在2003年就有美国人C·谢尔曼写成了一本学术专著专门讨论这一问题,只不过通常把它翻译成“看不见”的网站,这本著作已经被译成中文——《“看不见”的网站:Internet专业信息检索指南》,成为信息检索专业的必读书目。
1、未链接的网页
问题:网络蜘蛛找不到该网页的链接。
2、主要由图像、音频、视频组成的网页
问题:不能让搜索引擎理解网页内容的文本。
3、主要有PDF、Flash、Shockwave、Executables(程序)或压缩文件(zip\tar\等)组成的网页。
问题:技术上能索引,但主要由于商业或政策原因经常被忽略。
4、关系数据库的内容
问题:蜘蛛不能以交互作用的形式 填满所需信息栏。
5、实时内容
问题:数据稍纵即逝,数据庞大,信息变化频繁。
6、动态生成内容
定制的内容与大多数检索者不相关。
作者:赵宜君
原载:西安SEO
链接:http://www.029cyw.com/post/448.html
版权所有,转载请以链接形式注明作者及原始出处


