百度第三代 Spider 背后的万亿量级实时数据处理系统

信息技术发展突飞猛进,网络数据呈现爆炸之势,线性扩展面临高昂成本。Spider系统是百度搜索引擎的主要数据来源,每天处理着数万亿次的链接分析和数百亿次的互联网资源采集。那么,第三代Spider是怎样“化繁就简”实现增量式流式处理的呢?本文整理自今年12月颜世光在全球架构师峰会2016北京站的演讲。回[……]

Read more