网页不收录,都是邀请制惹的祸

前方高能——本篇文章是攻城狮们根据日常收到的case整理而来,亲自编写,希望站长亲们给个好评哦!

平台攻城狮近日接到了百度内部用户的反馈,说lvshi.baidu.com站点的收录情况比较差,希望协助追查原因。

攻城狮追查的过程如下:

首先通过site语法检索,发现收录量确实比较少[……]

Read more

关于反爬虫,看这一篇就够了

本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放


“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可第一时间获知微分享信息~

你被爬虫侵扰过么?当[……]

Read more

大型网站标签系统的构建

最近看了《web信息架构》后感觉标签确实重要,但里面提到的标签方法还比较窄,后来网上看到去年豆瓣的标签ppt,感觉比较系统,遂整理了一份思维导图出来。另外附ppt下载地址曾俊瑀-阿里技术沙龙

感觉标签难的是自然语言的处理,最大作用是“推荐”。最近拿到百度商情1.3亿条词,也做了几个聚类的实验—[……]

Read more

搜索引擎原理:倒排索引

1.概述

在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:

1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量
,面对如此海量数据 ,使得数据库系统很难有效的管理。

2)数据操[……]

Read more

受众定向-Cookie Mapping整理

惭愧之前只是读了几个adx的文档,一直对Cookie Mapping理解不到位,稍作整理,欢迎拍砖。 个人认为从问题出发,Cookies Mapping解决两个问题:1.媒体和平台(adx、dsp、dmp、ssp、adn)的身份映射问题,方便平台串联用户行为;2.平台(adx、dsp、dmp、ssp[……]

Read more

搜索引擎原理:网络爬虫

通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。

1. 网络爬虫本质就是浏览器http请求。

浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取[……]

Read more

互联网数据工作流

节假日最适合做的事,是从日常事务里跳出来,尝试做一些抽象思考,例如说,纷繁复杂的互联网数据工作,大体是怎样一个架构,通俗地说,也就是内部结构和具体工作分布。

作为类比,先看看已经被布道好多年的,相对成熟的互联网产品流程:

需求产生的环节在业务,比如财务、市场,包括内外部;

需求翻译[……]

Read more

百度第三代 Spider 背后的万亿量级实时数据处理系统

信息技术发展突飞猛进,网络数据呈现爆炸之势,线性扩展面临高昂成本。Spider系统是百度搜索引擎的主要数据来源,每天处理着数万亿次的链接分析和数百亿次的互联网资源采集。那么,第三代Spider是怎样“化繁就简”实现增量式流式处理的呢?本文整理自今年12月颜世光在全球架构师峰会2016北京站的演讲。回[……]

Read more