乔向阳:项目驱动学Python编程,一箭双雕【据说不会Python的都不是好SEOer】

最近需要对聚合页面SEO做研究,为了对比分析需要记录各同行网站的关键词排名情况。

手工记录的话效率太低,样本数量也有限。

于是要把这部分工作自动化,因为自学过PHP编程,实现这个需求没问题。

但我打算使用Python,给自己一天的时间边学边写代码,用项目来驱动Python学习。

不是完全的零基础,去年看过廖雪峰的Python3教程

但“看过”与“用过”差距真是不小,这几天仅靠Google和Stackoverflow,居然解决了一个个坑,把任务完成了。

我把整个需求和代码贴出来,作为自己的总结,也希望给大家一些参考。

获取待监测的关键词

从爱站网可以查看某个网站特定目录的关键词和排名(支持PC和移动),流量统计当然可以获取更多关键词,但是无法获取关键词指数。

比如,查看我们网站PC“产品词”页面获得关键词排名,按指数由高到低排序。http://baidurank.aizhan.com/baidu/huangye88.com/product/0/1/exp/-1/…

想要导出这些词,需要爱站网账号,没有可以自己写程序抓取。

代码和注释如下:

采集百度搜索结果页

我们已经获得了一个包含几千关键词的文本文件:

下一步需要使用这些关键词把百度前几页的搜索结果拿到,当出现下面域名时,把对应的网址、标题、排名、关键词、日期写入Mysql数据库中。

http://huangye88.com’‘http://hc360.com’‘http://1688.com’‘http://china.cn’‘http://makepolo.com’‘http://b2b168.com’‘http://liebiao.com

上面域名对应B2B行业网站黄页88网、慧聪网、阿里巴巴、中国供应商、马可波罗网、八方资源网、列表网,你可以根据自己想监测的竞争对手网站调整。

代码如下:

数据库结构:

为了简化程序写法,而且搜索引擎更新没有那么频繁,所以每个URL每天只记录一条,把url和data联合做一个unique索引。

程序运行后的结果:

后续分析

有了数据,以后可以对这些关键词进行单独分析,监测各关键词搜索结果的排名变化情况,从而判断各个竞争对手网站的SEO效果,进一步分析页面做法。

导出了一天的数据,使用Excel做一些粗略分析:

至少对于这1200多个词说,各家网站的平均排名如下:

阿里巴巴是当之无愧的老大,SEO效果最好,甚至好的有些过分。

一页结果7个来自阿里巴巴,着陆页为各种聚合页面,不讲理的强!

据说阿里巴巴的聚合页面每个都有6~30个外链,外链来自于自己养的25万站群。(待考证)

各B2B网站SEO排名好的聚合页面

阿里巴巴

kq目录(229)

http://s.1688.com/kq/-BBAFD7B1C6B7B0C5B1C8CDDECDDE.html…

chanpin目录(178)

http://www.1688.com/chanpin/-B0ECB9ABD7C0D2CE.html…

topic目录(68)

http://www.1688.com/topic/jiamenglengyin.html…

jiage目录(46)

http://www.1688.com/jiage/-C4BECCC7.html…

market目录(33)

http://www.1688.com/market/-B8E2B5E3CAA6C5E0D1B5.html…

慧聪网

hots站内热搜词聚合(201)

http://www.hc360.com/hots-eoz/907362987.html…

cp目录(169)

http://www.hc360.com/cp/upanshexiangji01.html…

price目录(115)

http://www.hc360.com/price/caitiaobu.html…

pic目录(102)

http://www.hc360.com/pic/tieyihuajia.html…

列表网

cp目录(163)

http://www.liebiao.com/cp/dianshijieshouqiquantao/…

wenda目录(57)

http://www.liebiao.com/wenda/fukangzhichuangshouye/…

ABC聚合页(19)

http://www.liebiao.com/abcw0s4zu/

马可波罗网

MPP聚合目录(352)

http://china.makepolo.com/mpp_53/gefqbbm6938.html…

chanpin目录(161)

http://china.makepolo.com/chanpin/4egd17vleau.html…

cp价格聚合(54)

http://b2b.makepolo.com/cpinfo/jiage/ms2142276.html…

cp聚合页(43)

http://b2b.makepolo.com/cpinfo/ac3305336.html…

cp图片聚合(23)

http://b2b.makepolo.com/cpinfo/tupian/tg1805766.html…

pinpai聚合(15)

http://b2b.makepolo.com/pinpai/t60400.html…

中国供应商

search目录(90)

https://www.china.cn/search/BE16AB8FBDC5DBB0DF0CAD17DB00CBDBDF5AED.html…

subject目录(17)

https://www.china.cn/subject/xiaoxingjiguangqiegeji.html…

附录:各大B2B网站常规的聚合页做法简单介绍

1、收集整理大量长尾词。

来源可能如下:A:用户站内搜索词B:用户发布信息时填写的关键词、品牌词等C:百度搜索相关词、下拉词拓展D:采集竞争对手网站词库…

2、分析整理词库,设计着陆页

借助人工或搜索分析,把词归类,定制聚合页面。

使用关键词调用站内的信息和公司等资料,生成聚合页面。

注意:设计聚合页需要针对性的定制页面TDK规则、布局和模块规则,避免不同聚合页内容重复。

URL常见有三种做法:A、中文拼音 B、对关键词进行Dehex编码处理 C、数字ID

这三种方法各有利弊,阿里巴巴的URL方式可以对关键词方便的编码加工和反加工,不怕空格和特殊字符,这点比拼音有优势。

甚至我们还使用过中文URL,后来证明容易出各种抓取上的问题,不建议。

Dehex编码(问技术要的):

发表评论