浅谈lynx在SEO中应用

对于lynx的介绍,大家可以自行查阅相关资料。我是安装在cygwin上运行的,如何安装cygwin,大家可以参考我一个好友的帖子http://www.seoqx.com/post/203,这个是基础安装,cygwin安装好之后,可以自己下载lynx安装。然后输入命令 lynx “http://www.baidu.com”就会进入lynx文本浏览器的界面。如图:

以上是lynx安装的简单介绍,下面结合我如何用lynx发现和指导SEO工作的,先分享第一个命令 lynx -dump ‘http://url’ 这个命令可以看到我们网站页面的全部文本和URL信息,这个也是模拟搜索爬虫抓取网站的一个文本信息,但不一定就是爬虫抓取的真实情况。参考性是远远大于市面上的一些模拟爬虫的网站!改图没有显示完,后面会有详细的URL。由于篇幅考虑没有截取全图!如图
通过以上的操作,发现了一个重要的信息就是hidden links ,这里几个链接是爬虫的重要入口。后来和技术沟通为了实现某些功能,不小心把这几个链接加入了一下其他模块中。该项改动之后,整体抓取量有所提成。lynx hidden links如图

继续介绍第二命令 lynx -dump -head ‘http://url’ 这个是命令是查看header信息的。此命令为什么重要?我想看过搜索引擎书籍的人都会知道,蜘蛛抓取一个网页时,通过解析ip到URL后,首先会看header信息,其中有项值Last-modified:,这个反应了你网页的最后更新日期。这个也可以可结合浏览器抓包看到。我通过这个命令是发现一个内容编码的问题 Content-Language: en-us,然后自己又通过百度抓取测试和这个结果一样,同时又写了一下Python脚本测试结果也一样。

第三个命令式 lynx -dump -crawl ‘htrp://url’ 来提取这个页面的所有文本信息,然后用自己的喜欢的脚本结合词典进行分词,用tf-idf计算出网页的相关性。这些只是一个参考。对于相关性的计算模块还有很多。但这些可以让你对自己网页有个总体的了解。
最后补上 lynx -dump -crawl ‘http://url’ >> name.txt or name.csv 。然后就是自己写分词和提取了。关于lynx和一些shell命令结合,还可以作很多SEO的需求。感兴趣的朋友可以在网上找找相关资料。好吧!已经过了零时了,也该休息了。最后要提醒的是:尽是一家之言!

发表评论