大型网站标签系统的构建

最近看了《web信息架构》后感觉标签确实重要,但里面提到的标签方法还比较窄,后来网上看到去年豆瓣的标签ppt,感觉比较系统,遂整理了一份思维导图出来。另外附ppt下载地址曾俊瑀-阿里技术沙龙

感觉标签难的是自然语言的处理,最大作用是“推荐”。最近拿到百度商情1.3亿条词,也做了几个聚类的实验——其实就是word2vec,接下来要运用到实际的应用中了,想在UC社区实验下,难度很大,毕竟社区的内容比较“散”,不过正是因为比较散用word2vec可以对症下药,先拿内容处理下,看看出来的tag的结果是否准确。

发表评论