SEO流量贩子：如何处理采集内容（一）

更新时间：2018-10-06 分类：推广技巧浏览量：1455

号外

这么久才开通留言功能，好丢人，这篇是本渣渣图新鲜试试留言功能用的，没有干货

采集内容对SEO是否有效？

有人说采集内容对搜索引擎友好性不高，不容易获得排名，这个是肯定且必然的。

对大多站点，上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是，现在搜索引擎能获取到的原创内容量已经不如之前多了，毕竟内容生产平台已经转移了，早就不集中在网站上了。另外几个搜索引擎之间还相互抓，何况小站点呢。

所以采集内容依旧是有效的，只不过对采集内容后加工的成本越来越高了。

采集内容的后加工

担心采集内容效果差，或者容易被K，主要还是看怎么对内容后加工。打个比方：

好比从沃尔玛拿了一筐猕猴桃，原封不动的放到家乐福，顶多还只能是原来的售价，因为猕猴桃还是猕猴桃，商品不变。但把猕猴桃榨成汁（形态变化），加点水分瓶装（粒度变化），再放到711里卖（平台变化），售价可以翻几倍（价值增益）

为啥？

因为形态变了，果汁是不同于水果的商品，且果汁更容易吸收

因为平台变了，711定价本身就比沃尔玛家乐福要高一点

因为粒度变了，一生二二生三三生万物

前三者的变化，导致价值的翻倍

如果把“采集内容”比作“猕猴桃”，则对“采集内容”的后加工策略如下：

形态

组织内容方式无穷多，无论对同一个内容掰开了揉碎了分发到多处、还是多篇相关内容聚合到一处、还是其他方式，都可以让搜索引擎更容易接受。

平台

术业有专攻，从新浪抓一些垂直行业内容放到对应行业的垂直网站，肯定比放到新浪更合适。把专业化的内容放到专业的网站。

粒度

同样是抓取的内容，粒度越细，在搜索引擎中的原创度越高。举个极端的例子，星座股票起名八卦算命生辰八字风水算命qq图片动态图….此类型的站，哪个内容不是重复的？

增益

采集的目的在于补全内容上的漏洞，使同主题的内容比别人更加丰富饱满充实，则产生了页面内容价值上的增益。

采集内容完整流程

关于“采集内容处理”，从抓取到上线整个流程看，要搞定以下问题：

采集内容从哪来？

采集内容怎么抓？

采集内容如何处理？

采集内容从哪来？

对于正经做站且做正经站的，定向采集、买专业数据更合适。

定向采集，只抓几个特定网站的特定范围，与本站内容漏洞高度相关的。

对于不正经做站的，可选择的范围就多很多了，沾点边的内容都可以抓，讲究量大，所以不需要限定某几个站的抓取，有人叫泛采集

设置几个主题，直接抓各种大平台的搜索结果便可。大平台指什么？海量内容集中的地方：各类搜索引擎、各类门户、今日头条、微信微博、优酷土豆等等

采集内容怎么抓？

定向采集：

略，平常怎么抓就怎么抓。

泛采集：

定向爬虫受限于网页模板，在此基础上加上几个内容分析算法来提取内容，改成通用爬虫。

好多浏览器插件，如印象笔记之类的，有好多类似“只看正文”的功能，点一下只显示当前浏览网页的正文信息，很多人已经把此类算法移植到python、php、java等编程语言上，搜索下便是。

采集内容如何处理？

两个先后过程：

对原始内容的处理

对处理后内容进行组织

对原始内容的处理

百度专利说过，搜索引擎除了根据正文判断内容相似性，也会根据html的dom节点的位置和顺序来判断，如果两个网页正文的html的结构相似，也可能当做重复内容来处理。

所以，采集的内容不能直接拿来就上，要对源码清洗一下。每个人方式各异，个人一般做如下处理：

html清洗

保留主要标签：p、img

删除标签中不重要的属性

 
a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip() 
 b = re.sub(r'<p[^>]*?>','<p>',a) 
 newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

删除中文字数 < 100字的


text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，:：。？、~@#￥%……&*（）“”《》]+".decode("utf8"), "".decode("utf8"),newcontent) 
 text2 = re.sub('<[^>]*?>','',text) 
 words_number = len(text2)

去除垃圾信息

如“XXX网小编：XXX”、邮箱网址等。。。

对处理后内容进行组织

其实就行形态上的变化，之前专门写过一篇关于“组织内容”的几种方式，见：如何倒腾网站内容？

微信公众号：流量贩子

功能介绍：探讨SEO、黑帽、黑色产业、互联网流量引入、流量转化与变现的观点、想法及技巧。坚信移动互联网时代，掌握流量的玩法，不用依托公司及城市背景实现财务自由，打工不再是养家糊口的惟一手段。

SEO流量贩子：如何处理采集内容（一）

标签：SEO

栏目

热门阅读

热门标签

SEO流量贩子：如何处理采集内容（一）

采集内容对SEO是否有效？

采集内容的后加工

采集内容完整流程

采集内容从哪来？

采集内容怎么抓？

定向采集：

泛采集：

采集内容如何处理？

对原始内容的处理

对处理后内容进行组织

相关文章

栏目

热门阅读

热门标签

SEO流量贩子：如何处理采集内容（一）

采集内容对SEO是否有效？

采集内容的后加工

采集内容完整流程

采集内容从哪来？

采集内容怎么抓？

定向采集：

泛采集：

采集内容如何处理？

对原始内容的处理

对处理后内容进行组织

相关文章

相关推荐