内容反爬虫终极方案：字体加密-搜搜看看

字体加密反爬也就是自定义字体反爬，通过调用自定义的ttf文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！

上图看真像：

源码截图：

页面中的效果：

如图上面图片所看到的，爬虫是无法采集到编码后的文字内容，这样就起到了防爬的效果

讲到这里，细心的人会问，为什么不把所有的内容都替换成编码呢？应该影响加载和渲染速度！

我们知道，单纯汉字就有好几千个，如果全部放到自定义字体库中的话，这个文件会有灰常大，几十兆是肯定有的了，那加载肯定很慢，更糟糕的是如此之多的字体需要浏览器去渲染，渲染也会非常慢。

为了解决这个问题，我们可以选择只渲染少量的、部分的文字，假设50个字，那么字体库就会小到几十K了，相当于一个小图片而已。

但破解思路也很简单，通过fonttools类工具将ttf文件转成ttx文件打开后，什么都明白了！

ttx代码：

看到了吗，ed12的编码就是“是”字的unicode编码，这样一来，爬虫只要把采集到""直接替换成“是”字就可以了，以此类推。

这可如何是好呢？

如果让“是”字的编码随机变化，但字体信息不变，浏览器渲染出来还是“是”字那不就完美了。

于是，每个网页加载的时候，都随机加载了一套字体库，字体库的内容还是50个字，但每个字的顺序编码都是变化的，爬虫也就无法用直接替换的方式进行采集了。

但还有可能被破解：还是跟ttx有关，虽然我们打乱了关键字的编码顺序，但是每个字对应的字体信息是不变的，例如，“是”字一共有9划，每一笔划都有相应的x、y坐标信息，浏览器正是根据这些笔划信息渲染出对应的字的，看图：

爬虫先手动下载了一个ttf文件，然后根据ttf文件中的文字图形位置再爬虫代码中做一个映射，然后使用程序动态获取到采集的每一篇文章，使用fonttools类工具来循环对比本地之前下载的标本中的字体信息，对比一直，那就是某一个字，如此一来，反爬就轻松被破了。

再次升级：

既然爬虫对比字体信息，那我就把字型的信息给你随机了，让字变形，这样你就无法对比了，欧耶。看下变形后的图片：

变形后的字体，即便是下载了当前文章的字库，也需要手动去做字体和字的映射，那么多文章呢，手工匹配，显然是不可能的了。事实上，我们准备了几千套的字体，用于应对爬虫的采集，每次刷新文章，字体库就会更换，每篇文章的字体库都不一样，但是替换的文字都是一样的，这样以来，爬虫采集的难度就越来越高了。

还有更为高端的反爬思路：

大概：基于微软雅黑字库信息，抽取其中的关键字的字体信息，然后随机生成上千套字库，同时做好字与编码和字库文件的mapping关系，持久化到数据库，然后文章显示时随机从库中查询出一套字库，并把文章中的关键字替换成Unicode编码！

反爬本来就是不归路，没有终点，有反爬就有反反爬；

除了这种技术性的对抗，我们还可以采用WAF进行防爬虫，比如ShareWAF就有很好的防爬虫能力。

最后，我想说的是：最好的方案，就是让爬虫采集的成本不断增加，直到放弃，那么反爬也就算那是成功了。

本文来自投稿，不代表本人立场，如若转载，请注明出处：http://www.sosokankan.com/article/1794839.html

内容反爬虫终极方案：字体加密