屏蔽内容农场

背景

买了个迷你电脑.配的硬件是锐龙5900HX,相当厉害,
可以主板看起来是个杂牌.BIOS界面与笔记本没有什么区别.
主板上有许多看不懂的配置项目,全是缩写.比如 AMD CBS, AMD PBS.
虽然最终找到了一些手册.
但搜索结果中发现有 极其大量 的类似 xx知识网, xx百科网 的垃圾内容.
有些内容似乎已经被举报到关闭,搜索结果的条目还在,但点击后显示404等错误.
一时间很是感慨,即便是谷歌也难逃下场.

后来在知乎上看到了应对的方法.使用 uBlacklist 插件,搭配众人拾柴更新的黑名单.来解决问题.

介绍

内容农场.
借用爬虫等方式,将其他网站的内容放在自己域名下.
从而达到为自己的网站带来大量的流量或其他利益的目的.

举报

google

https://developers.google.com/search/docs/advanced/guidelines/report-spam?hl=zh-cn

bing

似乎不好使.

uBlacklist

介绍

在该插件中能够使用一些方法定义规则集.

  1. 手写正则
  2. 订阅规则文件(还能检测文件更新)
  3. 通过按钮快速标记网站

达到剔除搜索结果中垃圾入口的功能

同时该插件对多个搜索引擎的结果都做了适配(入口处添加标黑按钮)

  1. google
  2. bing
  3. DuckDuckGo
  4. Ecosia
  5. Startpage.com

就是不知道为什么不叫 uBlockList,或许是国人写的,不需要管美国的政治正确.

简单配置

懒汉版可以在配置中直接写

1
2
3
4
title/^小.(百科|知识|分享|商务|资料|健康)网$/
title/^.*[ ]-[ ]小.(百科|知识|分享|商务|资料|健康)网$/
title/^.*小.(百科|知识|分享|商务|资料|健康)网$/
title/^.*(百科|知识|分享|商务|资料|健康)网$/

订阅规则则可以依靠众人的力量

1
2
3
4
5
6
https://raw.githubusercontent.com/cobaltdisco/Google-Chinese-Results-Blocklist/master/uBlacklist_match_patterns.txt
https://raw.githubusercontent.com/Paxxs/Google-Blocklist/develop/uBlacklist_subscription.txt
https://raw.githubusercontent.com/dallaslu/penzai-list/main/uBlacklist.txt
https://raw.githubusercontent.com/cobaltdisco/Google-Chinese-Results-Blocklist/master/uBlacklist_subscription.txt
https://raw.githubusercontent.com/ligyxy/Blocklist/master/BLOCKLIST_uBlacklist
https://raw.githubusercontent.com/eallion/uBlacklist-subscription-compilation/main/uBlacklist.txt

使用效果

因搜索的内容而异,像BIOS配置这种全是简称的,效果最为突出,90%都有可能拦截.
因此需要调整每一页的搜索结果的数量.

参考

  1. bios说明书之一
  2. bios说明书之二
  3. 对于内容农场的防治(知乎)