最代码官方的gravatar头像
最代码官方 2014-12-31 16:10:57

最代码网站的链接被垃圾广告链接恶意提交到百度收录后的经验和代码片段分享

今天在站长平台突然发现关键词多了很多诸如:学校,学院,办理,毕业证的不相关的关键词,估计是有seo蝗虫恶意提交了带有广告词的搜索地址给了百度,而百度也傻傻的收录了。

解决方法如下:

1.首先搜索关键词限制输入只能10个文字,超过的返回404

2.写脚本把所有这种url都收集为sitemap.xml提交到百度站长平台

最代码网站的链接被垃圾广告链接恶意提交到百度收录后的经验和代码片段分享

最代码网站的链接被垃圾广告链接恶意提交到百度收录后的经验和代码片段分享

希望能解决掉这个问题!

java脚本代码见附件

代码的思路很简单,请求地址得到链接,由于百度现在对结果链接做了加密,所以需要再次请求这个地址得到真实的地址,另外百度对客户端访问有频率限制,所以我让线程休眠3秒中。

代码写的相对啰嗦,而且java写脚本确实不如python来的快,大家可以改成为python语言的。

运行截图:

最代码网站的链接被垃圾广告链接恶意提交到百度收录后的经验和代码片段分享

缺少一个Web.java类:

class Web {
	private String home;
	private String name;

	public Web(String home, String name) {
		this.home = home;
		this.name = name;
	}

	public String getHome() {
		return home;
	}

	public void setHome(String home) {
		this.home = home;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	@Override
	public boolean equals(Object obj) {
		Web web = (Web) obj;
		return this.getHome().equals(web.getHome());
	}

	@Override
	public String toString() {
		return "home:" + home + ",name:" + name + "\n";
	}

}

打赏

文件名:去广告链接.java,文件大小:7.611K 下载
最代码最近下载分享源代码列表最近下载
阳15837183681  LV1 2021年4月6日
wei112233  LV15 2020年4月2日
luohaipeng  LV23 2019年12月4日
低调人  LV38 2019年8月2日
aihui523  LV34 2017年8月15日
lixl  LV5 2016年5月10日
ok-wap  LV19 2016年4月15日
56777815  LV9 2015年2月26日
叶洛花开  LV2 2015年1月14日
shengke  LV17 2015年1月11日
最代码最近浏览分享源代码列表最近浏览
Viridity  LV6 2022年5月28日
lvzhwwww 2022年5月22日
暂无贡献等级
master_guo  LV7 2022年2月28日
Lcovde  LV19 2021年12月22日
glqywy1  LV4 2021年10月25日
654651  LV4 2021年7月26日
啦啦啦7719  LV15 2021年4月27日
阳15837183681  LV1 2021年4月6日
喵小兵  LV10 2021年3月13日
桌子与灯  LV6 2021年2月26日
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友