大道至简的gravatar头像
大道至简 2017-10-04 14:20:09

JAVA小说站点爬虫-spring-mybatis-jsoup-http-client

项目初衷:

国庆穷逼一个宅在家里没事看小说,可是wap端的小说站点简直太没节操了,那些广告真是实在是不堪忍受。所以想做一个没有任何广告的自己的小说站点(果然,做出的站点也够简单的!)。

然后就付诸实践了!

JAVA小说站点爬虫-spring-mybatis-jsoup-http-clientJAVA小说站点爬虫-spring-mybatis-jsoup-http-clientJAVA小说站点爬虫-spring-mybatis-jsoup-http-clientJAVA小说站点爬虫-spring-mybatis-jsoup-http-client

闲话少说,介绍一下如何运行这(几)个项目:
第一个项目:novel.spider(姑且叫他为spider吧)-jsoup,http-client
提供了三个最为底层的方法:
ChapterFactory.getChapterSpider(NovelSiteEnum novelSiteEnum).getChapters(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum, url))  获取一个爬取对应网站的章节的实体,并执行爬取任务
ContentFactory.getContentSpider(NovelSiteEnum novelSiteEnum).getContent(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum,url)) 获取一个爬取对应网站的内容的实体,并执行爬取任务
NovelDownloaderObserver observer = new NovelDownloaderObserver(url) 下载小说...

这三个都依赖于一个方法:NovelSpiderUtil.setRootPath(path) 该方法用来指定爬取规则的配置文件存放的路径,以及下载的小说存放在哪个文件夹下
该项目下有个测试类,可以参考一下使用方式:NovelSpiderTest.java

第二个项目:novel.book.storage(用来爬取某个网站的所有书列表)-mybatis
唯一的难点就是指定好配置文件,以及配置好数据库的连接信息。config目录下还有一个sql文件,该文件用来创建数据库和表,没有库爬到的数据没地方存呀。
这个项目很简单,总共2个类+1个接口,就不细说了!


第三个项目:novel (这是一个web站点)-spring,mybatis
稍微重要点的类是NovelController和NovelServiceImpl(写这个实现类的是才发现之前给自己挖的坑有多么的深,所以在spider项目里面多了一个抽象...)

稍微要注意的是,NovelServiceImpl中也调用了NovelSpiderUtil.setRootPath(path)方法来指定配置文件的位置。

JAVA小说站点爬虫-spring-mybatis-jsoup-http-client

数据库截图

JAVA小说站点爬虫-spring-mybatis-jsoup-http-client

这个是三个项目组合起来的,最代码好像只能上传一个,我整合在一起了,有问题可以问我。谢谢

util-0.0.1-SNAPSHOT.jar百度网盘下载地址:

地址1 https://pan.baidu.com/s/1i5f6SWt 密码:252o

地址2 https://pan.baidu.com/s/1bBtarW

github地址 https://github.com/ArvinZhangX/novel


打赏

已有4人打赏

cuijinchuan的gravatar头像 gvsfdvsrvr的gravatar头像 最代码客服的gravatar头像 最代码官方的gravatar头像

文件名:mynovel.rar,文件大小:107.841K 下载
  • /
    • /com.ifengxue.novel.book.storage.zip
    • /com.ifengxue.novel.spider.zip
    • /com.ifengxue.novel.zip
最代码最近下载分享源代码列表最近下载
wyx065747  LV67 2022年5月7日
a1a1a2a4  LV8 2022年2月17日
北。  LV6 2022年2月8日
dwadawd  LV7 2021年4月21日
87836185  LV2 2020年10月12日
飓廴之莨  LV11 2020年10月11日
han329574  LV8 2020年8月10日
777sssd  LV7 2020年7月10日
代码ping  LV4 2020年6月25日
huayan  LV9 2020年6月23日
最代码最近浏览分享源代码列表最近浏览
遗留问题  LV2 4月1日
luochenQAQ 3月16日
暂无贡献等级
1909741473  LV8 2月19日
zhangjilu  LV18 1月22日
768881787  LV7 1月10日
LITIANYU084414  LV11 2023年11月28日
caomin  LV4 2023年10月19日
Hachi6  LV13 2023年10月11日
a71291809  LV9 2023年7月20日
何清越 2023年7月20日
暂无贡献等级
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友