Garfields的gravatar头像
Garfields2015-11-18 15:15:49

一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出

一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出

不用开发,直接使用。

支持伪造头,伪造Cookie等

可以导出文件

可以使用div 页面元素就能爬取内容

导入Eclipse直接用

[+]com.pga.*

    [-]crawler.*      //爬虫处理方法

    [-]Mycrawler.*    //爬虫的调用接口

    [-]utils.*        //爬虫工具类

     

[+]crawler类

 [-]内部方法,无法直接使用

  

[+]Mycrawler类

    [-]Crawler_text 爬虫测试类  JSOUP

       [-] Crawler(String path,String gz)  //Path为URL列表  gz为规则

            [*]Path:TxT文本存放路径:每行一个URL

            [*]Gz:  Jsoup规则,以键值对存储。 格式:k,v #code# k,v

                    例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]

            [*]DESC:此类为测试类,不具备保存输出功能!

                    

    [-]Crawler_funtion_run类 JSOUP

        [-] Crawler(String path,String gz) 

            [*]比第一个Crawler_text.Crawler 多了自动添加SESSION功能.

             

    [-]Crawler_counterfeit_run类 JSOUP

        [-] Crawler(String path,String gz,String heads, String input)

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。 格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt

         

        [-]Crawler_save(String path,String gz,String heads, String input,String dominput)

            [*]DESC:伪造参数爬虫 生成爬取内容文件 和 生成元数据文件

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。 格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt

            [*]dominput: 网站源码全部保存起来,并在网页头中写入网站源爬取地址。 请指定生成目录,指定前,需要新创建目录,爬虫将在目录中以时间为单位,自动进行生成。

             

    [-]Crawler_Regular_run类  非JSOUP

        [-]GetEmail(String urls,String Ecode)

        [-]GetEmail_Save(String urls,String path,String Ecode)

            [*]DESC:获取指定页面的邮箱地址(测试是否能抓取)

            [*]urls:URL地址

            [*]Ecode:指定编码

            [*]Path:输出文件  如:D:\un.txt  必须加后缀

         

        [-]Crawler(String path,String regular,String Ecode)

            [*]DESC:爬取多个网站 并提取内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码

         

        [-]Crawler_Save(String path,String regular,String input,String Ecode)

            [*]DESC:爬取多个网站 并提取内容 保存内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码

            [*]Input:输出文件路径 如:D:\\data.txt

         

        [-]GETDOM(String importfile,String Ecode,String path)

            [*]DESC:下载源数据

            [*]importfile: URL列表文件  d:\\listurl.txt

            [*]Ecode:编码

            [*]path:指定目录  如:D://爬虫文件//

         

[+]utils类

    [-]Crawler_utils_createfile 文件创建工具

        [-]makeTxt(String FilePath, String node)

            [*]FilePath:文件输出(D://data.txt)

            [*]Node:写入或者追加写入的内容

         

    [-]Crawler_utils_DateUtils 生成时间字符串

        [-]GetYYYYMMDD()

        [-]GetYYYYMMDDHHMMSS()

        [-]GetHHMMSS

        [-]GetDiy(String time_formate) 自定义时间格式 "HHMMSS"

         

    [-]Crawler_utils_determine URL相关判断

        [-]Url(String address) 判断是否为URL  返回值:boolean

        [-]isIn(String substring, String[] source) 判断字符串是否在数组中  返回值:boolean

        [-]Numbuter(String Numbuter) 判断是否为数字 返回值:boolean

@author puguoan  www.puguoan.cn  qq344892053


打赏

文件名:JARText.zip,文件大小:1737.463K下载
顶部客服微信二维码底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友