路西法-zkj
2015-03-16 12:13:34
java网络爬虫jsoup和commons-httpclient使用入门教程实例源码
第一种方式:需要导入jsoup.jar包
1、给定一个url获得相对应的text文本
Document doc doc = Jsoup.connect("链接地址").get();
2、通过select条件过滤符合的元素
Elements elements = doc.select("table[class=page_con]").select("tr");
3、通过for循环获得想要的值
for (int i = 0; i < elements.size()-1; i++) { //通过正则可以获取想要的内容 elements.get(i).getElementsMatchingOwnText(pattern).text(); //获得符合元素之间的文本 elements1.get(i).text(); //获得符合元素之间的超链接 elements1.get(i).getElementsByTag("a").attr("href"); }
第二种方式:commons-httpclient-3.0.1.jar、htmllexer.jar
//相当于打开游览器 HttpClient httpClient = new HttpClient(); GetMethod getMethod = new GetMethod("链接地址"); //请求时长五秒 getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000); getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler()); try { getMethod.addRequestHeader("Content-Type", "text/html; charset=UTF-8"); // execute HTTP GET request int statusCode = httpClient.executeMethod(getMethod); //判断状态,不是200,作相关处理 if (statusCode != HttpStatus.SC_OK) { } //字节数组 byte[] responseBody = getMethod.getResponseBody(); //转化为字符串及编码 String content = new String(responseBody, "UTF-8"); //内容作相关操作获取想要的元素及值 可以使用正则表达式 } finally { // 釋放 getMethod.releaseConnection(); }
猜你喜欢
- Java网络爬虫(蜘蛛)源码
- java简单自定义图片爬虫实例
- java网络编程实现udp数据发送与接收的简单实例
- 【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
- 一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出
- java Ping域名网络工具类PingUtils.java源代码分享
- 如何通过抓包工具fiddler获取java程序的http请求
- 基于Java AWT语言的一款精致写字板(功能齐全)
- java使用jsoup实现网页抓取---案例智联招聘求职信息抓取
- JAVA递归算法demo实例
- java递归的小例子
- java bean PropertyDescriptor类的使用
请下载代码后再发表评论
相关代码
最近下载
最近浏览
java小书童 LV18
2024年1月29日
雨中纸鹤 LV1
2023年12月6日
tyyeng LV18
2023年10月10日
12cq345 LV6
2022年11月15日
sunlea LV20
2022年9月8日
212600 LV7
2022年9月6日
寒江雪2017 LV10
2022年7月14日
Jack261108 LV2
2022年5月6日
夜上清元 LV8
2022年5月4日
ranting520
2022年4月26日
暂无贡献等级