最代码广告位
骑着猪猪去逛街的gravatar头像
骑着猪猪去逛街2013-11-25 15:11:43

【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

如果要使用注解方式实现,也是支持的。

@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog {

    @ExtractBy("//title")
    private String title;

    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
    private String content;

    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
    private List<String> tags;

    public static void main(String[] args) {
        OOSpider.create(
            Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"),
            new ConsolePageModelPipeline(), OschinaBlog.class).run();
    }
}


最代码官方编辑于2013-12-31 22:08:41


打赏

文件名:WebMagic.rar,文件大小:6063.709K下载
  • /
      • /WebMagic
        • /WebMagic/.classpath
        • /WebMagic/.mymetadata
        • /WebMagic/.project
          • /WebMagic/.settings
            • /WebMagic/.settings/.jsdtscope
            • /WebMagic/.settings/org.eclipse.jdt.core.prefs
            • /WebMagic/.settings/org.eclipse.wst.common.component
            • /WebMagic/.settings/org.eclipse.wst.common.project.facet.core.xml
            • /WebMagic/.settings/org.eclipse.wst.jsdt.ui.superType.container
            • /WebMagic/.settings/org.eclipse.wst.jsdt.ui.superType.name
          • /WebMagic/WebRoot
            • /WebMagic/WebRoot/index.jsp
顶部客服微信二维码底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友