liangxinye
2016-01-09 14:35:36
apache solr中SimplePostTool工具(2)
当-Ddata=web(即指定网络资源)时,url地址必须可以被爬虫访问,否则会得到403 Forbidden(即禁止访问),如下示例:
F:\solr-5.4.0\example\exampledocs>java -Ddata=web -Dc=gettingstarted -jar post.jar http://www.baidu.com
-Dtype=<content-type> (default=application/xml),该参数指定-Ddata的内容类型,默认是application/xml(或text/xml,即xml),当-Ddata参数指定的资源类型和-Dtype不符时,SimplePostTool工具会进入自动模式而将-Ddata数据转换成相应的内容类型[a1] (以文件后缀作为相应的内容类型,支持的内容类型有:xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log),上传的结果可以在如下地址中查看到:
http://localhost:8983/solr/gettingstarted/browse
如:
java -Ddata=web -Dc=gettingstarted -jar post.jar http://www.sina.com.cn/
(上传csv文件是必须指定-Dtype=text/csv)
评论
最近浏览
weienqing LV17
2017年11月15日
809204304@qq.com LV13
2016年3月30日
sky_chou
2016年1月20日
暂无贡献等级
1574359445 LV8
2016年1月18日
菩提树下的椰子 LV17
2016年1月15日
StevenXu LV13
2016年1月14日
javens LV9
2016年1月11日
shengke LV17
2016年1月11日
liangxinye LV3
2016年1月11日
最代码官方 LV167
2016年1月11日