博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
java爬虫
阅读量:6572 次
发布时间:2019-06-24

本文共 2887 字,大约阅读时间需要 9 分钟。

一、依赖包

pom配置依赖包,主要有:

其中主要用到框架:

1. WebCollector

WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。

源码中集成了 Jsoup,可进行精准的网页解析,2.x 版本中集成了 selenium,可以处理 JavaScript 生成的数据。

教程:

源码地址:

2. Selenium-java

Selenium是一个用于Web应用程序测试的工具; 

后台代码启动浏览器(这边用的是phantomjs ),访问页面等一些列操作。 

Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。

org.springframework.boot
spring-boot-starter-batch
org.springframework.boot
spring-boot-starter-web
org.springframework.boot
spring-boot-starter-tomcat
org.springframework.boot
spring-boot-starter-jetty
provided
org.springframework.boot
spring-boot-devtools
runtime
org.springframework.boot
spring-boot-starter-test
test
org.springframework.batch
spring-batch-test
test
cn.edu.hfut.dmic.webcollector
WebCollector
2.71
org.slf4j
slf4j-log4j12
org.seleniumhq.selenium
selenium-java
3.2.0
com.alibaba
fastjson
1.2.41
commons-lang
commons-lang
2.6

二、工具

用到了phantomjs ,是一个基于 WebKit 的“无头浏览器”环境。对“无头”,你可以理解成没有一个前端的 GUI 界面,所有的东西都在后台运行。一个纯后台的,完整功能的浏览器。

有windows版本,也有linux版本。自行下载即可。

好了,万事俱备,接下来只需要编写爬取逻辑就行啦。

转载于:https://www.cnblogs.com/qcxdoit/p/10368402.html

你可能感兴趣的文章
React Native 0.20官方入门教程
查看>>
JSON for Modern C++ 3.6.0 发布
查看>>
Tomcat9.0部署iot.war(环境mysql8.0,centos7.2)
查看>>
Powershell进阶学习(6) 部署 Windows PowerShell Web 访问
查看>>
以身试法MTU
查看>>
基于CentOS7.3构建企业级Vsftpd文件服务器
查看>>
使用ApexSQL Log 分析数据库在线日志及数据库备份
查看>>
技术分享连载(八十六)
查看>>
清除vlan.dat文件
查看>>
Android 面试常问七道题
查看>>
TestNG介绍 - 1
查看>>
当前用户更改运行方式出现错误的解决办法
查看>>
visual studio 11开发Win8模板
查看>>
Linux下VsFTP和ProFTP用户管理高级技巧 之一
查看>>
Xamarin 技术全解析
查看>>
mySQL用户和权限管理v1
查看>>
烂泥:CentOS6.5光盘以及ISO镜像文件的使用
查看>>
awk入门-保护SSHD
查看>>
可视化就是简单化,可视化就是易用化
查看>>
Spring(三)之自动装配、表达式
查看>>