java爬虫-白红宇

java爬虫

阅读量：6572 次

发布时间：2019-06-24

本文共 2887 字，大约阅读时间需要 9 分钟。

一、依赖包

pom配置依赖包，主要有：

其中主要用到框架：

1. WebCollector

WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。

源码中集成了 Jsoup，可进行精准的网页解析，2.x 版本中集成了 selenium，可以处理 JavaScript 生成的数据。

教程：

源码地址：

2. Selenium-java

Selenium是一个用于Web应用程序测试的工具；

后台代码启动浏览器（这边用的是phantomjs ），访问页面等一些列操作。

Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。


             
                  
       
        org.springframework.boot
                   
       
        spring-boot-starter-batch
               
              
                  
       
        org.springframework.boot
                   
       
        spring-boot-starter-web
                   
                         
                              
         
          org.springframework.boot
                               
         
          spring-boot-starter-tomcat
                           
                      
               
              
                  
       
        org.springframework.boot
                   
       
        spring-boot-starter-jetty
                   
       
        provided
               
              
                  
       
        org.springframework.boot
                   
       
        spring-boot-devtools
                   
       
        runtime
               
              
                  
       
        org.springframework.boot
                   
       
        spring-boot-starter-test
                   
       
        test
               
              
                  
       
        org.springframework.batch
                   
       
        spring-batch-test
                   
       
        test
               
              
                  
       
        cn.edu.hfut.dmic.webcollector
                   
       
        WebCollector
                   
       
        2.71
                   
                       
                               
         
          org.slf4j
                             
         
          slf4j-log4j12
                         
                    
               
                      
                  
       
        org.seleniumhq.selenium
                   
       
        selenium-java
                   
       
        3.2.0
               
              
                  
       
        com.alibaba
                   
       
        fastjson
                   
       
        1.2.41
               
              
                  
       
        commons-lang
                   
       
        commons-lang
                   
       
        2.6

二、工具

用到了phantomjs ，是一个基于 WebKit 的“无头浏览器”环境。对“无头”，你可以理解成没有一个前端的 GUI 界面，所有的东西都在后台运行。一个纯后台的，完整功能的浏览器。

有windows版本，也有linux版本。自行下载即可。

好了，万事俱备，接下来只需要编写爬取逻辑就行啦。

转载于:https://www.cnblogs.com/qcxdoit/p/10368402.html

你可能感兴趣的文章