久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

瀏覽:169日期:2022-05-30 15:04:06

本文實(shí)例講述了Java爬取豆瓣電影數(shù)據(jù)的方法。分享給大家供大家參考,具體如下:

所用到的技術(shù)有Jsoup,HttpClient。

Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

HttpClient

HTTP 協(xié)議可能是現(xiàn)在 Internet 上使用得最多、最重要的協(xié)議了,越來越多的 Java 應(yīng)用程序需要直接通過 HTTP 協(xié)議來訪問網(wǎng)絡(luò)資源。雖然在 JDK 的 java net包中已經(jīng)提供了訪問 HTTP 協(xié)議的基本功能,但是對(duì)于大部分應(yīng)用程序來說,JDK 庫(kù)本身提供的功能還不夠豐富和靈活。HttpClient 是 Apache Jakarta Common 下的子項(xiàng)目,用來提供高效的、最新的、功能豐富的支持 HTTP 協(xié)議的客戶端編程工具包,并且它支持 HTTP 協(xié)議最新的版本和建議。

爬取豆瓣電影數(shù)據(jù)

豆瓣電影網(wǎng)址。

https://movie.douban.com/explore#!type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

打開瀏覽器f12,地址欄中輸入該地址訪問,可以看到請(qǐng)求響應(yīng)的頁(yè)面,對(duì)應(yīng)可以找到電影數(shù)據(jù)的請(qǐng)求地址,數(shù)據(jù)請(qǐng)求地址

https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

可以看到數(shù)據(jù)請(qǐng)求地址響應(yīng)過來的是一個(gè)JSON格式的數(shù)據(jù),之后我們看到請(qǐng)求地址上的參數(shù)type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0。其中type是電影tag是標(biāo)簽,sort是按照熱門進(jìn)行排序的,page_limit是每頁(yè)20條數(shù)據(jù),page_start是從第幾條數(shù)據(jù)開始查詢(下標(biāo)從0開始)。但是這不是我們想要的,我們需要去找豆瓣電影數(shù)據(jù)的總?cè)肟诘刂肥窍旅孢@個(gè)

https://movie.douban.com/j/search_subjects

創(chuàng)建SpringBoot項(xiàng)目爬取數(shù)據(jù)

把爬取到的數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,電影圖片保存在本地磁盤中,這里持久層用的是JPA,所以需要引入對(duì)應(yīng)的依賴。pom.xml中依賴代碼如下。

<?xml version='1.0' encoding='UTF-8'?><project xmlns='http://maven.apache.org/POM/4.0.0' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd'> <modelVersion>4.0.0</modelVersion> <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.2.1.RELEASE</version> <relativePath/> <!-- lookup parent from repository --> </parent> <groupId>com.mcy</groupId> <artifactId>crawler-douban</artifactId> <version>0.0.1-SNAPSHOT</version> <name>crawler-douban</name> <description>Demo project for Spring Boot</description> <properties> <java.version>1.8</java.version> </properties> <dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <scope>runtime</scope> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> <exclusions><exclusion> <groupId>org.junit.vintage</groupId> <artifactId>junit-vintage-engine</artifactId></exclusion> </exclusions> </dependency> <!--httpclient--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <!--jsoup,解析HTML--> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.47</version> </dependency> </dependencies> <build> <plugins> <plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId> </plugin> </plugins> </build> </project>

項(xiàng)目目錄結(jié)構(gòu)如下。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

首先我們?cè)趀ntity包中建立實(shí)體對(duì)象,字段為豆瓣電影的基本信息(有些信息是詳情頁(yè)面的信息)。

Movie實(shí)體類。

import javax.persistence.*; @Entitypublic class Movie { private Integer id; private double rate; //評(píng)分 private String title; //電影名稱 private String director; //導(dǎo)演 private String protagonist; //主演 private String dateTime; //電影時(shí)長(zhǎng) @Id @GeneratedValue(strategy = GenerationType.IDENTITY) public Integer getId() { return id; } public void setId(Integer id) { this.id = id; } public double getRate() { return rate; } public void setRate(double rate) { this.rate = rate; } public String getTitle() { return title; } public void setTitle(String title) { this.title = title; } public String getDirector() { return director; } public void setDirector(String director) { this.director = director; } @Column(length=2000) public String getProtagonist() { return protagonist; } public void setProtagonist(String protagonist) { this.protagonist = protagonist; } public String getDateTime() { return dateTime; } public void setDateTime(String dateTime) { this.dateTime = dateTime; }}

在src/main/resources下找到application.properties文件,在該配置文件中配置數(shù)據(jù)庫(kù)鏈接信息,需要在數(shù)據(jù)庫(kù)中新建一個(gè)名為douban的數(shù)據(jù)庫(kù)。

spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8spring.datasource.username=rootspring.datasource.password=rootspring.datasource.driver-class-name=com.mysql.cj.jdbc.Driverspring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialectspring.jpa.show-sql=truespring.jpa.hibernate.ddl-auto=updatespring.jpa.hibernate.use-new-id-generator-mappings=false

創(chuàng)建MovieRepository數(shù)據(jù)訪問層接口

import com.mcy.crawlerdouban.entity.Movie;import org.springframework.data.jpa.repository.JpaRepository; public interface MovieRepository extends JpaRepository<Movie, Integer> { }

創(chuàng)建MovieService類,里邊有一個(gè)保存數(shù)據(jù)的方法。

import com.mcy.crawlerdouban.entity.Movie;import com.mcy.crawlerdouban.repository.MovieRepository;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.stereotype.Service; @Servicepublic class MovieService { @Autowired private MovieRepository movieRepository; public void save(Movie movie) { movieRepository.save(movie); }}

創(chuàng)建一個(gè)HttpUtils獲取網(wǎng)頁(yè)數(shù)據(jù)和保存圖片的工具類。

創(chuàng)建連接池和配置連接池信息。

//創(chuàng)建連接池管理器private static PoolingHttpClientConnectionManager cm; public HttpUtils(){ cm = new PoolingHttpClientConnectionManager(); //設(shè)置最大連接數(shù) cm.setMaxTotal(100); //設(shè)置每個(gè)主機(jī)的最大連接數(shù) cm.setDefaultMaxPerRoute(10);} //配置請(qǐng)求信息private static RequestConfig getConfig() { RequestConfig config = RequestConfig.custom() .setConnectTimeout(10000) //創(chuàng)建連接的最長(zhǎng)時(shí)間,單位毫秒 .setConnectionRequestTimeout(10000) //設(shè)置獲取鏈接的最長(zhǎng)時(shí)間,單位毫秒 .setSocketTimeout(10000) //設(shè)置數(shù)據(jù)傳輸?shù)淖铋L(zhǎng)時(shí)間,單位毫秒 .build(); return config;}

根據(jù)請(qǐng)求地址獲取響應(yīng)信息方法,獲取成功后返回響應(yīng)信息。

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException { //創(chuàng)建HTTPClient對(duì)象 CloseableHttpClient httpClient = HttpClients.createDefault(); //設(shè)置請(qǐng)求地址 //創(chuàng)建URLBuilder URIBuilder uriBuilder = new URIBuilder(url); //設(shè)置參數(shù) if(!map.isEmpty()){ for(String key : map.keySet()){ uriBuilder.setParameter(key, map.get(key)); } } //創(chuàng)建HTTPGet對(duì)象,設(shè)置url訪問地址 //uriBuilder.build()得到請(qǐng)求地址 HttpGet httpGet = new HttpGet(uriBuilder.build()); //設(shè)置請(qǐng)求頭信息 if(!mapTile.isEmpty()){ for(String key : mapTile.keySet()){ httpGet.addHeader(key, mapTile.get(key)); } } //設(shè)置請(qǐng)求信息 httpGet.setConfig(getConfig()); System.out.println('發(fā)起請(qǐng)求的信息:'+httpGet); //使用HTTPClient發(fā)起請(qǐng)求,獲取response CloseableHttpResponse response = null; try { response = httpClient.execute(httpGet); //解析響應(yīng) if(response.getStatusLine().getStatusCode() == 200){ //判斷響應(yīng)體Entity是否不為空,如果不為空就可以使用EntityUtils if(response.getEntity() != null) {String content = EntityUtils.toString(response.getEntity(), 'utf8');return content; } } }catch (IOException e){ e.printStackTrace(); }finally { //關(guān)閉response try { response.close(); } catch (IOException e) { e.printStackTrace(); } } return '';}

根據(jù)鏈接下載圖片保存到本地方法。

public static String doGetImage(String url) throws IOException { //獲取HTTPClient對(duì)象 CloseableHttpClient httpClient = HttpClients.createDefault(); //設(shè)置HTTPGet請(qǐng)求對(duì)象,設(shè)置url地址 HttpGet httpGet = new HttpGet(url); //設(shè)置請(qǐng)求信息 httpGet.setConfig(getConfig()); //使用HTTPClient發(fā)起請(qǐng)求,獲取響應(yīng) CloseableHttpResponse response = null; try { //使用HTTPClient發(fā)起請(qǐng)求,獲取響應(yīng) response = httpClient.execute(httpGet); //解析響應(yīng),返回結(jié)果 if(response.getStatusLine().getStatusCode() == 200){ //判斷響應(yīng)體Entity是否不為空 if(response.getEntity() != null) {//下載圖片//獲取圖片的后綴String extName = url.substring(url.lastIndexOf('.'));//創(chuàng)建圖片名,重命名圖片String picName = UUID.randomUUID().toString() + extName;//下載圖片//聲明OutputStreamOutputStream outputStream = new FileOutputStream(new File('E://imges/' + picName));response.getEntity().writeTo(outputStream);//返回圖片名稱return picName; } } } catch (IOException e) { e.printStackTrace(); }finally { //關(guān)閉response if(response != null){ try {response.close(); } catch (IOException e) {e.printStackTrace(); } } } return '';}

HttpUtils工具類全部代碼。

import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStream;import java.net.URISyntaxException;import java.util.Map;import java.util.UUID;import org.apache.http.client.config.RequestConfig;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import org.apache.http.client.utils.URIBuilder;import org.apache.http.impl.client.CloseableHttpClient;import org.apache.http.impl.client.HttpClients;import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;import org.apache.http.util.EntityUtils; public class HttpUtils { //創(chuàng)建連接池管理器 private static PoolingHttpClientConnectionManager cm; public HttpUtils(){ cm = new PoolingHttpClientConnectionManager(); //設(shè)置最大連接數(shù) cm.setMaxTotal(100); //設(shè)置每個(gè)主機(jī)的最大連接數(shù) cm.setDefaultMaxPerRoute(10); } //配置請(qǐng)求信息 private static RequestConfig getConfig() { RequestConfig config = RequestConfig.custom().setConnectTimeout(10000) //創(chuàng)建連接的最長(zhǎng)時(shí)間,單位毫秒.setConnectionRequestTimeout(10000) //設(shè)置獲取鏈接的最長(zhǎng)時(shí)間,單位毫秒.setSocketTimeout(10000) //設(shè)置數(shù)據(jù)傳輸?shù)淖铋L(zhǎng)時(shí)間,單位毫秒.build(); return config; } /** * 根據(jù)請(qǐng)求地址下載頁(yè)面數(shù)據(jù) * @param url 請(qǐng)求路徑 * @param map 請(qǐng)求參數(shù) * @param mapTile 請(qǐng)求頭 * @return //頁(yè)面數(shù)據(jù) * @throws URISyntaxException */ public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException { //創(chuàng)建HTTPClient對(duì)象 CloseableHttpClient httpClient = HttpClients.createDefault(); //設(shè)置請(qǐng)求地址 //創(chuàng)建URLBuilder URIBuilder uriBuilder = new URIBuilder(url); //設(shè)置參數(shù) if(!map.isEmpty()){ for(String key : map.keySet()){uriBuilder.setParameter(key, map.get(key)); } } //創(chuàng)建HTTPGet對(duì)象,設(shè)置url訪問地址 //uriBuilder.build()得到請(qǐng)求地址 HttpGet httpGet = new HttpGet(uriBuilder.build()); //設(shè)置請(qǐng)求頭信息 if(!mapTile.isEmpty()){ for(String key : mapTile.keySet()){httpGet.addHeader(key, mapTile.get(key)); } } //設(shè)置請(qǐng)求信息 httpGet.setConfig(getConfig()); System.out.println('發(fā)起請(qǐng)求的信息:'+httpGet); //使用HTTPClient發(fā)起請(qǐng)求,獲取response CloseableHttpResponse response = null; try { response = httpClient.execute(httpGet); //解析響應(yīng) if(response.getStatusLine().getStatusCode() == 200){//判斷響應(yīng)體Entity是否不為空,如果不為空就可以使用EntityUtilsif(response.getEntity() != null) { String content = EntityUtils.toString(response.getEntity(), 'utf8'); return content;} } }catch (IOException e){ e.printStackTrace(); }finally { //關(guān)閉response try {response.close(); } catch (IOException e) {e.printStackTrace(); } } return ''; } /** * 下載圖片 * @param url * @return 圖片名稱 */ public static String doGetImage(String url) throws IOException { //獲取HTTPClient對(duì)象 CloseableHttpClient httpClient = HttpClients.createDefault(); //設(shè)置HTTPGet請(qǐng)求對(duì)象,設(shè)置url地址 HttpGet httpGet = new HttpGet(url); //設(shè)置請(qǐng)求信息 httpGet.setConfig(getConfig()); //使用HTTPClient發(fā)起請(qǐng)求,獲取響應(yīng) CloseableHttpResponse response = null; try { //使用HTTPClient發(fā)起請(qǐng)求,獲取響應(yīng) response = httpClient.execute(httpGet); //解析響應(yīng),返回結(jié)果 if(response.getStatusLine().getStatusCode() == 200){//判斷響應(yīng)體Entity是否不為空if(response.getEntity() != null) { //下載圖片 //獲取圖片的后綴 String extName = url.substring(url.lastIndexOf('.')); //創(chuàng)建圖片名,重命名圖片 String picName = UUID.randomUUID().toString() + extName; //下載圖片 //聲明OutputStream OutputStream outputStream = new FileOutputStream(new File('E://imges/' + picName)); response.getEntity().writeTo(outputStream); //返回圖片名稱 return picName;} } } catch (IOException e) { e.printStackTrace(); }finally { //關(guān)閉response if(response != null){try { response.close();} catch (IOException e) { e.printStackTrace();} } } return ''; }}

在項(xiàng)目的test類中編寫代碼獲取數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中。

先通過@Resource注解將MovieService類對(duì)應(yīng)的實(shí)現(xiàn)類注入進(jìn)來。

@Autowiredprivate MovieService movieService;

設(shè)置請(qǐng)求地址https://movie.douban.com/j/search_subjects

String url = 'https://movie.douban.com/j/search_subjects';

之后在定義兩個(gè)Map,用于存儲(chǔ)請(qǐng)求頭和請(qǐng)求參數(shù)信息。

網(wǎng)頁(yè)請(qǐng)求頭。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

請(qǐng)求參數(shù),type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0

設(shè)置請(qǐng)求參數(shù)和請(qǐng)求頭代碼如下。

Map<String, String> map = new HashMap<>();Map<String, String> mapTitle = new HashMap<>();//設(shè)置請(qǐng)求參數(shù)map.put('type', 'movie');map.put('tag', '熱門');map.put('sort', 'recommend');map.put('page_limit', '20');//i為一個(gè)變量,從多少條數(shù)據(jù)開始查詢map.put('page_start', i+'');//設(shè)置請(qǐng)求頭mapTitle.put('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8');mapTitle.put('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0');mapTitle.put('Cookie', 'bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll='118259'; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w');

通過HttpUtils類doGetHtml方法獲取該請(qǐng)求響應(yīng)的數(shù)據(jù)。

String html = HttpUtils.doGetHtml(url, map, mapTitle);

請(qǐng)求響應(yīng)數(shù)據(jù)格式。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

可以看出是一個(gè)json格式的數(shù)據(jù),我們可以通過阿里巴巴的Fastjson一個(gè)json解析庫(kù),把它解析成為一個(gè)List格式數(shù)據(jù)。Fastjson基本用法

JSONObject jsonObject = JSONObject.parseObject(html);JSONArray jsonArray = jsonObject.getJSONArray('subjects');

因?yàn)槊宽?yè)查詢是是20條數(shù)據(jù),我們用一個(gè)for循環(huán)遍歷一下這一頁(yè)的數(shù)據(jù)??梢垣@得電影的標(biāo)題,評(píng)分,圖片鏈接和詳情頁(yè)面的鏈接,上面JSON數(shù)據(jù)中的cover屬性值為圖片的地址。通過圖片的鏈接我們可以調(diào)用HttpUtils類的doGetImage方法把圖片保存到本地磁盤。

HttpUtils.doGetImage(json.getString('cover'));

上面請(qǐng)求的數(shù)據(jù)只能獲取到標(biāo)題,評(píng)分和圖片,然而我們還有獲取導(dǎo)演,主演,和電影時(shí)長(zhǎng)。這些信息我們點(diǎn)開上面請(qǐng)求到的json數(shù)據(jù)的url屬性值,會(huì)打開詳情頁(yè)面,詳情頁(yè)面中有導(dǎo)演,主演,和電影時(shí)長(zhǎng)信息。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

打開的詳情頁(yè)面,我們可以看到導(dǎo)演,主演和電影時(shí)長(zhǎng)等信息。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

我們查詢?cè)斍轫?yè)面的源代碼,可以看到導(dǎo)演,主演,電影時(shí)長(zhǎng)等信息的位置。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

我們?cè)谕ㄟ^HttpUtils類doGetHtml方法獲取詳情頁(yè)面的數(shù)據(jù),利用Jsoup進(jìn)行解析,Jsoup是一個(gè)可以讓java代碼解析HTML代碼的一個(gè)工具,可以參考一下Jsoup官網(wǎng)文檔,找到主演,導(dǎo)演和電影時(shí)長(zhǎng)信息。到這里我們需要的全部信息都獲取到了,最后把數(shù)據(jù)保存起來。

String url2 = json.getString('url');Map<String, String> map2 = new HashMap<>();Map<String, String> mapTitle2 = new HashMap<>();String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);//解析HTML獲取DOM對(duì)象Document doc = Jsoup.parse(html2);//獲取導(dǎo)演名稱Element element = doc.select('div#info a[rel=v:directedBy]').first();movie.setDirector(element.text());Elements elements = doc.select('div#info a[rel=v:starring]');//主演String protagonist = '';for (Element e : elements) { protagonist += e.text()+',';}if(!protagonist.equals('')){ protagonist = protagonist.substring(0, protagonist.length()-1);}movie.setProtagonist(protagonist);//獲取電影時(shí)長(zhǎng)element = doc.select('div#info span[property=v:runtime]').first();movie.setDateTime(element.text());movieService.save(movie);

測(cè)試類全部代碼如下。

import com.alibaba.fastjson.JSONObject;import com.mcy.crawlerdouban.entity.Movie;import com.mcy.crawlerdouban.service.MovieService;import com.mcy.crawlerdouban.util.HttpUtils;import com.alibaba.fastjson.JSONArray;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import org.junit.jupiter.api.Test;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.boot.test.context.SpringBootTest; import java.io.IOException;import java.net.URISyntaxException;import java.util.HashMap;import java.util.Map; @SpringBootTestclass CrawlerDoubanApplicationTests { @Autowired private MovieService movieService; @Test public void contextLoads() throws URISyntaxException, IOException { //請(qǐng)求地址 //https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0 String url = 'https://movie.douban.com/j/search_subjects'; Map<String, String> map = new HashMap<>(); Map<String, String> mapTitle = new HashMap<>(); //設(shè)置請(qǐng)求參數(shù) map.put('type', 'movie'); map.put('tag', '熱門'); map.put('sort', 'recommend'); map.put('page_limit', '20'); //設(shè)置請(qǐng)求頭 mapTitle.put('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'); mapTitle.put('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0'); mapTitle.put('Cookie', 'bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll='118259'; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w'); //獲取前100條數(shù)據(jù),可以自行更改 for(int i = 0; i < 100; i+=20){ map.put('page_start', i+''); String html = HttpUtils.doGetHtml(url, map, mapTitle); JSONObject jsonObject = JSONObject.parseObject(html); JSONArray jsonArray = jsonObject.getJSONArray('subjects'); for(int j = 0; j < jsonArray.size(); j++){ //循環(huán)遍歷每頁(yè)數(shù)據(jù)Movie movie = new Movie();JSONObject json = (JSONObject) jsonArray.get(j);movie.setRate(json.getDouble('rate'));movie.setTitle(json.getString('title')); //下載保存圖片HttpUtils.doGetImage(json.getString('cover')); String url2 = json.getString('url');Map<String, String> map2 = new HashMap<>();Map<String, String> mapTitle2 = new HashMap<>();String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);//解析HTML獲取DOM對(duì)象Document doc = Jsoup.parse(html2);//獲取導(dǎo)演名稱Element element = doc.select('div#info a[rel=v:directedBy]').first();movie.setDirector(element.text());Elements elements = doc.select('div#info a[rel=v:starring]');//主演String protagonist = '';for (Element e : elements) { protagonist += e.text()+',';}if(!protagonist.equals('')){ protagonist = protagonist.substring(0, protagonist.length()-1);}movie.setProtagonist(protagonist);//獲取電影時(shí)長(zhǎng)element = doc.select('div#info span[property=v:runtime]').first();movie.setDateTime(element.text());movieService.save(movie); } } System.out.println('數(shù)據(jù)獲取完成。。。'); }}

最后我們?cè)趍ysql數(shù)據(jù)庫(kù)中新建一個(gè)名為douban的數(shù)據(jù)庫(kù),啟動(dòng)項(xiàng)目,JPA會(huì)自動(dòng)在數(shù)據(jù)庫(kù)中新建一張movie表,存放獲取到的電影數(shù)據(jù)。在本地磁盤也會(huì)保存電影圖片,如圖。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

電影圖片,保存的位置和HttpUtils的doGetImage方法中設(shè)置的保存地址一樣。

Java爬取豆瓣電影數(shù)據(jù)的方法詳解

最后放上下載地址https://github.com/machaoyin/crawler-douban

有什么問題歡迎下方留言交流。

更多關(guān)于java相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Java網(wǎng)絡(luò)編程技巧總結(jié)》、《Java Socket編程技巧總結(jié)》、《Java文件與目錄操作技巧匯總》、《Java數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Java操作DOM節(jié)點(diǎn)技巧總結(jié)》和《Java緩存操作技巧匯總》

希望本文所述對(duì)大家java程序設(shè)計(jì)有所幫助。

標(biāo)簽: 豆瓣
相關(guān)文章:
主站蜘蛛池模板: 在线色av | 欧美一区二区三区精品 | 久久国产视频一区二区 | 成人免费网站在线观看 | 国产精品美女久久久久aⅴ国产馆 | 国产精品激情在线观看 | 在线观看亚洲视频 | 日本一区二区不卡视频 | 欧洲成人在线 | 男人天堂网av | 一级黄色毛片免费观看 | 国产精品一区一区三区 | 在线观看欧美日韩 | 懂色一区二区三区免费观看 | 亚洲精品一区二区另类图片 | 国产精品欧美一区二区三区 | 小川阿佐美88av在线播放 | 精品免费 | 国产精品免费视频一区 | 日韩一区二区三区在线观看 | 日本理伦片午夜理伦片 | 国产亚洲欧美一区 | k8久久久一区二区三区 | 成人超碰在线观看 | 国产在线精品一区二区 | 国产一区二区免费 | 精品久久久久久久久久久久久久 | 国产精品一区二区久久久久 | 日韩中文字幕电影在线观看 | 亚洲精品99 | 亚洲免费观看 | 亚洲精品乱码久久久久久花季 | 中文字幕一区在线观看 | 国产成人精品免高潮在线观看 | 第一福利丝瓜av导航 | 国产精品s色 | 日本午夜电影 | 99精品国产热久久91蜜凸 | 亚洲欧美综合一区 | 日韩免费在线 | 可以在线观看的av网站 | 中文字幕乱码一区二区三区 | 亚洲国产精品久久 | 欧美精品一区二区三区一线天视频 | 国产精品久久久久久一区二区三区 | 国产激情精品视频 | av三级 | 午夜天堂精品久久久久 | 日本美女一区二区三区 | 亚洲综合视频 | 精品久久久久久久久久久久久久 | 精品视频一区二区三区在线观看 | 国产免费高清 | 成人在线视频免费观看 | 亚洲精品久久久久国产 | 日韩久久精品 | 91免费版在线观看 | 精品国产一区三区 | 日韩毛片 | 欧美成人精品激情在线观看 | 91久久夜色精品国产网站 | 亚洲欧洲一区二区三区 | 国产欧美日韩综合精品一区二区 | 日韩综合视频在线观看 | 成人欧美日韩一区二区三区 | 鲁一鲁综合 | 天天插天天操天天干 | 少妇一区二区三区 | 久久久久a | 亚洲一区在线日韩在线深爱 | 精品香蕉一区二区三区 | 久久九九国产精品 | 欧美视频区 | 国产亚洲精品成人av久久ww | 欧美一区2区三区4区公司二百 | 久久这里只有精品首页 | 国产一区二区三区久久 | 欧美精品一区在线发布 | 久久久久国产一区二区三区 | 一区二区三区视频免费在线观看 | 色五月激情五月 | 国产精品视频入口 | 国产91在线观看 | 日韩免费一区 | 干干日日| 国产精品中文字幕在线 | 免费av电影网站 | 国产一级特黄aaa大片 | 97碰碰碰| 中文字幕综合在线 | 国产一级视频在线观看 | 天堂免费在线观看视频 | 色婷婷综合在线视频 | 亚洲精品一区中文字幕乱码 | 欧美日韩美女 | 日本久久精品视频 | 亚洲欧美一区二区三区不卡 | 伊人狠狠干 | 中文字幕在线视频免费观看 | 亚洲第一成人在线视频 | 免费成人av| 欧美全黄 | 久久夜色精品 | 日韩三区 | 国产视频久久久久 | 精品成人免费一区二区在线播放 | 蜜桃视频在线播放 | 成人高清网站 | 亚洲在线视频 | 欧美视频二区 | 久久不色 | 一本一道久久a久久精品综合蜜臀 | 国产精品久久久久久亚洲调教 | 伊人久久艹| 国产一区二区免费 | 免费二区 | 午夜久久 | 国产精品成人3p一区二区三区 | 久久精品久久久久电影 | 亚洲欧美日韩另类精品一区二区三区 | 亚洲精品一区二区三区 | 欧美日韩午夜精品 | 中文字幕在线影院 | 韩国三级中文字幕hd久久精品 | 97国产一区二区精品久久呦 | 黄色大片在线播放 | 一区福利视频 | 国产成人综合在线 | 精品久久久精品 | 天堂中文资源在线 | 婷婷成人在线 | 欧美一区二区久久久 | 17c一起操 | 四虎影视免费在线观看 | 欧美视频网站 | 一区二区不卡 | 国产精品成人国产乱一区 | 国产99999| 国产一级特黄aaa大片评分 | 国产高清一区 | 韩国精品一区二区 | 一级片av| 99视频免费看 | 欧美激情精品久久久久久免费 | 国产精品久久久久毛片软件 | 日韩视频网站在线观看 | 毛片在线免费 | 免费看特级毛片 | 韩国一区二区视频 | 狠狠躁夜夜躁人人爽天天高潮 | 在线观看毛片网站 | 国产激情偷乱视频一区二区三区 | 亚洲日本乱码一区两区在线观看 | 一级黄色a视频 | 欧美另类综合 | 在线一区观看 | 国产精品国产 | 成人在线视频网 | 国产色婷婷精品综合在线播放 | 中文字幕日韩欧美一区二区三区 | 亚洲免费影院 | 欧美午夜视频在线观看 | 亚洲成人综合网站 | 国产成人在线一区二区 | 天堂国产 | 91在线视频在线观看 | 天天干天天插 | 免费在线国产 | 午夜日韩 | 国产九九精品 | 综合视频一区二区三区 | www.av欧美| 中文字幕亚洲一区二区va在线 | 永久看片| 日韩理伦片在线观看视频播放 | 国产精品二区三区 | 91观看 | 国产精品成人3p一区二区三区 | 色网在线 | 九色91视频 | 毛片网站在线 | 久久91精品国产 | 亚洲黄色免费 | www.中文字幕 | 国产毛片一区二区 | 国产乱码精品一区二区三区av | 草草视频在线免费观看 | 国产一区国产二区在线观看 | 精品国产一区探花在线观看 | 一级毛片中国 | 成人欧美一区二区三区白人 | 国产精品久久久久国产a级 日韩在线二区 | 91人人 | 日韩精品中文字幕在线播放 | 米奇成人网 | 成人在线观 | 成人在线视频网 | 国产污视频在线 | 精品av| 久久久久国 | 亚洲国产成人在线观看 | 久久99国产精品久久99大师 | 国产精品亚洲成在人线 | 97久久精品人人做人人爽50路 | 亚洲精品久久久久久下一站 | 国产精品久久久久久久久久久久久久 | 成人在线激情 | 日韩精品一区二区三区中文在线 | 亚洲精品一区中文字幕乱码 | 最近免费中文字幕大全免费版视频 | 看特级毛片 | 免费中文字幕日韩欧美 | 精品免费久久久久 | 九九热这里只有 | 亚洲国产精品99久久久久久久久 | 免费亚洲网站 | 欧美精品一区二区在线观看 | 久久精品成人 | 久久久久久久久久久久国产精品 | av一区在线 | 91福利网站在线观看 | 免费一级片 | 国产精品亲子伦av一区二区三区 | 国产视频综合在线 | 97人人干 | 国产精品久久久久久久7电影 | 国产精品国产 | 99免费观看视频 | 日韩电影专区 | 午夜在线一区 | 中文字幕在线免费视频 | 国产欧美日韩一区 | 亚洲视频成人 | 国产91视频一区二区 | 亚洲欧美一区二区三区在线 | 久久成人综合网 | 国产v片 | 日韩免费高清视频 | 自拍视频网站 | 偷拍自拍第一页 | www.成人在线视频 | 亚洲毛片| bxbx成人精品一区二区三区 | 黄a一级| 国产精品久久久麻豆 | 久久久久久久一区 | 中文字幕1区 | 国产精品免费一区二区三区四区 | 精品国产91亚洲一区二区三区www | 国产成人一区 | 一级片在线观看 | 国产成人精品999在线观看 | 91精品久久久久久久久入口 | 91亚洲国产亚洲国产 | 国产成人在线一区二区 | 日韩国产一区二区三区 | 亚洲精品乱码久久久久久久 | 精品久久久久久久 | 中文字幕一区二区三区精彩视频 | 99精品九九 | 久草视频首页 | 91精品国产综合久久久久久 | 亚洲国产精品99久久久久久久久 | 久久中文字幕一区 | 欧美女优在线视频 | 日操| 欧美日韩一区二区三区不卡视频 | 久久成人精品视频 | 福利片中文字幕 | 日韩精品久久久久久 | 综合久久99 | 日韩三区 | 91福利网址| 91精品国产高清一区二区三区 | 伊人在线| 国产精品成人3p一区二区三区 | 国产猛男猛女超爽免费视频网站 | 一区二区三区国产免费 | 日韩1区3区4区第一页 | 一级黄片毛片 | 美女久久久久 | 日韩中文字幕一区二区 | 嫩草影院黄色 | 久久久久久久久成人 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 国产精品99久久久久久大便 | 亚洲综合天堂网 | 欧美成人精品在线 | 91精品国产高清自在线观看 | 日韩免费视频一区二区 | 91麻豆精品国产91久久久更新资源速度超快 | 99免费视频 | 久久国产一区视频 | 欧美日韩一区二区三区在线观看 | 欧美午夜视频 | 黄色免费av | 第一色视频| 尹人成人 | 亚洲成人一区二区 | 自拍偷拍精品 | av小说在线观看 | 中国一级大黄大黄大色毛片 | 日本在线观看视频一区 | 操操操操网 | 国产成人61精品免费看片 | 91麻豆精品国产91久久久更新时间 | 久久黄色 | 羞羞视频免费观看 | 中文字幕 在线观看 | 亚洲成人三级 | 亚洲精品国产电影 | 夜操| av黄色一级片 | 伊人一区 | 麻豆产精国品免费入口 | 精品久久久久久 | 美女午夜视频 | 在线国产一区 | 玖玖操 | 99re免费视频精品全部 | 国产精品一区二区久久 | 婷婷综合一区 | 日韩在线观看精品 | 91资源在线观看 | 亚洲欧美中文字幕 | 天天看夜夜 | 日本狠狠干| 暖暖成人免费视频 | 欧美一级成人欧美性视频播放 | 日韩午夜视频在线观看 | 午夜精品久久久久久久久 | 日本特黄特色aaa大片免费 | 九九九色 | 久久之精品 | 日本高清无卡码一区二区久久 | 天天插天天操天天干 | 国产精品福利91 | 国产一区二区三区久久久久久久久 | 日本不卡免费新一二三区 | 午夜影院在线观看视频 | 久草视频在线播放 | 在线视频一区二区三区 | 成人午夜精品一区二区三区 | 欧美日韩在线一区二区 | 亚洲一级淫片 | 先锋影音在线 | 91精品电影| 伊人二区| 涩涩操 | 久久精品亚洲 | 国产精品com | 九九热精 | 一道本一区 | 欧美一区免费 | 久久狠狠 | 欧美电影一区 | 国产在线不卡 | 日韩精品一区二区三区在线观看 | 每日更新亚洲 | 国产美女在线观看 | 亚洲国产精品一区二区久久,亚洲午夜 | 久久精品久久久久久久久久16 | 国产大学生情侣呻吟视频 | 手机亚洲第一页 | 国产毛片精品 | 五月天在线婷婷 | 成人在线免费视频 | 亚洲精品91 | 在线视频 亚洲 | 久久精品一区二区三区四区毛片 | 国产精品免费一区二区三区四区 | 日韩在线小视频 | 欧美一区二区三区 | 久久精品一区二区国产 | 国产精品美女一区二区三区四区 | 天堂资源av | 黄色毛片看看 | 亚洲成人精品在线 | 亚洲中字在线 | www.成人久久 | 国产精品久久国产精品 | 精品第一区 | 亚洲高清一区二区三区 | 日韩成人免费视频 | 超碰伊人网 | 欧美高清视频一区 | 日本黄色影片在线观看 | 国产精品国产三级国产aⅴ无密码 | 国产成人精品午夜视频免费 | 国产一区精品电影 | 亚洲一区二区三区免费在线观看 | 国产伦精品一区二区三区四区视频 | 成人在线观看免费 | 最新国产成人 | 精品国产一区二区三区久久久 | 一级片免费在线 | 国产激情在线观看 | 99久久综合精品五月天 | 涩涩999 | 国产成人综合一区二区三区 | 涩涩操 | 综合久久色 | 久久精品在线视频 | 激情久久av一区av二区av三区 | 成人影院www在线观看 | 国产传媒在线 | 亚洲在线 | 夜夜操天天操 | 欧美一区二区三区精品免费 | 成人午夜精品久久久久久久蜜臀 | 久久综合精品视频 | 亚洲国产一二区 | 国产一区二区在线电影 | 91免费在线 | 婷婷网址 | 99小视频| 毛片链接 | 国产精品资源在线 | 国产精品一区二区三区久久 | 亚洲国产成人av | 二区国产 | 国产精品2019 | 九九在线视频 | 国产精品99久久久久久久久久久久 | 黄a在线 | 国产综合精品 | 毛片站 | 日本一区二区不卡视频 | 久久亚洲国产精品 | 亚洲国产视频网站 | 欧美一区在线视频 | 久久蜜桃av一区二区天堂 | 亚洲精品片 | 男女国产网站 | 久久久www | 一区二区三区精品视频 | 天天操天天拍 | 中文字幕成人免费视频 | 黄色一级在线观看 | 秋霞在线一区 | 韩国精品 | 不卡在线| 久久久日韩精品一区二区三区 | www.涩涩视频 | 国产三级在线观看 | 成人免费视频观看视频 | 久久精品欧美一区二区三区不卡 | 日本一区二区三区四区 | 精品九九九 | 中文字幕亚洲视频 | 精品一区二区三区在线观看 | 国产一区精品在线 | 亚洲成人一区二区三区 | 国产精自产拍久久久久久 | 精品久久久久久久 | 99pao成人国产永久免费视频 | 国产精品成人国产乱一区 | 欧美lesbianxxxxhd视频社区 | 91久久| 国产午夜精品一区二区 | 中国黄色毛片 大片 | 亚洲一区中文字幕在线观看 | 中文字幕av一区二区三区 | 欧美成人第一页 | 一本色道精品久久一区二区三区 | 可以看黄的视频 | 日日夜夜一区二区 | 99久久99久久精品国产片果冻 | 网址av | 亚洲 欧美 精品 | 亚洲精品久久久一区二区三区 | 国产99久久久久久免费看农村 | 免费av播放 | 国产亚洲精品久 | 久久精品1 | 久久网日本 | 色吟av| 国产高潮在线观看 | 久久综合九九 | 色欧美日韩 | 一区二区三区四区免费 | 久久综合久色欧美综合狠狠 | 国产精品成人一区二区三区 | 日韩精品一区二区三区中文字幕 | 欧洲美女7788成人免费视频 | 91精品国产高清自在线观看 | 国产精品久久久久久久久免费桃花 | 日韩中文字幕电影在线观看 | 日韩高清一区二区 | 成人免费在线网址 | 久久国产一区二区三区 | 日本精品视频在线播放 | www精品 | 天天躁日日躁狠狠躁av麻豆 | 成人亚洲免费 | 日韩精品专区在线影院重磅 | 日本韩国欧美一区 | 精品美女在线观看视频在线观看 | 91tv亚洲精品香蕉国产一区 | 亚洲wu码| 欧美精品99 | 91视频在线观看 | 精品日韩在线 | 久久av一区| 久久久久久久一区 | 欧美经典一区 | 五月激情婷婷六月 | 国产在线视频xxx | 凹凸日日摸日日碰夜夜爽孕妇 | 欧美一区视频 | 九色91九色porny永久 | 国产91亚洲精品久久久 | 99精品欧美一区二区三区 | 国产看片网站 | 久久精品国产99国产 | 欧美男人天堂网 | 99久久久久久 | 久久国产精品久久久久久电车 | 久久精品二区 | 视频精品一区 | 欧美在线操 | 国产精品成人在线 | 欧美日韩最新 | 欧美日韩国产一区二区 | 色综合久久久 | 欧美成年黄网站色视频 | 亚洲毛片 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 日韩久久久久久久久久久 | 国内自拍偷拍视频 | 在线免费一级片 | 成人综合网站 | 亚洲不卡在线 | av在线一区二区三区 | 成人精品电影 | 国产精品xxxx | 亚洲精品视 | 在线看片成人 | 中文字幕av第一页 | 国产精品观看 | 亚洲 欧美 日韩 在线 | 亚洲国产精品一区二区三区 | 性免费网站 | 免费观看成人毛片 | 精品国产不卡一区二区三区 | 亚洲欧美日韩在线 | 欧洲亚洲精品久久久久 | 日韩和的一区二区 | 影音先锋国产 | 色婷婷国产精品久久包臀 | 91中文| 亚洲精品在线免费 | 成人在线视频网 | 国产一区二区在线视频 | 成人免费小视频 | 欧美中文在线 | 精品免费视频 | 97色综合 | 精品久久久久久久久久久 | 国产精品久久国产精品 | 亚洲免费一区 | 免费h在线观看 | 日本黄色片免费看 | 国产高清一级片 | 日摸夜操| 国产欧美视频在线 | 国产精品免费一区二区三区四区 | 黄色国产一级视频 | 久久久久久亚洲 | 91社区在线播放 | av免费在线观看网站 | 成人国产在线观看 | 久久久久久午夜 | 91一区| 国产免费久久 | 视频一区二区三区中文字幕 | 午夜欧美精品久久久久 | 中文字幕成人免费视频 | 欧美日韩在线精品 | 国产精品久久久久久久 | 最新日韩在线观看视频 | 久久精品色欧美aⅴ一区二区 | www.视频在线观看 | 四虎影院免费网址 | 在线观看成人小视频 | 欧美极品一区二区 | 欧洲精品| 狠狠操天天干 | 在线播放国产精品 | 中文字幕av网 | 一色视频 | 欧美男人天堂 | 韩日在线视频 | 男女免费在线观看 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 成人精品视频免费在线观看 | 精品一二三区 | 日本在线一区二区 | 亚洲 欧美日韩 国产 中文 | 最近韩国日本免费观看mv免费版 | 国产成人亚洲综合 | 国产伊人一区 | 国产999精品久久久影片官网 | 日韩城人免费 | 亚洲国产精品免费 | 狠狠色综合欧美激情 | 日韩成人免费电影 | 精品无码久久久久久国产 | 一区二区三区亚洲 | 亚洲福利在线观看 | 精品一区av | 中文字幕本久久精品一区 | 国产91黄色 | 日韩91| 亚洲成人伊人 |