Java获取任意http网页源代码的方法

网友投稿 422 2023-03-30


Java获取任意http网页源代码的方法

本文实例讲述了java获取任意http网页源代码。分享给大家供大家参考,具体如下:

JAVA获取任意http网页源代码可实现如下功能:

1. 获取任意http网页的代码

2. 获取任意http网页去掉HTML标签的代码

Webpage类:

/**

* 网页操作相关类

*/

package test;

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.URL;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

* @author winddack

*

*/

public class Webpage {

private String pageUrl;//定义需要操作的网页地址

private String pageEncode="UTF8";//定义需要操作的网页的编码

public String getPageUrl() {

return pageUrl;

}

public void setPageUrl(String pageUrl) {

this.pageUrl = pageUrl;

}

public String getPageEncode() {

return pageEncode;

}

public void setPageEncode(String pageEncode) {

this.pageEncode = pageEncode;

}

//定义取源码的方法

public String getPageSource()

{

StringBuffer sb = new StringBuffer();

try {

//构建一URL对象

URL url = new URL(pageUrl);

//使用openStream得到一输入流并由此构造一个BufferedReader对象

BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode));

String line;

//读取www资源

while ((line = in.readLine()) != null)

{

sb.append(line);

}

in.close();

}

catch (Exception ex)

{

System.err.println(ex);

}

return sb.toString();

}

//定义一个把HTML标签删除过的源码的方法

public String getPageSourceWithoutHtml()

{

final String regEx_script = "


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:安全管理平台数据采集接口(安全数据中台)
下一篇:hadoop是什么语言
相关文章

 发表评论

暂时没有评论,来抢沙发吧~