Java HtmlParse提取标签中的值操作-eolink官网

Java HtmlParse提取标签中的值操作

☆代码示例：

代码块语法遵循标准markdown代码，例如：

package cas;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.StringFilter;

import org.htmlparser.filters.TagNameFilter;

import org.htmlparser.tags.ImageTag;

import org.htmlparser.util.NodeList;

/**

* Html 中的body体中提取出Img标签中的src值

* @author XY

public class CASHtmlImgConvert {

public static void main(String[] args) {

//演示

String[] oldSrcPath=changeImgSrc(" $\"\"$ ");

if(oldSrcPath!=null){

for(String str:oldSrcPath){

System.out.println(str);

}

public static boolean isEmpty(String str){

if(str!=null&&(!str.equals("")))

return false;

else

return true;

}

/**

* @param htmlPath 本地的html路径或者body

private static String[] changeImgSrc(String htmlPath)

{ StringBuilder oldSrcPath = new StringBuilder();

try {

Parser parser = new Parser(htmlPath);

//标签名过滤器

NodeFilter filter = new TagNameFilter ("img");

NodeList nodes = parser.extractAllNodesThatMatch(filter);

Node eachNode = null;

ImageTag imageTag = null;

if (nodes != null)

{

// 遍历所有的img节点

for (int i = 0; i < nodes.size(); i++)

{

eachNode = (Node)nodes.elementAt(i);

if (eachNode instanceof ImageTag)

{

imageTag = (ImageTag)eachNode;

// 获得html文本的原来的src属性

String path=imageTag.getAttribute("src");

if(path.startsWith(""))

path="http://czb8688.com"+path;

oldSrcPath .append(path+",");

}

} catch (Exception e) {

e.printStackTrace();

}

String str=oldSrcPath.toString();

//返回图片数组

return str.substring(0,str.length()-1).split(",");

}

补充知识：java 扫描HTML 拿取各种标签资源数据

直接上代码，不比比。

package com.zhirui.oa.modules.notice.utils;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class TemplateUtil {

public static List> getImgSrc(String htmlContent) {

List> srcList = new ArrayList<>(); //用来存储获取到的地址

Map map = null;

Pattern p = Pattern.compile("<(img|IMG)(.*?)(>|>|/>)");//匹配字符串中的img标签

Matcher matcher = p.matcher(htmlContent);

boolean hasPic = matcher.find();

if (hasPic == true)//判断是否含有图片

{

while (hasPic) //如果含有图片，那么持续进行查找，直到匹配不到

{

String group = matcher.group(2);//获取第二个分组的内容，也就是 (.*?)匹配到的

Pattern srcText = Pattern.compile("(src|SRC)=(\"|\')(.*?)(\"|\')");//匹配图片的地址

Matcher matcher2 = srcText.matcher(group);

if (matcher2.find()) {

map = new HashMap<>();

map.put("imgResourcePath", matcher2.group(3));

srcList.add(map);//把获取到的图片地址添加到列表中

map = null;

}

hasPic = matcher.find();//判断是否还有img标签

}

return srcList;

}

public static List> getVideoSrc(String htmlContent) {

List> srcList = new ArrayList<>(); //用来存储获取到的视频地址

Map map = null;

Pattern p = Pattern.compile("<(video|VIDEO)(.*?)(>|>|/>)");//匹配字符串中的video标签

Matcher matcher = p.matcher(htmlContent);

boolean hasPic = matcher.find();

if (hasPic == true)//判断是否含有视频

{

while (hasPic) //如果含有视频，那么持续进行查找，直到匹配不到

{

String group = matcher.group(2);//获取第二个分组的内容，也就是 (.*?)匹配到的

Pattern srcText = Pattern.compile("(src|SRC)=(\"|\')(.*?)(\"|\')");//匹配视频的地址

Matcher matcher2 = srcText.matcher(group);

if (matcher2.find()) {

map = new HashMap<>();

map.put("videoResourcePath", matcher2.group(3));

srcList.add(map);//把获取到的视频地址添加到列表中

map = null;

}

hasPic = matcher.find();//判断是否还有video标签

}

return srcList;

}

public static List> getAhref(String htmlContent) {

List> srcList = new ArrayList<>(); //用来存储获取到的超链接地址

Map map = null;

Pattern p = Pattern.compile("<(a|A)(.*?)(>|>|/>)");//匹配字符串中的a标签

Matcher matcher = p.matcher(htmlContent);

boolean hasPic = matcher.find();

if (hasPic == true)//判断是否含有超链接

{

while (hasPic) //如果含有超链接，那么持续进行查找，直到匹配不到

{

String group = matcher.group(2);//获取第二个分组的内容，也就是 (.*?)匹配到的

Pattern srcText = Pattern.compile("(href|HREF)=(\"|\')(.*?)(\"|\')");//匹配超链接的地址

MTHPaztxatcher matcher2 = srcText.matcher(group);

if (matcher2.find()) {

map = new HashMap<>();

map.put("aResourcePath", matcher2.group(3));

srcList.add(map);//把获取到的超链接地址添加到列表中

map = null;

}

hasPic = matcher.find();//判断是否还有a标签

}

return srcList;

}

Flask接口签名sign原理与实例代码浅析

388 2022-11-26

Java HtmlParse提取标签中的值操作

Flask接口签名sign原理与实例代码浅析

java中的接口是类吗

zookeeper python接口实例详解

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

Java HtmlParse提取标签中的值操作

微信扫一扫：分享

推荐文章

最近发表

热评文章