• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

使用Jsoup工具包去掉文本的html标签

武飞扬头像
t梧桐树t
帮助1

前两天遇到这样一个问题:由于前端要展示带样式的字体,所以数据库中存的数据是带有html标签的,但是这还有一个导出word的功能,而导出word的时候就不需要样式,导出文本即可,所以需要一个可以去除html标签的方法.百度过后基本上都是自定义正则,但是自定义的难免会有考虑不全的问题,所以最好是有一个成熟的工具包,Jsoup就派上用场了,Jsoup是一款Java 的HTML解析器,可以对HTML进行解析。

引入依赖

  1.  
    <dependency>
  2.  
    <groupId>org.jsoup</groupId>
  3.  
    <artifactId>jsoup</artifactId>
  4.  
    <version>1.15.3</version>
  5.  
    </dependency>

去除html标签方法

  1.  
    public String getTextFromHTML(String htmlStr) {
  2.  
    Document doc = Jsoup.parse(htmlStr);
  3.  
    String text = doc.text();
  4.  
    //删除多余的空白
  5.  
    StringBuilder builder = new StringBuilder(text);
  6.  
    int index = 0;
  7.  
    while(builder.length()>index){
  8.  
    char tmp = builder.charAt(index);
  9.  
    if(Character.isSpaceChar(tmp) || Character.isWhitespace(tmp)){
  10.  
    builder.setCharAt(index, ' ');
  11.  
    }
  12.  
    index ;
  13.  
    }
  14.  
    text = builder.toString().replaceAll(" ", " ").trim();
  15.  
    return text;
  16.  
    }
学新通

测试

  1.  
    public static void main(String[] args) {
  2.  
    String htmlStr = "<p><span style=\"font-family: 'Arial Black';font-size: 16pt\">测试字体</span> </p>\n"
  3.  
    "<p><span style=\"font-family: 'Arial Black';font-size: 16pt\">测试字体</span> </p>\n"
  4.  
    "<p><span style=\"font-family: 'Arial Black';font-size: 16pt\">测试字体</span> </p>";
  5.  
    String textFromTHML = getTextFromTHML(htmlStr);
  6.  
    System.out.println("去除后的效果");
  7.  
    System.out.println(textFromTHML);
  8.  
    }

 结果

  1.  
    Connected to the target VM, address: '127.0.0.1:53720', transport: 'socket'
  2.  
    去除后的效果
  3.  
    测试字体 测试字体 测试字体
  4.  
    Disconnected from the target VM, address: '127.0.0.1:53720', transport: 'socket'

可以看到导出后是一行,这个不用担心,导出word后其实还是换行的

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgekhic
系列文章
更多 icon
同类精品
更多 icon
继续加载