Jsoup是一个Java库,可以用来解析HTML和XML文档。它提供了一个非常强大的API,可以方便地提取和操作文档的内容。这里介绍一下如何使用Jsoup解析HTML。
需要安装Jsoup。可以从Jsoup官网下载最新版本的Jsoup,将其添加到项目中。
可以使用Jsoup的API来解析HTML。Jsoup提供了一些常用的API,可以方便地提取和操作文档的内容。
例如,使用Jsoup可以通过以下代码获取文档中的所有链接:
Document doc = Jsoup.connect("http://example.com/").get(); Elements links = doc.select("a[href]"); for (Element link : links) { System.out.println("Link : " + link.attr("href")); }
Jsoup还提供了一些API来操作文档的内容,可以方便地添加、删除、修改文档中的元素。例如,可以使用以下代码在文档中添加一个新元素:
Document doc = Jsoup.connect("http://example.com/").get(); Element link = doc.createElement("a"); link.attr("href", "http://example.com/newlink"); doc.body().appendChild(link);
Jsoup还提供了一些API来清理文档,可以方便地去除文档中的无用元素,以及去除文档中的HTML标签。例如,可以使用以下代码清理文档:
Document doc = Jsoup.connect("http://example.com/").get(); doc.outputSettings().prettyPrint(false); doc.select("script").remove(); doc.select("style").remove(); doc.select("head").remove(); String cleanHtml = doc.html();
Jsoup还提供了一些API来输出文档,可以方便地将文档输出为HTML、XML或JSON格式。例如,可以使用以下代码将文档输出为HTML格式:
Document doc = Jsoup.connect("http://example.com/").get(); String html = doc.html();
以上就是使用Jsoup解析HTML的方法,Jsoup提供了一系列强大的API,可以方便地提取和操作文档的内容,并且可以将文档输出为不同格式的文件。