Jsoup是一个Java库,可以用来解析HTML和XML文档。它提供了一个非常强大的API,可以方便地提取和操作文档的内容。这里介绍一下如何使用Jsoup解析HTML。
需要安装Jsoup。可以从Jsoup官网下载最新版本的Jsoup,将其添加到项目中。
可以使用Jsoup的API来解析HTML。Jsoup提供了一些常用的API,可以方便地提取和操作文档的内容。
例如,使用Jsoup可以通过以下代码获取文档中的所有链接:
Document doc = Jsoup.connect("http://example.com/").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("Link : " + link.attr("href"));
}
Jsoup还提供了一些API来操作文档的内容,可以方便地添加、删除、修改文档中的元素。例如,可以使用以下代码在文档中添加一个新元素:
Document doc = Jsoup.connect("http://example.com/").get();
Element link = doc.createElement("a");
link.attr("href", "http://example.com/newlink");
doc.body().appendChild(link);
Jsoup还提供了一些API来清理文档,可以方便地去除文档中的无用元素,以及去除文档中的HTML标签。例如,可以使用以下代码清理文档:
Document doc = Jsoup.connect("http://example.com/").get();
doc.outputSettings().prettyPrint(false);
doc.select("script").remove();
doc.select("style").remove();
doc.select("head").remove();
String cleanHtml = doc.html();
Jsoup还提供了一些API来输出文档,可以方便地将文档输出为HTML、XML或JSON格式。例如,可以使用以下代码将文档输出为HTML格式:
Document doc = Jsoup.connect("http://example.com/").get();
String html = doc.html();
以上就是使用Jsoup解析HTML的方法,Jsoup提供了一系列强大的API,可以方便地提取和操作文档的内容,并且可以将文档输出为不同格式的文件。