Html敏捷性包
这是一个敏捷的HTML解析器,它构建了一个读/写DOM,并支持普通XPATH或XSLT(您实际上不必了解XPATH或XSLT就可以使用它,不用担心。。。)。 它是一个。NET代码库,允许您解析“脱离Web”的HTML文件。 解析器对“真实世界”格式错误的HTML非常宽容。 对象模型非常类似于提出System.xml的东西,但是对于HTML文档(或流)。
您可以使用TidyNet.tidy将HTML转换为XHTML,然后使用XML解析器。
另一种选择是使用内置引擎mshtml:
using mshtml;
...
object[] oPageText = { html };
HTMLDocument doc = new HTMLDocumentClass();
IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);
这允许您使用类似JavaScript的函数,如getElementById()
我发现了一个名为Fizzler的项目,它采用jQuery/Sizzler方法来选择HTML元素。 它基于HTML Agility Pack。 它目前处于beta阶段,只支持CSS选择器的一个子集,但是在糟糕的XPath上使用CSS选择器是非常酷和令人耳目一新的。
http://code.google.com/p/fizzler/