我需要html解析方面的帮助。在这里发布问题之前,我试图找到这个答案,但没有找到。我已经在一个数据库表中存储了博客页面的完整html。现在我想从HTML中提取文本和图像。但我只能从整个HTML中提取特定段落的文本和图像。
参见下面的示例,它有很多代码标记。它有三段。我只能从与我的要求相关的第2段中提取文本和图像。(我有关键字,我可以搜索关键字,这样我就可以识别我需要提取这个段落。)
我如何从任何博客中提取特定的段落文本和图像。我有关键字在html中搜索,即关键字=产品ABC。我正在使用PHP。
<html>
<!-- Javascript: tag come here --->
<!-- Head: tag come here --->
<!-- Meta: tag come here --->
<!-- Title: tag come here --->
<!-- Links: tag come here --->
<!-- Javascript: tag come here --->
<body>
<!-- Lot of other code come here about links, javascript, headings etc -->
<!-- DIV: tag come here --->
<p> "PARAGRAPH 1, This paragraph contain only some text." </p>
<!-- Script: tag come here --->
<p> PARAGRAPH 2, It has some information about PRODUCT ABC...</p>
<img /> <!-- some images come here related to this paragraph.-->
<img /> <!-- some images come here related to this paragraph.-->
<img /> <!-- some images come here related to this paragraph.-->
<!-- Script: tag come here --->
<p> PARAGRAPH 3, This paragraph contain only some text. </p>
<img /> <!-- some images come here related to this paragraph.-->
<!-- Links: tag come here --->
<!-- Javascript: tag come here --->
</body>
</head>
</html>
我同意梦想家的观点。虽然,这是html论坛。:p
使用此代码:
$HTML=file_get_html('http://www.google.com/');$par=$html->查找('p[id=hello]');foreach($par->find('img')as$element)echo$element->src。“
”