Csharp/C#教程:HTMLAgilityPack加载AJAX内容以进行抓取分享


HTMLAgilityPack加载AJAX内容以进行抓取

我试图在ac#webforms项目中使用HTMLAgilityPack抓取一个网页。

我见过的所有解决方案都使用WebBrowser控件。 但是,根据我的判断,这仅适用于WinForms项目。

目前我通过以下代码调用所需的页面:

var getHtmlWeb = new HtmlWeb(); var document = getHtmlWeb.Load(inputUri); HtmlAgilityPack.HtmlNodeCollection nodes = document.DocumentNode.SelectNodes("//div[@class="nav"]"); 

我见过使用WebBrowser控件的一段代码示例:

 if (this.webBrowser1.Document.GetElementsByTagName("html")[0] != null) _htmlAgilityPackDocument.LoadHtml(this.webBrowser1.Document.GetElementsByTagName("html")[0].OuterHtml); 

关于如何在加载AJAX后抓取页面的任何建议/指示将不胜感激。

似乎使用HTMLAgilityPack只能抓取通过html本身加载的内容。 因此,通过AJAX加载的任何内容都不会被HTMLAgilityPack看到。

也许最简单的选择 – 可行 – 是使用基于浏览器的工具(如Firebug)来确定AJAX加载的数据源。 然后直接操作源数据。 这样做的另一个好处可能是刮掉更大的数据集。

上述就是C#学习教程:HTMLAgilityPack加载AJAX内容以进行抓取分享的全部内容,如果对大家有所用处且需要了解更多关于C#学习教程,希望大家多多关注—计算机技术网(www.ctvol.com)!

本文来自网络收集,不代表计算机技术网立场,如涉及侵权请联系管理员删除。

ctvol管理联系方式QQ:251552304

本文章地址:https://www.ctvol.com/cdevelopment/1011388.html

(0)
上一篇 2021年12月30日
下一篇 2021年12月30日

精彩推荐