HTMLAgilityPack加载AJAX内容以进行抓取
我试图在ac#webforms项目中使用HTMLAgilityPack抓取一个网页。
我见过的所有解决方案都使用WebBrowser控件。 但是,根据我的判断,这仅适用于WinForms项目。
目前我通过以下代码调用所需的页面:
var getHtmlWeb = new HtmlWeb(); var document = getHtmlWeb.Load(inputUri); HtmlAgilityPack.HtmlNodeCollection nodes = document.DocumentNode.SelectNodes("//div[@class="nav"]");
我见过使用WebBrowser控件的一段代码示例:
if (this.webBrowser1.Document.GetElementsByTagName("html")[0] != null) _htmlAgilityPackDocument.LoadHtml(this.webBrowser1.Document.GetElementsByTagName("html")[0].OuterHtml);
关于如何在加载AJAX后抓取页面的任何建议/指示将不胜感激。
似乎使用HTMLAgilityPack只能抓取通过html本身加载的内容。 因此,通过AJAX加载的任何内容都不会被HTMLAgilityPack看到。
也许最简单的选择 – 可行 – 是使用基于浏览器的工具(如Firebug)来确定AJAX加载的数据源。 然后直接操作源数据。 这样做的另一个好处可能是刮掉更大的数据集。
上述就是C#学习教程:HTMLAgilityPack加载AJAX内容以进行抓取分享的全部内容,如果对大家有所用处且需要了解更多关于C#学习教程,希望大家多多关注—计算机技术网(www.ctvol.com)!
本文来自网络收集,不代表计算机技术网立场,如涉及侵权请联系管理员删除。
ctvol管理联系方式QQ:251552304
本文章地址:https://www.ctvol.com/cdevelopment/1011388.html