爬虫速度慢(爬虫间隔时间)

lxf2023-11-14 09:00:01

首页 > HTML
> 正文

下载链接“http://s . 1688 . com/sell offer/industry _ offer _ search . htm？mix whole = true & industry flag = food & categoryid = 1032913 & from = industry search & n = y & filter = y # _ FB _ top”，结果只包含页面的一部分；这个页面有60项，但从源代码中只能解析出20项，找不到翻页链接；

应该是前段源代码实现的延迟加载，页面滑轮下拉到底才会加载新的部分；请教如何解析这个页面，获取完整的页面源代码，解析全部60个产品和翻页链接。

回复讨论(解决方案)

audit元素找到数据源链接，并直接使用该链接获取数据。

哦...。。不知道现在回答是不是太晚了这个可以通过Firefox抓取延迟加载的url地址，然后就可以找到规则了。我正好在爬1688的数据也遇到了加载延迟的问题，然后我通过Firefox浏览器抓取了url，发现其实我只需要把sw-delayload-url的div里的url拿出来，在最后加上&callback= any string，然后每次都改&startIndex= this(依次是startIndex=20，StartIndex=40)，就会返回一个json数据
我试过你贴的url。不知道为什么没有数据返回。可能产品下架了。。。你可以按照我说的去尝试
。如果你已经解决了，有更好的方法，希望交流。谢谢你。

adminjs.cn是一个以CSS、JavaScript、Vue、HTML为核心的前端开发技术网站。我们致力于为广大前端开发者提供专业、全面、实用的前端开发知识和技术支持。在本网站中，您可以学习到最新的前端开发技术，了解前端开发的最新趋势和最佳实践。我们提供丰富的教程和案例，让您可以快速掌握前端开发的核心技术和流程。 Adminjs.cn还提供一系列实用的工具和插件，帮助您更加高效地进行前端开发工作。我们提供的工具和插件都经过精心设计和优化，可以帮助您节省时间和精力，提升开发效率。在Adminjs.cn中，您可以找到您需要的一切前端开发资源，让您成为一名更加优秀的前端开发者。欢迎您加入我们的大家庭，一起探索前端开发的无限可能！

本文是由"秘密武器开发者中心"本站原创整理，所有内容的版权归原作者所有。

上一篇批量删除超链接的快捷键是啥来着(怎么批量清除超链接)

下一篇标签最重要的属性(以下哪些标签必须放在headhead之间)

爬虫速度慢(爬虫间隔时间)

相关专题