爬虫速度慢(爬虫间隔时间)

lxf2023-11-14 09:00:01

下载链接“http://s . 1688 . com/sell offer/industry _ offer _ search . htm?mix whole = true & industry flag = food & categoryid = 1032913 & from = industry search & n = y & filter = y # _ FB _ top”,结果只包含页面的一部分;这个页面有60项,但从源代码中只能解析出20项,找不到翻页链接;



应该是前段源代码实现的延迟加载,页面滑轮下拉到底才会加载新的部分;请教如何解析这个页面,获取完整的页面源代码,解析全部60个产品和翻页链接。


回复讨论(解决方案)

audit元素找到数据源链接,并直接使用该链接获取数据。

哦...。。不知道现在回答是不是太晚了这个可以通过Firefox抓取延迟加载的url地址,然后就可以找到规则了。我正好在爬1688的数据也遇到了加载延迟的问题,然后我通过Firefox浏览器抓取了url,发现其实我只需要把sw-delayload-url的div里的url拿出来,在最后加上&callback= any string,然后每次都改&startIndex= this(依次是startIndex=20,StartIndex=40),就会返回一个json数据
我试过你贴的url。不知道为什么没有数据返回。可能产品下架了。。。你可以按照我说的去尝试
。如果你已经解决了,有更好的方法,希望交流。谢谢你。

adminjs.cn是一个以CSS、JavaScript、Vue、HTML为核心的前端开发技术网站。我们致力于为广大前端开发者提供专业、全面、实用的前端开发知识和技术支持。 在本网站中,您可以学习到最新的前端开发技术,了解前端开发的最新趋势和最佳实践。我们提供丰富的教程和案例,让您可以快速掌握前端开发的核心技术和流程。 Adminjs.cn还提供一系列实用的工具和插件,帮助您更加高效地进行前端开发工作。我们提供的工具和插件都经过精心设计和优化,可以帮助您节省时间和精力,提升开发效率。 在Adminjs.cn中,您可以找到您需要的一切前端开发资源,让您成为一名更加优秀的前端开发者。欢迎您加入我们的大家庭,一起探索前端开发的无限可能!