下载链接“http://s . 1688 . com/sell offer/industry _ offer _ search . htm?mix whole = true & industry flag = food & categoryid = 1032913 & from = industry search & n = y & filter = y # _ FB _ top”,结果只包含页面的一部分;这个页面有60项,但从源代码中只能解析出20项,找不到翻页链接;
应该是前段源代码实现的延迟加载,页面滑轮下拉到底才会加载新的部分;请教如何解析这个页面,获取完整的页面源代码,解析全部60个产品和翻页链接。
回复讨论(解决方案)
audit元素找到数据源链接,并直接使用该链接获取数据。
哦...。。不知道现在回答是不是太晚了这个可以通过Firefox抓取延迟加载的url地址,然后就可以找到规则了。我正好在爬1688的数据也遇到了加载延迟的问题,然后我通过Firefox浏览器抓取了url,发现其实我只需要把sw-delayload-url的div里的url拿出来,在最后加上&callback= any string,然后每次都改&startIndex= this(依次是startIndex=20,StartIndex=40),就会返回一个json数据
我试过你贴的url。不知道为什么没有数据返回。可能产品下架了。。。你可以按照我说的去尝试
。如果你已经解决了,有更好的方法,希望交流。谢谢你。