:sunny:2021-11-04 16:32:51 星期四
已更新英文站爬取
注意:
搜索不能使用中文
网站的推荐栏目不支持搜索
下载地址:回复可见
[rihide]https://www.lanzouw.com/iE55Aw56r4j[/rihide]
:clock1:2021-11-03 10:16:47 星期三
经查实,该网站可能处于改版时期,本爬虫会出错
原因:所有写真集已经没有了下一页的翻页功能,所有写真集也只能查看第一页,大家可以自行去该网址查看
处理方案:等待此网站更新完毕.
目前发现该网站的英文版站点并无问题,可能只是针对中文站点更新.
不过英文站点搜索人物名字却不能使用中文.例如夏西,只能搜索cici.否则将出错,这是其网站本身具有的错误
最好的办法是等待他的中文站点更新完毕.
今天又有网友留言请求爬取一个网址:https://tw.kissgoddess.com/
我看了一下,这个站确实很多资源,然后其实就是各种模特的写真这样子
好像还是写真很受欢迎,这个站写的爬虫可以实现搜索女优的名字进行女友专辑的下载
是比较方便的
另外对于爬取这样的站点意义不是很大了,大家可以发一些小说站啊什么的,其实这些图片真没什么好看的
这个站点的爬虫预计将在本月发布吧,暂时没空
我已经做了2天了,这个网站真的把我给做毛了,不知道是谁开发的,专辑页面需要点击加载更多才出现所有的专辑
研究我半天绕来绕去,最后搞定了,就进去抓图,发现每一页就5张,需要翻页,于是获取所有页面一一访问再去抓取,
然后抓下来发现每一页永远都少2张,再跑去看,发现xpath做了手脚,于是又来改,总算现在改完了,发现尼玛...
之前获取的所有页面,点击到最后一页的时候,其实还会出现更多的页面,也没有全部展示,我发现这个站做的真是无语,自己影响seo
既然你这么想玩,陪你玩...
今晚解决你
已完成,等我自己下完了我就把程序发布,并且同步发布我已经下载的内容(夏西cici的所有写真)
本来想一气之下加个多线程,让广大网友陪你这样恶心的站点玩玩,后来想想自己也算是个站长了,别人也并不希望自己被爬,所以,就这样吧,单线程自己玩吧
源码改来改去写的比较乱了,所以加了很多备注,再回头看已经是一塌糊涂,就不发布源码了.
爬虫程序下载地址:
链接: https://pan.baidu.com/s/1ZfUvUTRvxXDKJgnC0-ncaw 提取码: jhv5 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v5的分享
如果你只需要夏西cici的专辑,直接这里下载
链接: https://pan.baidu.com/s/1-3xewXszS2eKSh7EKF1RXg 提取码: rg1e 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v5的分享
已经下载好的写真集被百度删了,你们自己下程序爬吧,搜索cici即可 下载地址(回复可见)
7 条评论
主页可以打开,里面的图集都打不开了。。。。
那请你看他网站的图集是否能打开
今年么有可以爬虫的网站了/
目前关注点不在这块了,这个还可以用呀
好久没能够遇见
开源吧,要不支持一下选相册,
Traceback (most recent call last):
File "site-packages\urllib3\connectionpool.py", line 670, in urlopen
File "site-packages\urllib3\connectionpool.py", line 426, in _make_request
File "<string>", line 3, in raise_from
File "site-packages\urllib3\connectionpool.py", line 421, in _make_request
File "http\client.py", line 1332, in getresponse
File "http\client.py", line 303, in begin
File "http\client.py", line 264, in _read_status
File "socket.py", line 669, in readinto
File "ssl.py", line 1241, in recv_into
File "ssl.py", line 1099, in read
TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
请提供一下关键词