文章

Python3 网络爬虫入门准备工具(二)

写到这里我简直是不想写了,安装完Docker后电脑会重启,我的编辑器居然不会自动保存文本,又得从头开始写

第二部分

安卓开发环境安装好之后,我们来看看IOS

然后发现IOS的开发环境证书不对,如果想拿IOS设备来做数据爬取的话,只有获取ipa安装包之后重新签名之后才可以被Appium测试

爬虫框架的安装

pysoider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI,脚本编辑器,任务监控器,项目管理器以及结果处理器

同时支持多种数据库后端,多种消息队列,另外还支持JaveScript渲染页面的爬取,使用起来非常方便

pyspider是支持JavaScript渲染的,这个过程依赖PhantomJS,所以需要安装PhantomJS,具体安装看第一篇

pip3 install pyspider

可能会出现错误,而一般的错误是由于没有安装Curl造成的,此时需要安装PyCurl库

http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl

找到对应的python版本后下载 使用pip3 install安装

安装完成后 cmd下使用 pyspider all验证安装

启动后 pyspider的Web服务就会在本地5000端口运行  http://localhost:5000访问

Scrapy安装

Scripy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有 Twisted 14.0 , lxml 3.4 ,pyopenssl 4.0

anaconda安装比较方便,如果你的python是anaconda安装的话 只需要执行 conda install scrapy

而我不是

所以我需要安装lxml   pip3 install lxml

pyopenssl

官方找对应版本下载

https://pypi.python.org/pypi/pyopenssl#downloads

安装Twisted

到 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载wheel文件,再用pip3安装

安装PyWin32

https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/

找到对应版本  用pip3 install安装

安装Scrapy

安装好了以上的依赖库之后,安装Scrapy就非常简单了

pip3 install scrapy

Scrapy-Splash安装:

scrapy-splash是一个scrapy中支持JaveScript渲染的工具,它的安装分为两个部分

一个是splash服务的安装,具体是通过Docker,安装之后会启动一个Splash服务,我们可以通过他的接口来实现JaveScript的页面加载

另一个是 Scrapy-Splash的Python库安装,安装之后即可在Scrapy中使用Splash服务

这里通过Docker安装,没关系,我也没有Docker

安装命令 docker run -p 8050:8050 scrapinghub/splash

可是我们还没安装docker

docker是一种容器技术,反正就是很方便,自行百度.

安装docker:

如果你是win10 64位  直接下载docker for windows  https://docs.docker.com/docker-for-windows/install

如果你不是64位win10系统

下载安装 docker toolbox     https://docs.docker.com/toolbox/toolbox_install_windows

需要注册账号,要邮箱,邮箱需要激活.登录后才可以下载,安装好之后会重启电脑,我被他搞了一次

scrapy-redis安装

是scrapy的分布式扩展模块,有了它我们可以方便地实现scrapy分布式爬虫的搭建

pip3 install scrapy-redis

好了好了,我对这个安装以及完全失去兴趣了,后面还有几个小工具的安装,不会的留言吧,

我继续看书了,就不做工具的更新了,哪天我有兴趣了再来更新.

如果爬虫内容啃不动,我会暂时先啃 Flask

这里面有些东西的安装都可以单独拿出来写一篇文章了,

例如Docker,简直是烦的不要不要的,东西又一大堆 ,很多都是一个Web服务,装起来都是Web服务容易出错.

我还是学着慢慢需要什么再安装什么


原文来自:Python3 网络爬虫入门准备工具(二),尊重自己,尊重每一个人;转发请注明来源!
0 0

发表评论