Scrapy框架爬虫项目

doctor. cheng

2024-04-25 帮助1人

在学习了scrapy框架之后，有了些许收获，这里将本次小项目写下来。

一首先进入pycharm终端控制台，（一开始我还在命令行里面，后来发现这样方便一点。）

scrapy startproject 项目名

cd 项目名\ 项目名\spiders

scrapy genspider -t crawl xxx 域名

二编写xxx.py

（编写xxx.py之前要在items.py里面增加一些值）

items.py

学新通

xxx.py

学新通

上面导入item那个虽然标红，但不会影响最终爬虫文件，可以置之不理。

现在在终端下面就可以查看运行结果

scrapy crawl xxx

三将爬虫保存为（json 和 csv 格式）

首先在settings打开管道

学新通

（第一个本来就是有的，后面两个需要在pipelines里面创建新的类，完成保存）

编写pipelines文件

csv格式学新通

json 格式

学新通

保存数据库需要在settings里面添加数据库的配置

学新通

（自己的数据库用户，密码，库名记得更改，这里我是MySQL5.7版）

继续编写pipelines文件

学新通

最后在终端运行一下scrapy crawl xxx

学新通

这里我试了几次所以有多个文件，

这篇好文章是转载于：学新通技术网

photoshop保存的图片太大微信发不了怎么办