博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy运行
阅读量:4292 次
发布时间:2019-05-27

本文共 781 字,大约阅读时间需要 2 分钟。

在上一文中我们使用pycharm创建了一个scrapy项目, 并使用命令初始化了一个scrapy模板。 这一文中我们就让这个scrapy爬虫脚本运行起来。

第一步 在根路径下创建一个py文件

在这里插入图片描述

直接右击创建就可以。这个py文件的名称可以自定义。

第二步编写main.py文件内容。

#  execute 可以调用scrapy的执行脚本from scrapy.cmdline import executeimport sysimport os# os.path.abspath(__file__) 获取当前文件所在的路径# os.path.dirname(os.path.abspath(__file__)) 获取当前文件所在的父目录# 设置执行路径sys.path.append(os.path.dirname(os.path.abspath(__file__)))# 设置执行命令execute(["scrapy", "crawl", "cnblogNews"])

第三步 修改setting.py的配置

在这里插入图片描述

原来是true,现在改为False.

下面是摘自百度的robots协议的解释

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

第四步 运行

在main.py中,右击运行就可以了。

在这里插入图片描述

转载地址:http://tdkws.baihongyu.com/

你可能感兴趣的文章
第一天上班没精神
查看>>
启动eclipse报错:Failed to load the JNI shared library
查看>>
eclipse安装插件的两种方式在线和离线
查看>>
linux下源的相关笔记(suse)
查看>>
linux系统分区文件系统划分札记
查看>>
Linux(SUSE 12)安装Tomcat
查看>>
Linux(SUSE 12)安装jboss4并实现远程访问
查看>>
Neutron在给虚拟机分配网络时,底层是如何实现的?
查看>>
netfilter/iptables全攻略
查看>>
Overlay之VXLAN架构
查看>>
Eclipse : An error occurred while filtering resources(Maven错误提示)
查看>>
在eclipse上用tomcat部署项目404解决方案
查看>>
web.xml 配置中classpath: 与classpath*:的区别
查看>>
suse如何修改ssh端口为2222?
查看>>
详细理解“>/dev/null 2>&1”
查看>>
suse如何创建定时任务?
查看>>
suse搭建ftp服务器方法
查看>>
centos虚拟机设置共享文件夹并通过我的电脑访问[增加smbd端口修改]
查看>>
检查硬盘告警的脚本
查看>>
安装openssh提示headers missing的解决方法
查看>>