想了好多办法能让爬虫数据保存省心省事,考虑到item本身就是字典结构,所以我研究了下利用pandas中将itme字典创建成dataframe数据表,一旦能把爬虫数据保存进pandas,那么保存生什么csv、xls等格式就变得简单了
上一篇写到了items.py和setting.py的部分,也就是分别设置好了你要爬的内容和你的项目属性
今天开始一点点总结自己的scrapy学习过程,年龄大加上时间少断断续续的。 这个过程中学习了网友Jack-Cui和静觅博客的部分内容和技巧,非常感谢! 采用pycharm + Anaconda建立环境 之前写过一片关于Anaconda安装scrapy的文章,但是写爬虫最好还是用个IDE吧 pycharm不二选择,不过和谐版本需要自己想办法搞定啦~~这里不多说。。。 安装好pycharm后,记得选择python版本为Anaconda的! 怎么设置自行百度,这里算是有个懒癌的办法就是把默认版本设置Anaconda的,这样以后新建项目均采用默认的python版本了
关于python3中利用os和pandas来合并当前目录下所有excel文件的方法
关于python3利用OS读取当前目录下所有文件绝对路径的简单总结
re正则表达式,这个东西不学是不行的,基本上涉及到字符处理都需要这项技术,学好了天下无敌啊,哈 可惜,它学起来很繁琐,很麻烦,一直挺头疼(还是懒啊),总结了一些东西免得忘记了
关于python3 类变量和类属性的学习
关于python3中类class、以及yield的学习