标签 Scrapy 下的文章 - 生活中的Hygge-过去无可挽回,未来可以改变

首页

文章分类

逆向网安中英演讲杂类教程

学习笔记

前端开发汇编数据库 .NET 服务器 Python Java PHP Git 算法安卓开发

生活记录读书笔记作品发布人体健康

网上邻居留言板欣赏小姐姐关于我

登录

1 利用AList搭建家庭个人影音库 4,655 阅读 2 浅尝Restful Fast Request插件，一句话完成逆向过程 3,944 阅读 3 完美破解The Economist付费墙 2,714 阅读 4 i茅台app接口自动化csharp wpf实现,挂机windows服务器每日自动预约 2,608 阅读 5 青龙面板基本使用并添加修改微信/支付宝步数脚本 2,030 阅读

标签搜索

PHP
Laravel
前端
csharp
安卓逆向
JavaScript
Python
Java
爬虫
抓包
Git
winform
android
Fiddler
Vue
selenium
LeetCode
每日一题
简单题
docker

Hygge

累计撰写 95 篇文章
累计收到 445 条评论

首页
栏目
- 逆向网安
- 中英演讲
- 杂类教程
- 学习笔记
  - 前端开发
  - 汇编
  - 数据库
  - .NET
  - 服务器
  - Python
  - Java
  - PHP
  - Git
  - 算法
  - 安卓开发
- 生活记录
- 读书笔记
- 作品发布
- 人体健康
页面

用户登录

搜索到 2 篇与的结果

2024-04-02
美团旗下大象商户数据爬虫2-为爬虫绘制GUI并打包前言公司最近的业务,继上文:https://lisok.cn/python/552.htmlcmd命令的使用有点麻烦,于是学习了一下PyQt5画了一个GUI实现有几个点需要提一下这里的日志输出是给logging添加了拦截器日志内容分成两部分如图,其中store记录的是自己代码中打印的,scrapy.utils.log是scrapy内部记录的一些日志统一添加一个handler处理回调显示在界面上。store.pyfrom ui.mainwindow import signal class MyCustomHandler(logging.Handler): def __init__(self, signals): super(MyCustomHandler, self).__init__() self.signals = signals def emit(self, record): log_message = self.format(record) # 发送消息到 PyQt 界面 self.signals.log_signal.emit(log_message) class StoreSpider(scrapy.Spider): name = "store" allowed_domains = ["sale-pb.sankuai.com", 'crm.sankuai.com'] start_urls = ["https://sale-pb.sankuai.com/apigw/api/poi/ownership/poi-not-cooperated"] baseinfo_url = 'https://crm.sankuai.com/poi/sales/report/baseinfo?shopId={}' pageSize = 60 pageNum = 1 startCategoryId = 0 startRequest = True infoHeaders = {"Content-Type": "application/json; charset=UTF-8"} custom_settings = { 'LOG_LEVEL': 'INFO', 'LOG_FILE': 'sankuai-cus.log', } def __init__(self, *args, **kwargs): log_names = ['store', 'scrapy.utils.log', 'scrapy.extensions.logstats'] # 'scrapy.addons', 'scrapy.extensions.telnet', 'scrapy.middleware', # 'scrapy.crawler', 'scrapy.core.engine', for log_name in log_names: logging.getLogger(log_name).addHandler(MyCustomHandler(signal)) super().__init__(*args, **kwargs) # 设置Cookie self.cookies = kwargs.get('cookies', []) self.crawl_cities_ids = kwargs.get('crawl_cities_ids', []) # ....mainwindow.pyfrom PyQt5.QtCore import QThread, pyqtSignal, QObject from .ui_main_window.ui_mainwindow import Ui_MainWindow cities = [] class MySignal(QObject): log_signal = pyqtSignal(str) signal = MySignal() cookies = [] crawl_cities_ids = [] # ...其他的代码都很常规,打个包记录一下{cloud title="美团-大象商户爬虫.zip" type="bd" url="/我的分享/美团-大象商户爬虫.zip" password=""/}引用1.python scrapy框架日志文件:https://blog.csdn.net/weixin_45459224/article/details/1001425372.[Python自学] PyQT5-子线程更新UI数据、信号槽自动绑定、lambda传参、partial传参、覆盖槽函数:https://www.cnblogs.com/leokale-zz/p/13131953.html3.[ PyQt入门教程 ] PyQt5中多线程模块QThread使用方法:https://www.cnblogs.com/linyfeng/p/12239856.html4.Scrapy Logging:https://docs.scrapy.org/en/latest/topics/logging.html#logging-configuration5.在线程中启动scrapy以及多次启动scrapy报错的解决方案(ERROR:root:signal only works in main thread):https://blog.csdn.net/Pual_wang/article/details/106466017
- 2024年04月02日
- 111 阅读
- 0 评论
- 0 点赞
2024-04-01
美团旗下大象商户数据爬虫1-Python将Scrapy程序打包成exe 本文开发环境：Python3.9前言最近公司有业务开展到爬美团下大象的商户信息# 主要是这两个域名 allowed_domains = ["sale-pb.sankuai.com", 'crm.sankuai.com']Pycharm在开发机器上采集占用太高了,于是想打包成exe部署到服务器上跑环境配置包配置:包名版本Scrapy2.11.1pyinstaller6.5.0 步骤一、编写程序入口参考官方文档:https://doc.scrapy.org/en/latest/topics/practices.htmlsankuai/run.pyfrom scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings # 下面的包是项目中用到的包，根据自己的项目自行添加,也可以根据打包运行的报错信息，逐个添加 import js2xml import os settings = get_project_settings() process = CrawlerProcess(settings) process.crawl('store') # 填入你需要运行的文件名 process.start()二、数据保存本来是想用FEED来保存数据,可以通过控制台来控制保存地址sankuai/run.pysettings = get_project_settings() settings.setdict({ 'FEED_FORMAT': 'csv', 'FEED_URI': os.path.join(os.path.dirname(os.path.abspath(__file__)), 'data.csv') }, priority="project") process = CrawlerProcess(settings)但是测试发现只会创建文件,并不会写入数据,这里没有解决有后续了再贴替代方案使用pipeline.pysankuai/sankuai/pipeline.pyclass SankuaiPipeline: def __init__(self): # data文件夹不存在则创建 if not os.path.exists('./data'): os.mkdir('./data') def process_item(self, item, spider): with open('./data/' + item.get('cityName') + '.csv', 'a+', encoding='gbk', newline='') as f: writer = csv.writer(f) writer.writerow((item.get('cityName'), item.get('phone'), item.get('phone2'))) return item sankuai/sankuai/settings.py# ... # Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { "sankuai.pipelines.SankuaiPipeline": 300, } # ...三、打包打包执行命令:pyinstaller.exe .\run.py打包后的文件会位于sankuai/dist/run/run.exe,通过cmd运行项目中读取的文件需要放到同一个运行目录中,我这里是category.json和city.json还有两个Cookie文件四、运行出现KeyError: 'Spider not found:爬虫名，可以将项目源码和打包程序放在一块，即打包时生成时的目录结构，不要改变，拷贝时连同项目整体拷贝，亲测有效。打包时直接将sankuai目录压缩了,不然会出现其他问题,当然安全性没有保障(源码都泄露出去了)公司自用就无所谓了引用1.python 将Scrapy项目打包成exe及注意事项 :https://www.cnblogs.com/zhengxianfa/p/16767965.html2.【scrapy打包】使用pyinstaller将scrapy项目打包成独立可执行exe，及可能遇到的问题和解决方法:https://blog.csdn.net/qq_51543898/article/details/1368468103.The application can not locate Python39.dll (126)找不到指定的模块。解决方法:https://blog.csdn.net/wushaoqiu2011/article/details/1101824974.用Pyinstaller打包Scrapy项目问题解决！！！:https://pyqt5.blog.csdn.net/article/details/79017358
- 2024年04月01日
- 148 阅读
- 0 评论
- 0 点赞

Hygge

95 文章数

445 评论量

Selenium破解学习通倍速限制
Java实现网络爬虫[1+x大数据应用的实战]
期末考试总算完啦

我们相恋了
0年228天1时31分19秒啦

最新回复

idea_boy
2024-11-13

最新版2024.1.8,先安装正版的插件，再到插件安装的目录替换掉对应的jar包通过百度网盘分享的文件：instrumented-restful-fast-request-p... 链接：https://pan.baidu.com/s/1k3Dc-ltEXsXqL1sHGUn9jQ 提取码：7vwh
idea_boy
2024-11-12

先安装正版的插件，再到插件安装的目录替换掉对应的jar包链接：https://pan.baidu.com/s/1SxhJLfe-v5GQYo6ltyuNPA 提取码：6ywn
coder
2024-11-11

能否分享一下最新的
idea_boy
2024-10-31

按照这思路，破解了最新版2024.1.7，最新版字符串都加密了，搜索不到了，还会检测agent,请求服务器验证，如果语言是英文就不会走服务器验证
快帆云
2024-09-26

你好，我们的机场：快帆云，已经稳定运营三年多，现在诚邀推广员。只需要在你的网站挂上我们的推广链接，即可获得50%佣金。如果有兴趣，可以联系我们的tg：@kfyuntg。或者直接到网站https://kfyun.uk 注册后发工单交流。

标签云

2022 - 2023 © Reach - 生活中的Hygge

本破站已艰难运行 00 天 00 时 00 分 00 秒

冀ICP备2022004832号-1