首页
更多
17pw.com
设为首页
收藏本站
品玩
品車
视频
有券
标签
淘帖
站点地图
每日签到奖励
|
登录
注册
导读
星球
BBS
圈子
Group
标签
AI港湾
热门搜索
活动
交友
discuz
发帖
一起品玩
»
星球
›
游戏
›
游戏茶社
›
GitHub上有哪些好用的爬虫
0
1
0
分享
返回列表
发新贴
奔放的蜗牛
网站编辑
主题
435
帖子
549
粉丝
1
加好友
发私信
Ta的帖子
我有一只渡海熊# 第六只煤球!
2019-7-18
高通竟然发布了高通855的升级版高通855 Plus,CPU
2019-7-17
ROG Phone2 真机图曝光,全球首发2.96GHz的骁龙855+,简单了解一下吧
2019-7-17
白色魅族16s配上白色PP壳简直绝配,简洁轻薄手感好
2019-7-17
忽略排线的话,简直是完美布局!!宅男小天堂建造完毕,大家晚安]
2019-7-17
三星 Note 10这颜值下半年要卖爆的节奏
2019-7-17
三星这设计要是能做出来我吹爆。
2019-7-17
谷歌Stadia已收到4000多份申请 开发者踊跃参与
2019-7-17
热门推荐
人狼ゲーム🤍🐾 #鸣潮达妮娅##鸣潮#
独立游戏开发者 ABKB。分享了自己的新作《#
插画师:LOWRISE
在宠弟路上永不停步的尼酱![抱一抱][抱一
在宠弟路上永不停步的尼酱![抱一抱][抱一
第三季伏黑惠劝虎杖别放弃的回旋镖
完全新作原创TV动画《Vertex Force》先导PV
这种长得帅的被虐的最惨了 伏黑惠 早川秋
热门版块
画栈
今日 254 · 主题 6059
进入
格子
今日 188 · 主题 294
进入
爱漫饭
今日 165 · 主题 162
进入
追番社
今日 164 · 主题 2752
进入
游戏宅
今日 135 · 主题 123
进入
漫港湾
今日 126 · 主题 946
进入
GitHub上有哪些好用的爬虫
奔放的蜗牛
发表于 2019-6-15 13:41:14
[显示全部楼层]
只看大图
倒序浏览
阅读模式
1
1429
本帖最后由 奔放的蜗牛 于 2019-6-15 13:55 编辑
在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。
料
首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。
1.1、awesome-spider
地址:https://github.com/facert/awesome-spider
这是ID为facert的一个知乎工程师开源的,头像如下,鉴定为大佬。
star6000+,内容如下:
这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。
1.2、Nyspider
地址:https://github.com/Nyloner/Nyspider
这是ID为Nyloner的一个今日头条的工程师弄的,头像如下:
star1000+,风格与上面的项目大有不同。
可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。
1.3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
这是ID为CriseLYJ(职业不详)的用户,头像如下。
这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。
1.4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,这个头像很学生。
其他还有一些项目,不再一一介绍。
https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler
2 优秀图片/视频项目
笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。
2.1、Google,Baidu,Bing三大搜素引擎图片爬虫
地址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫由ID为sczhengyabin的用户整理,看头像就知道不好惹。
可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:
使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。
可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。
这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。
2.2、各大视频网站爬虫
地址:https://github.com/iawia002/annie
由ID为iawia002的用户整理,看头像来路也不简单。
Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)
视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
要说互联网圈里最有权势的那些人,搞爬虫的高手一定位列其中,他们大概是掌握信息最多的那批人了,善于整合抓取资源,如果身边有这样的大佬,一定要牢牢抱着。
回复
使用道具
举报
已有(1)人评论
电梯直达
李东尧
发表于 2022-2-21 06:30:32
<script type="text/javascript">var jd_union_pid="608851640355734520";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复
使用道具
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
AI漫剧
麦克先森
品玩车
漫港湾
数码玩客
电玩部落
画栈
追番社
安卓专区
反馈