全球主机交流论坛

标题: python3一个简单爬虫程序。。目标站是mm131 [打印本页]

作者: eqblog 时间: 2018-2-1 01:04
标题: python3一个简单爬虫程序。。目标站是mm131
本帖最后由 eqblog 于 2018-2-1 01:06 编辑

程序只会爬一个分类具体原因是懒的再写获取分类了
新手上路，代码很糙，大神勿喷
效果图：

用了requests库，而且是用python3写的
所以提前安装requests
pip install requests
代码如下：
直链下载：https://eqblog.com/script/base_spider.py
论坛附件： (, 下载次数: 465)

import requests
import re
import os
def download_pic(b,dir):
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'http://www.mm131.com'}
a=1
while True:
url='http://img1.mm131.me/pic/'+str(b)+'/'+str(a)+'.jpg'
req=requests.get(url=url,headers=headers)
if req.status_code==200:
with open(str(dir)+'/'+str(a)+'.jpg','wb') as f:
f.write(req.content)
a=a+1
else:
break
flag=1
while True:
if flag==1:
get=requests.get('http://www.mm131.com/xinggan/')
b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
for a in b:
getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
for t in tittle:
if os.path.exists(t)==False:
os.makedirs(t)
print('开始下载：'+t)
download_pic(a,t)
print('下载完成')
else:
print('文件夹已存在，跳过')
flag=flag+1
print('这一页的任务已经完成了')
else:
get=requests.get('http://www.mm131.com/xinggan/list_6_'+str(flag)+'.html')
if get.status_code==200:
b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
for a in b:
getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
for t in tittle:
if os.path.exists(t)==False:
os.makedirs(t)
print('开始下载：'+t)
download_pic(a,t)
print('下载完成')
else:
print('文件夹已存在，跳过')
flag=flag+1
print('这一页的任务已经完成了')
else:
break

复制代码

作者: redalfa 时间: 2018-2-1 01:43
支持爬虫程序员的第一步...

作者: ecosway598 时间: 2018-2-1 02:21
提示: 作者被禁止或删除内容自动屏蔽

作者: bbqbbqtt 时间: 2018-2-1 02:35
火车头一开。。呜呜叫

作者: eqblog 时间: 2018-2-1 03:03

ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。？

爬点图片自己看呗。。。

作者: cnly1987 时间: 2018-2-1 04:39
支持！

作者: yjsx86 时间: 2018-2-1 06:16
大佬666的

作者: 秋风下的落叶 时间: 2018-2-1 08:21
营养快跟不上了。

作者: 左手写爱 时间: 2018-2-1 08:29
楼主把爬好的图片百度网盘分享下吧

作者: 飝闛 时间: 2018-2-1 08:31
支持，支持~

作者: nowonder 时间: 2018-2-1 09:08
mm们的衣服穿的太多了

作者: nowonder 时间: 2018-2-1 09:09
哪天写个1024的吧。

作者: 尼欧一方通行 时间: 2018-2-1 09:10
写个91论坛的

作者: psdshow 时间: 2018-2-1 09:23
学python的第一个程序都是爬虫吗

作者: eqblog 时间: 2018-2-1 09:24

左手写爱发表于 2018-2-1 08:29
楼主把爬好的图片百度网盘分享下吧

我也没爬完啊。。

作者: eqblog 时间: 2018-2-1 09:25

nowonder 发表于 2018-2-1 09:09
哪天写个1024的吧。

大佬现在写马上

作者: eqblog 时间: 2018-2-1 09:27

psdshow 发表于 2018-2-1 09:23
学python的第一个程序都是爬虫吗

不是啊。。我专门学的爬虫。。。

作者: 今晚我是你的 时间: 2018-2-1 09:37

bbqbbqtt 发表于 2018-2-1 02:35
火车头一开。。呜呜叫

脚本自定义强。

作者: 靓坤 时间: 2018-2-1 09:56
可以试试future.concurrency

作者: 三一土白 时间: 2018-2-1 10:55
get外最好包个try:except

作者: eqblog 时间: 2018-2-1 10:59

三一土白发表于 2018-2-1 10:55
get外最好包个try:except

明白，明白

作者: fgpgy 时间: 2018-2-1 11:11
我擦

作者: 童心 时间: 2018-2-1 11:16
用bs比正则要省事

作者: 不要怂 时间: 2018-2-1 11:51
无水印吗，扫完求一套

作者: Type 时间: 2018-2-1 12:33
营养跟不上。。。。

作者: happyhql 时间: 2018-2-3 02:12
都是技术大牛

作者: dgbcniu 时间: 2018-2-3 09:12
来个基础教程呗我也试试

作者: 已注销 时间: 2018-2-3 22:17
提示: 作者被禁止或删除内容自动屏蔽

作者: bigexiu 时间: 2018-2-4 08:28
乌拉拉

作者: hbjzpm 时间: 2018-2-4 10:37
新手来的，弄了半天，也没把环境搭好，

作者: yidaomm 时间: 2018-2-4 13:52
支持爬虫程序员的第一步...是我学习的榜样

作者: yidaomm 时间: 2018-2-4 13:57

ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。？

可以考虑爬爬小说~~

作者: ecosway598 时间: 2018-2-4 14:20
提示: 作者被禁止或删除内容自动屏蔽

欢迎光临全球主机交流论坛 (https://hostloc.gdisk.cf/)

Powered by Discuz! X3.4