全球主机交流论坛

标题: python3一个简单爬虫程序。。目标站是mm131 [打印本页]

作者: eqblog    时间: 2018-2-1 01:04
标题: python3一个简单爬虫程序。。目标站是mm131
本帖最后由 eqblog 于 2018-2-1 01:06 编辑

程序只会爬一个分类 具体原因是懒的再写获取分类了
新手上路,代码很糙,大神勿喷
效果图:

用了requests库,而且是用python3写的
所以 提前安装requests
pip install requests
代码如下:
直链下载:https://eqblog.com/script/base_spider.py
论坛附件: (, 下载次数: 465)

  1. import requests
  2. import re
  3. import os
  4. def download_pic(b,dir):
  5.     headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'http://www.mm131.com'}
  6.     a=1
  7.     while True:
  8.         url='http://img1.mm131.me/pic/'+str(b)+'/'+str(a)+'.jpg'
  9.         req=requests.get(url=url,headers=headers)
  10.         if req.status_code==200:
  11.             with open(str(dir)+'/'+str(a)+'.jpg','wb') as f:
  12.                 f.write(req.content)
  13.                 a=a+1
  14.         else:
  15.             break
  16. flag=1
  17. while True:
  18.     if flag==1:
  19.         get=requests.get('http://www.mm131.com/xinggan/')
  20.         b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
  21.         for a in b:
  22.             getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
  23.             tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
  24.             for t in tittle:
  25.                 if os.path.exists(t)==False:
  26.                     os.makedirs(t)
  27.                     print('开始下载:'+t)
  28.                     download_pic(a,t)
  29.                     print('下载完成')
  30.                 else:
  31.                     print('文件夹已存在,跳过')
  32.         flag=flag+1
  33.         print('这一页的任务已经完成了')
  34.     else:
  35.         get=requests.get('http://www.mm131.com/xinggan/list_6_'+str(flag)+'.html')
  36.         if get.status_code==200:
  37.             b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
  38.             for a in b:
  39.                 getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
  40.                 tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
  41.                 for t in tittle:
  42.                     if os.path.exists(t)==False:
  43.                         os.makedirs(t)
  44.                         print('开始下载:'+t)
  45.                         download_pic(a,t)
  46.                         print('下载完成')
  47.                     else:
  48.                         print('文件夹已存在,跳过')
  49.             flag=flag+1
  50.             print('这一页的任务已经完成了')
  51.         else:
  52.             break
复制代码

作者: redalfa    时间: 2018-2-1 01:43
支持 爬虫 程序员的第一步...
作者: ecosway598    时间: 2018-2-1 02:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: bbqbbqtt    时间: 2018-2-1 02:35
火车头一开。。呜呜叫
作者: eqblog    时间: 2018-2-1 03:03
ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。?

爬点图片 自己看呗。。。
作者: cnly1987    时间: 2018-2-1 04:39
支持!
作者: yjsx86    时间: 2018-2-1 06:16
大佬666的
作者: 秋风下的落叶    时间: 2018-2-1 08:21
营养快跟不上了。
作者: 左手写爱    时间: 2018-2-1 08:29
楼主把爬好的图片百度网盘分享下吧
作者: 飝闛    时间: 2018-2-1 08:31
支持,支持~
作者: nowonder    时间: 2018-2-1 09:08
mm们的衣服穿的太多了
作者: nowonder    时间: 2018-2-1 09:09
哪天写个1024的吧。
作者: 尼欧一方通行    时间: 2018-2-1 09:10
写个91论坛的
作者: psdshow    时间: 2018-2-1 09:23
学python的第一个程序都是爬虫吗
作者: eqblog    时间: 2018-2-1 09:24
左手写爱 发表于 2018-2-1 08:29
楼主把爬好的图片百度网盘分享下吧

我也没爬完啊。。
作者: eqblog    时间: 2018-2-1 09:25
nowonder 发表于 2018-2-1 09:09
哪天写个1024的吧。

大佬 现在写 马上
作者: eqblog    时间: 2018-2-1 09:27
psdshow 发表于 2018-2-1 09:23
学python的第一个程序都是爬虫吗

不是啊。。我专门学的爬虫。。。
作者: 今晚我是你的    时间: 2018-2-1 09:37
bbqbbqtt 发表于 2018-2-1 02:35
火车头一开。。呜呜叫

脚本自定义强。
作者: 靓坤    时间: 2018-2-1 09:56
可以试试future.concurrency
作者: 三一土白    时间: 2018-2-1 10:55
get外最好包个try:except

作者: eqblog    时间: 2018-2-1 10:59
三一土白 发表于 2018-2-1 10:55
get外最好包个try:except

明白,明白
作者: fgpgy    时间: 2018-2-1 11:11
我擦
作者: 童心    时间: 2018-2-1 11:16
用bs比正则要省事
作者: 不要怂    时间: 2018-2-1 11:51
无水印吗,扫完求一套
作者: Type    时间: 2018-2-1 12:33
营养跟不上。。。。

作者: happyhql    时间: 2018-2-3 02:12
都是技术大牛
作者: dgbcniu    时间: 2018-2-3 09:12
来个基础教程呗 我也试试
作者: 已注销    时间: 2018-2-3 22:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: bigexiu    时间: 2018-2-4 08:28
乌拉拉
作者: hbjzpm    时间: 2018-2-4 10:37
新手来的,弄了半天,也没把环境搭好,
作者: yidaomm    时间: 2018-2-4 13:52
支持 爬虫 程序员的第一步...是我学习的榜样
作者: yidaomm    时间: 2018-2-4 13:57
ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。?

可以考虑爬爬小说~~
作者: ecosway598    时间: 2018-2-4 14:20
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 全球主机交流论坛 (https://hostloc.gdisk.cf/) Powered by Discuz! X3.4