全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 14760|回复: 72
打印 上一主题 下一主题

PHP版的DHT爬虫终于OK了!

  [复制链接]
跳转到指定楼层
1#
发表于 2015-5-5 11:19:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 带头盔滴衰锅 于 2015-5-5 11:35 编辑

经过不断的努力,探索,PHP版的DHT爬虫终于可以正常使用了,能够正确的获取到info_hash,当获取到info_hash后,剩下的当然就是下载种子,解析种子,生成磁力链等等了~

资源占用情况:http://128.199.164.43/proberv.php
采集结果查看:http://128.199.164.43/infohash.txt

当然,现在还属于测试阶段,我也随意做了下统计,由于在公司上班,不方便做太多,暂时先统计一会儿:

  1. 2015-05-05 11:00:23 - 服务启动...
  2. 2015-05-05 11:05:15 获取到info_hash: 4CDBE0E0D7FB5E7F099E9DA4E2E821D00991AA10
  3. 2015-05-05 11:06:10 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  4. 2015-05-05 11:08:14 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  5. 2015-05-05 11:08:23 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  6. 2015-05-05 11:09:12 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  7. 2015-05-05 11:10:33 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  8. 2015-05-05 11:10:51 获取到info_hash: 98C1463A692B0576110FCCF6F29AC15C17CB30B0
  9. 2015-05-05 11:11:02 获取到info_hash: 443E2692CFAD3CFA0C1607015B5CE624C15C8B5B
  10. 2015-05-05 11:11:13 获取到info_hash: 642BDE39695451D7742DE1DBCD382376AE15E7E8
  11. 2015-05-05 11:11:32 获取到info_hash: 5814217CE0545CA8A95110DFC093884E6C4DA2EA
  12. 2015-05-05 11:11:59 获取到info_hash: B77DA31854E6EC9858B6A75A48520EF4F6CC53D3
  13. 2015-05-05 11:12:03 获取到info_hash: E701105FF0A6448FD99DE2FC64AC7F97D2847DD1
  14. 2015-05-05 11:12:42 获取到info_hash: 443E235E6115DA263A15EF3CED25AA53D4F55D10
  15. 2015-05-05 11:12:53 获取到info_hash: 44327AE56C69FF9EB710511C6CD1C88FC2F708B8
  16. 2015-05-05 11:13:10 获取到info_hash: 636D718BDB3686D4B45BA311276C5985427CB177
  17. 2015-05-05 11:14:41 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  18. 2015-05-05 11:15:26 获取到info_hash: 610965FF873B184F44F9FFDB1A2FB2C509A22B87
  19. 2015-05-05 11:15:35 获取到info_hash: 44327B29A63338BA79D0277C918CC7B53F03C2D5
复制代码


从统计中可以看出,前期刚启动的时候,由于正在寻找朋友,所以很慢,从五分钟开始陆续接收到info_hash,之后速度越来越快,当然,我这里统计只是随意统计了下,并没有彻底统计,不好说什么,不过可以看出,到后期还是能有一定的速度,就是不知道速度能够达到多少了~

之前也说过,当我写出来之后,会把代码分享出来,这里虽然只是把爬虫做出来,其他的东西还没做,但依然先公布代码,可以给大家参考下,也欢迎大神们对我的代码指正一下,非常感谢!

代码下载:http://shuang.ca/php-dht-is-ok/

使用方法:
一、安装PHP,建议安装最新版本
二、安装swoole扩展,安装方法请参照官方说明:http://wiki.swoole.com/wiki/page/6.html
三、将代码传到服务器中
四、切换到代码目录,运行(请注意php程序路径):
  1. php dht.php
复制代码

五、在infohash.log中查看结果

这里也希望各位朋友能够帮忙测试下,毕竟我一个人测试的话,也没什么说服力
推荐
 楼主| 发表于 2015-5-5 11:22:45 | 只看该作者
又看了下采集结果,运行25分钟,采集到26条infohash,那基本上大概一分钟1条左右

  1. 2015-05-05 11:00:23 - 服务启动...
  2. 2015-05-05 11:05:15 获取到info_hash: 4CDBE0E0D7FB5E7F099E9DA4E2E821D00991AA10
  3. 2015-05-05 11:06:10 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  4. 2015-05-05 11:08:14 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  5. 2015-05-05 11:08:23 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  6. 2015-05-05 11:09:12 获取到info_hash: 443E2062BF318D02C269239DA98F50687514175E
  7. 2015-05-05 11:10:33 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  8. 2015-05-05 11:10:51 获取到info_hash: 98C1463A692B0576110FCCF6F29AC15C17CB30B0
  9. 2015-05-05 11:11:02 获取到info_hash: 443E2692CFAD3CFA0C1607015B5CE624C15C8B5B
  10. 2015-05-05 11:11:13 获取到info_hash: 642BDE39695451D7742DE1DBCD382376AE15E7E8
  11. 2015-05-05 11:11:32 获取到info_hash: 5814217CE0545CA8A95110DFC093884E6C4DA2EA
  12. 2015-05-05 11:11:59 获取到info_hash: B77DA31854E6EC9858B6A75A48520EF4F6CC53D3
  13. 2015-05-05 11:12:03 获取到info_hash: E701105FF0A6448FD99DE2FC64AC7F97D2847DD1
  14. 2015-05-05 11:12:42 获取到info_hash: 443E235E6115DA263A15EF3CED25AA53D4F55D10
  15. 2015-05-05 11:12:53 获取到info_hash: 44327AE56C69FF9EB710511C6CD1C88FC2F708B8
  16. 2015-05-05 11:13:10 获取到info_hash: 636D718BDB3686D4B45BA311276C5985427CB177
  17. 2015-05-05 11:14:41 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  18. 2015-05-05 11:15:26 获取到info_hash: 610965FF873B184F44F9FFDB1A2FB2C509A22B87
  19. 2015-05-05 11:15:35 获取到info_hash: 44327B29A63338BA79D0277C918CC7B53F03C2D5
  20. 2015-05-05 11:16:04 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  21. 2015-05-05 11:17:22 获取到info_hash: 3FE532FE7C356560EF3447951BC8B37F1CB8157D
  22. 2015-05-05 11:21:08 获取到info_hash: 2160274D43036AEC863F19FD8F82F4404191B7BC
  23. 2015-05-05 11:23:59 获取到info_hash: 44327B2BBE11D38B5D1CF2DDCD5473A71B91BDCB
  24. 2015-05-05 11:24:02 获取到info_hash: 44327AE56C69FF9EB710511C6CD1C88FC2F708B8
  25. 2015-05-05 11:24:13 获取到info_hash: 2160248A0FD88928261C4B346EFC514EB4DDA517
  26. 2015-05-05 11:24:46 获取到info_hash: 44327AE56C69FF9EB710511C6CD1C88FC2F708B8
  27. 2015-05-05 11:25:46 获取到info_hash: 3FE532A10A142C2ED6DCF8251E80120722C1CFFB
复制代码
3#
发表于 2015-5-5 11:22:49 | 只看该作者
支持分享~

字数补丁
5#
发表于 2015-5-5 11:27:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
6#
 楼主| 发表于 2015-5-5 11:36:36 | 只看该作者
重新修改了下,把采集结果写到web目录下,这样大家就可以实时的查看采集结果了,同时公布了探针地址,大家也可以查看当前资源占用情况
8#
发表于 2015-5-5 11:44:37 | 只看该作者
恭喜恭喜,快做出演示站,来瞧瞧~~
9#
发表于 2015-5-5 11:47:22 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
10#
发表于 2015-5-5 11:48:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-11-9 12:29 , Processed in 0.067449 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表