全球主机交流论坛

标题: 分享下采集tg频道资源做站 [打印本页]

作者: xianmeng    时间: 2024-1-13 17:43
标题: 分享下采集tg频道资源做站
本帖最后由 xianmeng 于 2024-1-13 17:57 编辑

使用python的telethon模块登录自己的tg号来进行采集频道
直接上代码

https://662688.xyz/code.zip

简单解释一下 主要代码就是下面的 其他的函数 我就用来写入数据库而已 不需要的可以直接删除
我采集的是网盘资源 图片我直接忽略了 如果要采集图片的话 自行gpt 即可解决
limit参数是 你要采集这个频道多少信息 采集完就自动结束了 我这里是1500
api_id , api_hash 这两个自行在这里申请 https://my.telegram.org/auth?to=apps
如果是用bot机器人的话 就不需要 首次运行代码 需要填写点信息
chat的话就是频道/群组的id 当然也可以用名字 不过不建议 https://t.me/getidsbot 转发一条信息给这个机器人 就可知道id
偏移值就是 他采集的顺序是从最新的消息开始
比如最新消息是 38000条 我到3W条的时候 tg不返回信息了 我偏移值就填30000 重新运行脚本 就可以接着采下去了


当然功能不限制于这些
tg真号可以采集频道信息/上传文件/下载文件......
机器人的话不能采集频道信息 可上传下载 其他还没试

我还写有一个自动下载和上传文件/视频 然后转发到指定群聊




还可以实时看到进度 不过速度实在不行 200K 我就放弃了
然后后面改成直接上传文件id 实现秒发 就是我转发视频给机器人 然后机器人发到指定频道/群聊 这样就不会显示转自哪个频道

直接上代码(参考一下 gpt自行修改)

https://662688.xyz/code1.zip

采了一天信息 7个频道 才采了5W信息 有时候会中断需要重新运行脚本来继续采集 还没发现问题 之后观察一下 应该是tg那边限制了




顺便做了个接口
https://www.662688.xyz/api/get_zy?keyword=繁花

作者: vlin    时间: 2024-1-13 17:46
多谢分享
作者: Sid2    时间: 2024-1-13 17:46
可以的 强
作者: reg01    时间: 2024-1-13 17:50
路过点赞
作者: cet    时间: 2024-1-13 18:24
点赞,虽然用不上,但是谢谢你让我知道了Telethon这个东西
作者: peng123    时间: 2024-1-13 18:31
那种限制下载的能不能用这个下载?
作者: xianmeng    时间: 2024-1-13 18:57
peng123 发表于 2024-1-13 18:31
那种限制下载的能不能用这个下载?

还没见过限制下载的  感觉应该不行 得试试
作者: 小情歌    时间: 2024-1-13 19:02
可以在有新的消息自动采集吗
作者: akkba    时间: 2024-1-13 19:03
基于 tdl 写过一个机器人, 可以自动备份限制下载媒体的频道, 跑了2天号没了
作者: piaofu998    时间: 2024-1-13 19:56
感谢分享。。。
作者: xianmeng    时间: 2024-1-13 21:14
小情歌 发表于 2024-1-13 19:02
可以在有新的消息自动采集吗

可以的
作者: xianmeng    时间: 2024-1-13 21:16
akkba 发表于 2024-1-13 19:03
基于 tdl 写过一个机器人, 可以自动备份限制下载媒体的频道, 跑了2天号没了 ...

这个应该不会  不太频繁就行  不过我频繁采集了7个频道的信息都没事
作者: Pyinfo    时间: 2024-1-13 21:48
666,这个必须点赞

作者: Pyinfo    时间: 2024-1-13 21:54
就是我转发视频给机器人 然后机器人发到指定频道/群聊 这样就不会显示转自哪个频道

这里可以直接无引用转发,tg的api是支持的




欢迎光临 全球主机交流论坛 (https://hostloc.gdisk.cf/) Powered by Discuz! X3.4