sweeyeah's recent timeline updates
sweeyeah

sweeyeah

V2EX member #710774, joined on 2024-09-15 22:43:40 +08:00
Today's activity rank 13501
sweeyeah's recent replies
@fanyingmao 小红书我之前研究了一下好像是经常会出各种毛病,有一定难度。不过微信公众号这个还好,他本来就是公开链接。在通过 readgzh.site 读的时候,一是并发没有那么高。二是目前我看过后台,一天大概最多的时候两千多次,其实也就是正常阅读。ip 还没遇到过问题。
@fulibaba 有考虑的,感谢提醒。

不像其他一些硬爬的工具。
ReadGZH 的做法不太一样:

我们只访问 mp.weixin.qq.com/s/xxx 这种任何人浏览器里都能直接打开的公开 URL ,不需要登录微信、不需要关注公众号、不需要 token
没有破解任何防抓取措施,请求行为和普通浏览器一致
抓的是公开网页 HTML ,不是微信后端 API 、不是阅读数点赞数这类需要鉴权的数据
整个产品定位是"帮 AI 打开一个它本来就能访问的公开链接",类似 Google Cache / archive.org 的代理缓存

最后在 https://readgzh.site/terms 页面也加了个投诉可删。可以最大限度降低风险。
@zhengfan2016 谢谢提醒,这个判决我去看了下,确实值得每个做内容类工具的人警惕。

不过那个案例(上海晟品)定罪的核心是**"破解了今日头条服务器的反抓取措施,获取了存储在服务器内部的视频数据"**,触犯的是《刑法》 285 条的"非法获取计算机信息系统数据罪"。
两个关键要件:①破解防护措施 ②抓取的是后端鉴权数据。

ReadGZH 的做法不太一样:

我们只访问 mp.weixin.qq.com/s/xxx 这种任何人浏览器里都能直接打开的公开 URL ,不需要登录微信、不需要关注公众号、
没有破解任何防抓取措施,请求行为和普通浏览器一致
抓的是公开网页 HTML ,不是微信后端 API 、不是阅读数点赞数这类需要鉴权的数据

整个产品定位是"帮 AI 打开一个它本来就能访问的公开链接",类似 Google Cache / archive.org 的代理缓存
主要风险其实在著作权层面(缓存全文内容)。

这块我准备加一个 DMCA 投诉下架通道,原作者一封邮件就能删,走避风港原则。再次感谢。
@ttkit 感谢鼓励 💪(抱拳
做了一个微信文章 AI 阅读器。
让打不开微信公众号阅读文章的 AI ,也可以读微信公众号文章了。缓存了 3000 多篇文章,而且还帮他们省了 1.3 亿多 token ,有几百个用户,也有一些付费用户了。

虽然没咋推广,但有人愿意用,有人愿意付费,我还是挺满意的。

https://readgzh.site/
@sunnysab 谢谢佬。这跑了一个多月了。确实遇到不少问题。流量被刷爆过几次。现在好了,基本上稳定了。差不多 2000 篇了。
@Insolitude 谢谢佬。这样听起来是有点容易被针对..我研究一下呢。是搜狗能搜公众号内容。
@Insolitude 赚可能不好说。。先做得好用吧。
请问搜索是搜索已经有过的文章吗?现在库里面只有几百篇。
Feb 28
Replied to a topic by labubu Google 我去,谷歌 Antigravity 大赦天下了
所以 open claw 就接着没问题了吗?
@keithwhisper 感恩,我先争取修好。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   833 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 22:11 · PVG 06:11 · LAX 15:11 · JFK 18:11
♥ Do have faith in what you're doing.