刚看了V2EX API 接口,疑问如下:
- 我考虑将 V2EX API 用于下载全站 metadata 信息,用于在做的一个 dweb 搜索引擎。但接口不支持翻页,是否以后能支持?如果不会,为什么? (当然,按照通常搜索引擎的方式暴力抓取也是一种方式)(不过还是很期待能翻页的 RSS 或者 jsonfeed )
- 另外,是否以后能实现「用户能选择自己发布的内容的许可协议」这个功能呢?如果不考虑,为什么?
多谢!
刚看了V2EX API 接口,疑问如下:
多谢!
1
Livid MOD PRO 1. 你需要具体哪个接口支持翻页?
2. 十年前我开始实现这个网站的时候,参考的是邮件列表的实现方式。 |
3
askender OP @Livid 1. 如果是 https://www.v2ex.com/api/topics/latest.json 这个能翻页就最好了,一次获取全部文章的 metadata 。 否则我可能遍历用户的整数 id,按照用户去取(由于用户是否发帖相差很大,这种方式不一定高效)。 我想你们应该不介意吧?反正是搜索引擎也能爬到的 metadata 信息。
2. 邮件列表我也用,但感觉现在用的少了,google 的邮件列表也少有人用了。论坛成为稀有物品。 关于用户选择许可,不知道你是什么看法呢? 最简单的做法就是就是设置里多一项。 用户将资源都授权给本站,实际上是略有中心化的。万一哪天你的服务器挂了备份也挂了,数据全丢,或者不可抗力? 我看好奇心日报的数据可能全丢了?我以前做 rss 阅读器的时候抓了一些但不全 另外,我自己以前是做自然语言处理和知识图谱的,也希望数据更开放更语义化一些。 |