前段时间,我在封装一个 OpenAI API 兼容接口。在查阅返回格式时,手头正好缺 Key。

中途也想过有没有人分享过 Key,不过当时搜了一下没找到。这几天回头来再来看这个问题,发现泄露的 Key 还是不少的。

寻找泄露的 Key 主要针对 HuggingFace 和 Github。
HuggingFace 的分词比较粗暴,比较难搜到 Key,不过一但出现有效率很高。
Github 搜索比较完善,还支持正则,所以能挖掘到大量 Key,当然有效率也会低。

OpenAI Key 的格式为,sk-sk-proj 开头,然后20位字母数字,T3BlbkFJ("OpenAI" 的 Base64),再20位字母数字。

在 Github 可以直接用正则,例如 /sk-(|proj-)?[0-9a-zA-Z]{20}T3BlbkFJ[0-9a-zA-Z]{20}/
不过 Github 只支持查看前 5 页,可以靠限制条件搜索获得更多结果。

我从特定的语言浅浅爬了六千条 Key,大概有 100 个有效 Key,其中支持 GPT-4 的占了四成。Github 显示总数据量约 3 万条,这样大概明文泄露的规模至少有 500 条。由于搜索并非是全文,一个文档中泄露多条的情况还没计算在内。

通过查看原始数据,发现很多开发者喜欢把 Key 写在注释里,例如 //sk-******,非常的离谱。还有一些人会对 Key 前后加一些别的混淆字母,或者简单的明文拼装,也很容易泄露。
如果实在要图方便,简单的 base64 或者逆序输出也足够防爬虫了。