OpenAI Key泄露情况初探

前段时间，我在封装一个 OpenAI API 兼容接口。在查阅返回格式时，手头正好缺 Key。

中途也想过有没有人分享过 Key，不过当时搜了一下没找到。这几天回头来再来看这个问题，发现泄露的 Key 还是不少的。

寻找泄露的 Key 主要针对 HuggingFace 和 Github。
HuggingFace 的分词比较粗暴，比较难搜到 Key，不过一但出现有效率很高。
Github 搜索比较完善，还支持正则，所以能挖掘到大量 Key，当然有效率也会低。

OpenAI Key 的格式为，sk- 或 sk-proj 开头，然后20位字母数字，T3BlbkFJ（"OpenAI" 的 Base64），再20位字母数字。

在 Github 可以直接用正则，例如 /sk-(|proj-)?[0-9a-zA-Z]{20}T3BlbkFJ[0-9a-zA-Z]{20}/。
不过 Github 只支持查看前 5 页，可以靠限制条件搜索获得更多结果。

我从特定的语言浅浅爬了六千条 Key，大概有 100 个有效 Key，其中支持 GPT-4 的占了四成。Github 显示总数据量约 3 万条，这样大概明文泄露的规模至少有 500 条。由于搜索并非是全文，一个文档中泄露多条的情况还没计算在内。

通过查看原始数据，发现很多开发者喜欢把 Key 写在注释里，例如 //sk-******，非常的离谱。还有一些人会对 Key 前后加一些别的混淆字母，或者简单的明文拼装，也很容易泄露。
如果实在要图方便，简单的 base64 或者逆序输出也足够防爬虫了。