众所周知,有大语言模型讲话喜欢各种语言混杂,一般是因为融合。
另外,现在有一些公开的未对齐的英文数据集,可以用于对模型本身去审查,但也会造成上述问题。
归根到底,都是因为一开始喂的语料前后文就是混杂的(例如 翻译文章)。

所以我决定对已有的数据集做一些翻译,这样就可以方便其他人直接用中文 de-censored。因为普通数据集有很多,所以我就专注于一些 NSFW 数据。

第一个成果是 unalignment/toxic-dpo-v0.2,一共有 500 多条内容:
中英文对照版:unalignment-toxic-dpo-v0.2-zh_cn

我使用了一个 34B 模型来翻译,小部分来自 Google / DeepL,然后对一些明显有问题的内容做了校对(主要是统一人物称呼、专有名词等)。

全文都是意译的,甚至允许演绎,主要关注是否通顺。
例如,这个数据集中有大量有关迷幻剂和药物的制备内容,我不可能去校对原文或译文是否准确,读起来像是那么回事就行了,目的是用来 Roleplay 或闲聊,而不是真的用于生产环境。其中的故事我通读了一遍,不一定多有文采,但保证能够理解。

其实一开始是想做 NobodyExistsOnTheInternet/ToxicDPOqa,因为有个很喜欢的模型就是用了这个数据集,但是量有点大,我打算先把流程跑通。
最终,500 多条也跑了将近 10 小时才跑完,校对又花了大概 5 小时。原本计划用两个模型各跑一遍,然后让第三个模型来评判哪个通顺,现在看来不太现实。

之后打算看看 athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW。这个数据集没有分类,我打算只做 sexual content,已经用 mistral 标记好了内容,但打算再找找有没有更好的数据。