尝试做了一个数据集翻译

众所周知，有大语言模型讲话喜欢各种语言混杂，一般是因为融合。
另外，现在有一些公开的未对齐的英文数据集，可以用于对模型本身去审查，但也会造成上述问题。
归根到底，都是因为一开始喂的语料前后文就是混杂的（例如翻译文章）。

所以我决定对已有的数据集做一些翻译，这样就可以方便其他人直接用中文 de-censored。因为普通数据集有很多，所以我就专注于一些 NSFW 数据。

第一个成果是 unalignment/toxic-dpo-v0.2，一共有 500 多条内容：
中英文对照版：unalignment-toxic-dpo-v0.2-zh_cn

我使用了一个 34B 模型来翻译，小部分来自 Google / DeepL，然后对一些明显有问题的内容做了校对（主要是统一人物称呼、专有名词等）。

全文都是意译的，甚至允许演绎，主要关注是否通顺。
例如，这个数据集中有大量有关迷幻剂和药物的制备内容，我不可能去校对原文或译文是否准确，读起来像是那么回事就行了，目的是用来 Roleplay 或闲聊，而不是真的用于生产环境。其中的故事我通读了一遍，不一定多有文采，但保证能够理解。

其实一开始是想做 NobodyExistsOnTheInternet/ToxicDPOqa，因为有个很喜欢的模型就是用了这个数据集，但是量有点大，我打算先把流程跑通。
最终，500 多条也跑了将近 10 小时才跑完，校对又花了大概 5 小时。原本计划用两个模型各跑一遍，然后让第三个模型来评判哪个通顺，现在看来不太现实。

之后打算看看 athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW。这个数据集没有分类，我打算只做 sexual content，已经用 mistral 标记好了内容，但打算再找找有没有更好的数据。

发表回复 取消回复

发表回复取消回复