【2025.02】聊聊最近可以角色扮演的模型
有一段时间没推荐过新模型了,这次推荐的主要是长上下文模型,比较适合角色扮演(当然大部分也是通用模型)。
之前模型百花齐放,主要得益于Yi-34B和Qwen-32B的各种微调。现在这些内容有些过时了,所以这期主要是推荐一些云端模型。
这些模型要么没有审核,要么很容易jailbreak,具体就自己发挥吧。
MiniMax-Text-01
海螺AI的开源模型,角色扮演型模型。他们家主要就是做角色扮演的,旗下有个叫星野的APP,用的是一个小号模型。
和Deepseek一样,对个人来说开源了等于没开源,体积太大了。
官方的Demo:点这里,我适配的接口:点这里
要稳定的话自己官网注册账号,1M上下文,输入0.001元/千token, 输出0.008元/千token。
这个模型发布后登上了几天Huggingface热门榜,然后就没什么波澜了。官方模型介绍提到「其中每8层中有7个是基于Lightning Attention的线性注意力,有一层是传统的SoftMax注意力」,是不是有点像RWKV?
效果上看:适合角色扮演,但也只适合角色扮演。不要用在需要严谨推理的地方,尤其是不要问数学题。
Doubao-character
豆包专门用于角色扮演的模型,这是一个系列,有Lite和Pro以及最多32K上下文的版本,官方每个版本送500万tokens。
我只是浅浅试了一下jailbreak,几乎没有限制,更多的就没有深入体验。
character版本的低限制应该是有意设计的,普通的Pro版本很难越狱(Lite可以jailbreak,但文本质量差很多)。
Gemini-2.0-Flash
Gemini 2.0 Flash正式版发布了,可能是受股价下跌的刺激,这次来得很突然。正式版模型有1M上下文,限制比任何实验版都要少。这个模型很强,除了扮演也可以干正事。
在最近的审查选项里,除了BLOCK_NONE
外还额外新增了一个OFF
。在谷歌给的演示中,HARM_CATEGORY_SEXUALLY_EXPLICIT
就是OFF
,好像是在暗示什么。我不知道两者有什么区别,总之调成OFF
后,正式版几乎不会中断输出。
关于Gemini还有两个小新闻。
第一是,实时搜索功能上线了,好像是仅限付费版,要在tool
参数里设置。
第二是,API上的思维链被砍了,只能AI Studio里看到思考内容。我不知道谷歌为什么要这么做,而且就在Deepseek R1刚发布后,感觉纯纯有病。
Qwen-2.5-Max
也是在Deepseek发布后紧急上线的模型,能力比Deepseek强。通用能力强,扮演也强,和Gemini一样,可以作为主力,然后就是贵。刚发布时完全被R1的光芒掩盖了,春节后才开始登上榜单。
官方的Demo:点这里,我适配的接口:点这里
要稳定用的话去官网注册吧,应该是送不少tokens,我估计过阵子价格还会降。
deepseek-chat
我测试是可以扮演的,但是因为热度的关系,实在是太卡了,也就没深入测试。R1不适合扮演,莫要强求。
自从Yi-34B发布后,我就有个想法,以后只会有小模型和超大模型开源。
原因是小模型是端侧的玩具,几乎不能拿去卖钱;超大模型用来秀肌肉,开了等于没开,如开;中等体量是真的能用,只会便宜了用户和友商。
不过之后一段时间,Qwen仍在继续更新30-40B的模型,我觉得他们或许也是没什么KPI压力。
随着Deepseek R1的发布,我已经遇到了好几个人和我有同样的想法。在受到商业上的刺激后,不知道阿里还有没有心情做这种「慈善型」的中等体量模型。
再补充下R1蒸馏版的体验
我在之前的文章里说R1蒸馏进Llama 70B后继承了Llama重复的问题,不过话又说回来,后来我又发现R1蒸馏进Qwen-32B后,继承了审查宽松的特性。
目前R1-Qwen-32B可以通过我的这个接口配合自己的HF Token + Model:deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
体验。根据HuggingFace的惯例,一旦热度下降就会撤掉部署,估计随时失效吧。
R1-Llama-70B目前可以在Sambanova体验。不过呢,他们很快就要取消免费版了,所以也是随时失效。或者用我的CerebrasUnofficial也行。
蒸馏版纯属娱乐,不推荐自己部署。