月度归档: 2025 年 2 月

Huggingface行了又不太行

最近一段时间,Huggingface做了一点改动。

Space归类

在Space页面,按Space功能加了一行Icon。因为搜索很烂,所以官方归类一下还是不错的。从靠前的Space可以看到比较不错的项目和模型,或者说就是现阶段最好的模型。我试了下靠前的Background Removal项目,就挺好用。

模型接口变化

Huggingface大概在一个月前,接入了其他模型供应商。官方自己的接口一直都很烂,不但容易掉线,非热门模型撤得也快,基本只能当玩具。接入第三方后,自然稳定很多。

但是,配额暴降。之前是FREE账户限制模型范围,PRO账户有20K/M的调用次数。现在缩水到FREE账户$0.1/M,RPO账户$2/M。
我测试了一下,在模型页面右侧的使用Demo也会扣配额。Huggingface没有说具体的计算方式,如果是按调用次数,等于PRO用户砍了九成配额。
当然了,也有办法增加配额,我只能说懂的都懂。

更正:Huggingface是按各个服务商的定价按原价转发。

具体的供应商列表在源码PROVIDER_T里,相应的接口(LLM):`
https://router.huggingface.co/{:PROVIDER}/v1/chat/completions

有意思的是,如果是走第三方供应商,一些Huggingface上不存在的模型也是可以调用的。但不是所有接口都可以,Huggingface对每个供应商只实现了部分接口,具体可以看源码中的定义。

修了一个Bug

Space原本是不支持/v1路径的,访问会404,所以作为LLM接口调用必须要多加一层路径(如/hf/v1),现在似乎修好了。

【2025.02】聊聊最近可以角色扮演的模型

有一段时间没推荐过新模型了,这次推荐的主要是长上下文模型,比较适合角色扮演(当然大部分也是通用模型)。

之前模型百花齐放,主要得益于Yi-34B和Qwen-32B的各种微调。现在这些内容有些过时了,所以这期主要是推荐一些云端模型。

这些模型要么没有审核,要么很容易jailbreak,具体就自己发挥吧。

MiniMax-Text-01

海螺AI的开源模型,角色扮演型模型。他们家主要就是做角色扮演的,旗下有个叫星野的APP,用的是一个小号模型。

和Deepseek一样,对个人来说开源了等于没开源,体积太大了。
官方的Demo:点这里,我适配的接口:点这里
要稳定的话自己官网注册账号,1M上下文,输入0.001元/千token, 输出0.008元/千token。

这个模型发布后登上了几天Huggingface热门榜,然后就没什么波澜了。官方模型介绍提到「其中每8层中有7个是基于Lightning Attention的线性注意力,有一层是传统的SoftMax注意力」,是不是有点像RWKV?

效果上看:适合角色扮演,但也只适合角色扮演。不要用在需要严谨推理的地方,尤其是不要问数学题。

Doubao-character

豆包专门用于角色扮演的模型,这是一个系列,有Lite和Pro以及最多32K上下文的版本,官方每个版本送500万tokens。
我只是浅浅试了一下jailbreak,几乎没有限制,更多的就没有深入体验。

character版本的低限制应该是有意设计的,普通的Pro版本很难越狱(Lite可以jailbreak,但文本质量差很多)。

Gemini-2.0-Flash

Gemini 2.0 Flash正式版发布了,可能是受股价下跌的刺激,这次来得很突然。正式版模型有1M上下文,限制比任何实验版都要少。这个模型很强,除了扮演也可以干正事。

在最近的审查选项里,除了BLOCK_NONE外还额外新增了一个OFF。在谷歌给的演示中,HARM_CATEGORY_SEXUALLY_EXPLICIT就是OFF,好像是在暗示什么。我不知道两者有什么区别,总之调成OFF后,正式版几乎不会中断输出。

关于Gemini还有两个小新闻。
第一是,实时搜索功能上线了,好像是仅限付费版,要在tool参数里设置。
第二是,API上的思维链被砍了,只能AI Studio里看到思考内容。我不知道谷歌为什么要这么做,而且就在Deepseek R1刚发布后,感觉纯纯有病。

Qwen-2.5-Max

也是在Deepseek发布后紧急上线的模型,能力比Deepseek强。通用能力强,扮演也强,和Gemini一样,可以作为主力,然后就是贵。刚发布时完全被R1的光芒掩盖了,春节后才开始登上榜单。

官方的Demo:点这里,我适配的接口:点这里
要稳定用的话去官网注册吧,应该是送不少tokens,我估计过阵子价格还会降。

deepseek-chat

我测试是可以扮演的,但是因为热度的关系,实在是太卡了,也就没深入测试。R1不适合扮演,莫要强求。


自从Yi-34B发布后,我就有个想法,以后只会有小模型和超大模型开源。
原因是小模型是端侧的玩具,几乎不能拿去卖钱;超大模型用来秀肌肉,开了等于没开,如开;中等体量是真的能用,只会便宜了用户和友商。
不过之后一段时间,Qwen仍在继续更新30-40B的模型,我觉得他们或许也是没什么KPI压力。

随着Deepseek R1的发布,我已经遇到了好几个人和我有同样的想法。在受到商业上的刺激后,不知道阿里还有没有心情做这种「慈善型」的中等体量模型。

再补充下R1蒸馏版的体验

我在之前的文章里说R1蒸馏进Llama 70B后继承了Llama重复的问题,不过话又说回来,后来我又发现R1蒸馏进Qwen-32B后,继承了审查宽松的特性。

目前R1-Qwen-32B可以通过我的这个接口配合自己的HF Token + Model:deepseek-ai/DeepSeek-R1-Distill-Qwen-32B体验。根据HuggingFace的惯例,一旦热度下降就会撤掉部署,估计随时失效吧。

R1-Llama-70B目前可以在Sambanova体验。不过呢,他们很快就要取消免费版了,所以也是随时失效。或者用我的CerebrasUnofficial也行。

蒸馏版纯属娱乐,不推荐自己部署。

对Deepseek R1的看法以及一个蒸馏版接口

蒸馏版接口 => CerebrasUnofficial

最近Deepseek R1很火,出圈首先是因其成本论述引发英伟达股价下跌而受到关注,之后以其独特的攻击性,再次带动了传播。

我实际体验了一下,说实话,感到一般。

我关注的几个问题:

  1. RL(强化学习)涌现CoT(思维链)?效果如何?
  2. 成本削减多大程度可以复制?
  3. 蒸馏进Llama后效果怎么样?

一、关于CoT(思维链)

我测试下来,效果和Gemini比,差了很多。Deepseek不像是think,而是在understand。

关于CoT我最先接触的是gemini-2.0-flash-thinking,觉得很有意思。当时我在解决一个网络问题,模型的thinking让我看到了它的回溯过程。
类似这样:「用户遇到了XX问题,XX结果说明XX没有问题,再看XX可以排除是XX问题。这也许是XX问题,但是从XX的结果看,问题应该也不在这里。这个问题很奇怪,最好再确认一下……(找不到问题,绕回来要求用户检查)」
虽然最终问题没有解决,不过整个CoT很有逻辑,我也学到了一些东西。

Deepseek给我的感觉不是这样,它更倾向于对输入进行复述。比如说,它会对我的要求分类汇总,然后写出需要遵从、注意的点,整体就是像是润色和扩写prompt,体现不出逻辑推理本身。(顺带一提,它有时还会不按think的内容回应,就好像无视了think过程。)

举个具体的例子,例子中的真实对话大约有17K tokens,这是一个比较长的上下文。内容关于一个盗贼角色,该角色被设定为喜欢“黑吃黑”,经常在交易时击晕交易对象,这次他要交易的是情报线索。「击晕」在这里实际上是陷阱,由于情报的特殊性,对方被击晕就无法说出情报了。

Deepseek在长上下文中表现出一定的混乱,从think阶段就经常搞混身份(很多模型都有这个毛病)。逻辑上,Deepseek也常常意识不到陷阱(中间重试多次),击晕对方后直接退场的几率很高。相比之下,Gemini几乎可以稳定发挥,在think阶段就能意识到需要先套取情报,再进行击晕,或者直接放弃击晕。

Grok、Qwen几乎不会出错,不过没有think过程,所以无法进一步判断。

二、关于成本

有兴趣的可以先了解一下友商零一万物 的文章,Deepseek用到的大部分的方法其中都有提到,包括MoE的优化,整体算是科普向。

Deepseek首次在超大模型中使用了混合精度,重点是给出了哪里可以省精度,哪里又不能省。这个属于「我的成功可以复制」,是很重要的贡献。

还有一些是不能复制的,比如说Deepseek训练框架,通过很底层的魔改,实现了更高的并行效率。这种魔改已经接近汇编了,独此一家。
题外话,有传言说Deepseek绕过了CUDA直接驱动显卡,这种能力可以立刻迁移到其他硬件,从而打破英伟达的垄断。这个说法是错误的,具体就不展开了。

这次成本很大一块是通过「CoT可以靠GRPO+RL涌现」来缩减。简单点说,就是不需要标注,直接告诉模型答案,但只能解决已知答案的问题,例如 数学问题,而RL达成了泛化(事实上对于没有答案的问题,还是加入了一定的SFT(监督微调))。我对此表示怀疑,目前Huggingface的团队正在尝试复现,可以继续关注。

Deepseek R1的创作能力排行已经超越Claude,表现在它很有趣、很会阴阳,这和语料是分不开的。实际上R1最后还是经过了两轮SFT,这个成本不仅省不了,而且对语料要求还很高。为了突显CoT部分省成本,这个成本被隐藏了。

还有一些推理方面的成本,不算很重点,略去。

三、蒸馏的效果

这里我使用的是Cerebras提供的deepseek-r1-distrill-llama-70B版本。
作为测试,我做了一个非官方接口。具体的部署方式,查看项目主页即可,此处不展开。

我对蒸馏效果的印象是:形似,但继承了各自的问题。

测试文本大约有15K tokens,此时模型大部分时候还保持think(有时会输出<think></think>省略思考),但很大概率会重复用户的话。这种重复几乎就是逐字逐句,整片大段的重复(这是很多模型在长上下文场景中的通病)。
总结就是,蒸馏版既有Deepseek think等于没think的问题,又有Llama 70B重复的毛病。当然,意义是把CoT迁移到小模型,对需要本地部署的人来说比较重要。

四、商业影响

Deepseek最重要影响是引发行业对成本的关注。从投资角度看,Deepseek冲击的是FOMO情绪,利好除了英伟达以外的所有巨头。
为什么说只利好巨头呢?因为从技术角度看,很难带来大规模的成本下降,也谈不上威胁英伟达的地位。要想实现人人有丹炼,短时间内还不太可能。

五、其他

自动Deepseek火了以后,本地部署Deepseek的文章、视频突然冒出来,这类内容大部分介绍的是完整版R1,实际部署的是蒸馏版,有些甚至是7B以下的超小版本。要知道,一个完整版的R1,在Q4精度下,大约需要400G的内存/显存。这种宣传和诈骗有什么区别?如果真的需要迷你模型,这个尺寸有非常多的选择。

我的建议是,个人用户不要尝试自己部署任何版本,真想用就用官方API。或者,用英伟达的NIM接口,每号1000次对话,可以无限注册。