月度归档： 2025 年 2 月

Huggingface行了又不太行

2025 年 2 月 28 日
没有评论

最近一段时间，Huggingface做了一点改动。

Space归类

在Space页面，按Space功能加了一行Icon。因为搜索很烂，所以官方归类一下还是不错的。从靠前的Space可以看到比较不错的项目和模型，或者说就是现阶段最好的模型。我试了下靠前的Background Removal项目，就挺好用。

模型接口变化

Huggingface大概在一个月前，接入了其他模型供应商。官方自己的接口一直都很烂，不但容易掉线，非热门模型撤得也快，基本只能当玩具。接入第三方后，自然稳定很多。

但是，配额暴降。之前是FREE账户限制模型范围，PRO账户有20K/M的调用次数。现在缩水到FREE账户$0.1/M，RPO账户$2/M。
~~我测试了一下，在模型页面右侧的使用Demo也会扣配额。Huggingface没有说具体的计算方式，如果是按调用次数，等于PRO用户砍了九成配额。~~
当然了，也有办法增加配额，我只能说懂的都懂。

更正：Huggingface是按各个服务商的定价按原价转发。

具体的供应商列表在源码的PROVIDER_T里，相应的接口（LLM）：`
https://router.huggingface.co/{:PROVIDER}/v1/chat/completions。

有意思的是，如果是走第三方供应商，一些Huggingface上不存在的模型也是可以调用的。但不是所有接口都可以，Huggingface对每个供应商只实现了部分接口，具体可以看源码中的定义。

修了一个Bug

Space原本是不支持/v1路径的，访问会404，所以作为LLM接口调用必须要多加一层路径（如/hf/v1），现在似乎修好了。

【2025.02】聊聊最近可以角色扮演的模型

2025 年 2 月 7 日
没有评论

有一段时间没推荐过新模型了，这次推荐的主要是长上下文模型，比较适合角色扮演（当然大部分也是通用模型）。

之前模型百花齐放，主要得益于Yi-34B和Qwen-32B的各种微调。现在这些内容有些过时了，所以这期主要是推荐一些云端模型。

这些模型要么没有审核，要么很容易jailbreak，具体就自己发挥吧。

MiniMax-Text-01

海螺AI的开源模型，角色扮演型模型。他们家主要就是做角色扮演的，旗下有个叫星野的APP，用的是一个小号模型。

和Deepseek一样，对个人来说开源了等于没开源，体积太大了。
官方的Demo：点这里，我适配的接口：点这里
要稳定的话自己官网注册账号，1M上下文，输入0.001元/千token，输出0.008元/千token。

这个模型发布后登上了几天Huggingface热门榜，然后就没什么波澜了。官方模型介绍提到「其中每8层中有7个是基于Lightning Attention的线性注意力，有一层是传统的SoftMax注意力」，是不是有点像RWKV？

效果上看：适合角色扮演，但也只适合角色扮演。不要用在需要严谨推理的地方，尤其是不要问数学题。

Doubao-character

豆包专门用于角色扮演的模型，这是一个系列，有Lite和Pro以及最多32K上下文的版本，官方每个版本送500万tokens。
我只是浅浅试了一下jailbreak，几乎没有限制，更多的就没有深入体验。

character版本的低限制应该是有意设计的，普通的Pro版本很难越狱（Lite可以jailbreak，但文本质量差很多）。

Gemini-2.0-Flash

Gemini 2.0 Flash正式版发布了，可能是受股价下跌的刺激，这次来得很突然。正式版模型有1M上下文，限制比任何实验版都要少。这个模型很强，除了扮演也可以干正事。

在最近的审查选项里，除了BLOCK_NONE外还额外新增了一个OFF。在谷歌给的演示中，HARM_CATEGORY_SEXUALLY_EXPLICIT就是OFF，好像是在暗示什么。我不知道两者有什么区别，总之调成OFF后，正式版几乎不会中断输出。

关于Gemini还有两个小新闻。
第一是，实时搜索功能上线了，好像是仅限付费版，要在tool参数里设置。
第二是，API上的思维链被砍了，只能AI Studio里看到思考内容。我不知道谷歌为什么要这么做，而且就在Deepseek R1刚发布后，感觉纯纯有病。

Qwen-2.5-Max

也是在Deepseek发布后紧急上线的模型，能力比Deepseek强。通用能力强，扮演也强，和Gemini一样，可以作为主力，然后就是贵。刚发布时完全被R1的光芒掩盖了，春节后才开始登上榜单。

官方的Demo：点这里，我适配的接口：点这里
要稳定用的话去官网注册吧，应该是送不少tokens，我估计过阵子价格还会降。

deepseek-chat

我测试是可以扮演的，但是因为热度的关系，实在是太卡了，也就没深入测试。R1不适合扮演，莫要强求。

自从Yi-34B发布后，我就有个想法，以后只会有小模型和超大模型开源。
原因是小模型是端侧的玩具，几乎不能拿去卖钱；超大模型用来秀肌肉，开了等于没开，如开；中等体量是真的能用，只会便宜了用户和友商。
不过之后一段时间，Qwen仍在继续更新30-40B的模型，我觉得他们或许也是没什么KPI压力。

随着Deepseek R1的发布，我已经遇到了好几个人和我有同样的想法。在受到商业上的刺激后，不知道阿里还有没有心情做这种「慈善型」的中等体量模型。

再补充下R1蒸馏版的体验

我在之前的文章里说R1蒸馏进Llama 70B后继承了Llama重复的问题，不过话又说回来，后来我又发现R1蒸馏进Qwen-32B后，继承了审查宽松的特性。

目前R1-Qwen-32B可以通过我的这个接口配合自己的HF Token + Model:deepseek-ai/DeepSeek-R1-Distill-Qwen-32B体验。根据HuggingFace的惯例，一旦热度下降就会撤掉部署，估计随时失效吧。

R1-Llama-70B目前可以在Sambanova体验。不过呢，他们很快就要取消免费版了，所以也是随时失效。或者用我的CerebrasUnofficial也行。

蒸馏版纯属娱乐，不推荐自己部署。

对Deepseek R1的看法以及一个蒸馏版接口

2025 年 2 月 3 日
3 条评论

蒸馏版接口 => CerebrasUnofficial

最近Deepseek R1很火，出圈首先是因其成本论述引发英伟达股价下跌而受到关注，之后以其独特的攻击性，再次带动了传播。

我实际体验了一下，说实话，感到一般。

我关注的几个问题：

RL（强化学习）涌现CoT（思维链）？效果如何？
成本削减多大程度可以复制？
蒸馏进Llama后效果怎么样？

一、关于CoT（思维链）

我测试下来，效果和Gemini比，差了很多。Deepseek不像是think，而是在understand。

关于CoT我最先接触的是gemini-2.0-flash-thinking，觉得很有意思。当时我在解决一个网络问题，模型的thinking让我看到了它的回溯过程。
类似这样：「用户遇到了XX问题，XX结果说明XX没有问题，再看XX可以排除是XX问题。这也许是XX问题，但是从XX的结果看，问题应该也不在这里。这个问题很奇怪，最好再确认一下……（找不到问题，绕回来要求用户检查）」
虽然最终问题没有解决，不过整个CoT很有逻辑，我也学到了一些东西。

Deepseek给我的感觉不是这样，它更倾向于对输入进行复述。比如说，它会对我的要求分类汇总，然后写出需要遵从、注意的点，整体就是像是润色和扩写prompt，体现不出逻辑推理本身。（顺带一提，它有时还会不按think的内容回应，就好像无视了think过程。）

举个具体的例子，例子中的真实对话大约有17K tokens，这是一个比较长的上下文。内容关于一个盗贼角色，该角色被设定为喜欢“黑吃黑”，经常在交易时击晕交易对象，这次他要交易的是情报线索。「击晕」在这里实际上是陷阱，由于情报的特殊性，对方被击晕就无法说出情报了。

Deepseek在长上下文中表现出一定的混乱，从think阶段就经常搞混身份（很多模型都有这个毛病）。逻辑上，Deepseek也常常意识不到陷阱（中间重试多次），击晕对方后直接退场的几率很高。相比之下，Gemini几乎可以稳定发挥，在think阶段就能意识到需要先套取情报，再进行击晕，或者直接放弃击晕。

Grok、Qwen几乎不会出错，不过没有think过程，所以无法进一步判断。

二、关于成本

有兴趣的可以先了解一下友商零一万物的文章，Deepseek用到的大部分的方法其中都有提到，包括MoE的优化，整体算是科普向。

Deepseek首次在超大模型中使用了混合精度，重点是给出了哪里可以省精度，哪里又不能省。这个属于「我的成功可以复制」，是很重要的贡献。

还有一些是不能复制的，比如说Deepseek训练框架，通过很底层的魔改，实现了更高的并行效率。这种魔改已经接近汇编了，独此一家。
题外话，有传言说Deepseek绕过了CUDA直接驱动显卡，这种能力可以立刻迁移到其他硬件，从而打破英伟达的垄断。这个说法是错误的，具体就不展开了。

这次成本很大一块是通过「CoT可以靠GRPO+RL涌现」来缩减。简单点说，就是不需要标注，直接告诉模型答案，但只能解决已知答案的问题，例如数学问题，而RL达成了泛化（事实上对于没有答案的问题，还是加入了一定的SFT（监督微调））。我对此表示怀疑，目前Huggingface的团队正在尝试复现，可以继续关注。

Deepseek R1的创作能力排行已经超越Claude，表现在它很有趣、很会阴阳，这和语料是分不开的。实际上R1最后还是经过了两轮SFT，这个成本不仅省不了，而且对语料要求还很高。为了突显CoT部分省成本，这个成本被隐藏了。

还有一些推理方面的成本，不算很重点，略去。

三、蒸馏的效果

这里我使用的是Cerebras提供的deepseek-r1-distrill-llama-70B版本。
作为测试，我做了一个非官方接口。具体的部署方式，查看项目主页即可，此处不展开。

我对蒸馏效果的印象是：形似，但继承了各自的问题。

测试文本大约有15K tokens，此时模型大部分时候还保持think（有时会输出<think></think>省略思考），但很大概率会重复用户的话。这种重复几乎就是逐字逐句，整片大段的重复（这是很多模型在长上下文场景中的通病）。
总结就是，蒸馏版既有Deepseek think等于没think的问题，又有Llama 70B重复的毛病。当然，意义是把CoT迁移到小模型，对需要本地部署的人来说比较重要。

四、商业影响

Deepseek最重要影响是引发行业对成本的关注。从投资角度看，Deepseek冲击的是FOMO情绪，利好除了英伟达以外的所有巨头。
为什么说只利好巨头呢？因为从技术角度看，很难带来大规模的成本下降，也谈不上威胁英伟达的地位。要想实现人人有丹炼，短时间内还不太可能。

五、其他

自动Deepseek火了以后，本地部署Deepseek的文章、视频突然冒出来，这类内容大部分介绍的是完整版R1，实际部署的是蒸馏版，有些甚至是7B以下的超小版本。要知道，一个完整版的R1，在Q4精度下，大约需要400G的内存/显存。这种宣传和诈骗有什么区别？如果真的需要迷你模型，这个尺寸有非常多的选择。

我的建议是，个人用户不要尝试自己部署任何版本，真想用就用官方API。或者，用英伟达的NIM接口，每号1000次对话，可以无限注册。