月度归档： 2023 年 11 月

与Colab交互的一些姿势

2023 年 11 月 25 日
没有评论

Colab 使用 cell 控制有诸多不便，为了方便交互和监控资源，研究了一下通过终端交互的方式。

管理 Colab

【弃用】方案 1：通过 webshell… 对，就是木马当管理器用。

!apt install php
!nohup php -S localhost:8000 > /dev/null &
!echo '<?php @eval($_POST["shell"]);?>' > connect.php
# 然后用 ngrok（我一开始就是这样修改文件的）

结论：不会被制裁。体验一言难尽，蛋疼。

【弃用】方案 2：使用 `tmate`

!apt install tmate
!tmate
# 自动分配外网地址

结论：一般不会被制裁。比没有强，像 tmux 那样操作。

【在用】方案 3：使用正经 `ssh`

!echo $($(echo "pip install colab""_ssh --upgrade"))
from colab_ssh import launch_ssh_cloudflared, init_git_cloudflared
launch_ssh_cloudflared(password="X")

结论：直接安装 colab_ssh 会有警告，虽然能绕过但制不制裁看官方心情。体验很爽。

方案 3 解释

这个方案需要本地下载一个 cloudflared，具体的 vscode 配置可以参考>这篇教程

作者给了一个修改本地 .ssh/config 的方案，实际上也可以在本地端口监听，像这样：
cloudflared.exe access tcp --listener localhost:2222 --hostname sub.trycloudflare.com

这样各种 ssh 客户端，如 Xshell，也可以通过连接 localhost:2222 来访问 colab

结论

Colab 虽然限制 ssh，但并不是特别严格，还是可以变相使用。不过，Colab 似乎不支持 websocket，所以诸如 ttyd、code-server 等基于网页的终端无法使用。
Kaggle 严格限制 ssh，用了直接封号。不过，Kaggle 支持 websocket，所以可以使用 code-server。
以上就是在两者直接使用终端交互的方式。

最后，连接时最好检查一下本地防火墙。如果火绒处于免打扰模式，很可能会自动拦截 ssh 或者 cloudflared。

参考

- vscode连接Google colab
- cloudflare-tunnel-to-colab.ipynb
- Quick Tunnels · Cloudflare Zero Trust docs
- Arbitrary TCP · Cloudflare Zero Trust docs
- How can I prevent Google Colab from disconnecting?

在Colab上量化llama模型并发布

2023 年 11 月 22 日
没有评论

本文主要介绍如何使用 Colab 从在 Hugging Face 上拉取模型，经 llama.cpp 量化，再发布到 Hugging Face。
假定已经注册了 HuggingFace，并已经生成了具备 write 权限的 API Token。

以下例子用到的模型是 zxbsmk/NSFW_13B_sft。这是一个基于百川的 Uncensored 模型，需要权限才能抓取，所以需要先注册 Hugging Face 并准备相应权限的 API Token。

clone llama.cpp，然后编译出量化用的 bin

%cd /content
!git clone https://github.com/ggerganov/llama.cpp
%cd llama.cpp
!mkdir build
%cd build
!apt install cmake
!cmake ..
!cmake --build . --config Release

通过脚本拉取模型，官方的有点慢，这里使用第三方的脚本

%cd /content
!apt -y install -qq aria2
!wget https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f/raw/5542d6c7ea6544b296dfcec770a74c74c5c01325/hfd.sh
!bash /content/hfd.sh zxbsmk/NSFW_13B_sft --tool aria2c -x 4 --hf_username ?USERNAME? --hf_token ?hf_API-TOKEN?

准备修改过的转换脚本，有两处改动。第一是 KerfuffleV2 提供的 --pad_vocab 参数，用于修正 vocab mismatch 错误；第二是修正部分模型需要从 config.json 中读取 model_max_length 作为 n_ctx。

!pip install sentencepiece
%cd /content
# download a patched converter.py
!wget https://pastebin.com/raw/bedgE0Px -O ./llama.cpp/convert.py
!python ./llama.cpp/convert.py --padvocab --outtype f16 ./NSFW_13B_sft/ #default name:ggml-model-f16.gguf

开始量化。Colab 大约能提供 108G 的硬盘，量化完一个模型大约需要 90G 或更多，所以只能分批量化。根据 TheBloke 推荐，Q4_K_M、Q5_K_S、Q5_K_M 性价比较高。

%cd /content
%cd NSFW_13B_sft
!../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q4_K_M.gguf Q4_K_M
# !../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q5_K_S.gguf Q5_K_S
# !../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q5_K_M.gguf Q5_K_M

去 Hugging Face 上新建模型，假设名称为NSFW_13B_sft-GGUF。清理目录，clone 所有非模型文件。

%cd /content
%rm -rf ./NSFW_13B_sft-GGUF
!GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/?USERNAME?/NSFW_13B_sft-GGUF
%cd NSFW_13B_sft-GGUF
!huggingface-cli lfs-enable-largefiles .

将量化后的模型移到目录中。

%cd /content
!mv ./NSFW_13B_sft/nsfw-13b-sft.Q4_K_M.gguf ./NSFW_13B_sft-GGUF/
!ls ./NSFW_13B_sft-GGUF

正式发布模型。git push 可能会提示找不到用户名，借用 expect 可以顺利上传，密码是 API Token（注意要有 write 权限），可能需要输入两遍用户名密码。

%cd /content
%cd ./NSFW_13B_sft-GGUF
!git lfs track "*.gguf"
!git config --global user.email "?EMAIL?"
!git config --global user.name "?USERNAME?"
!git add .
!git commit -m "GGUF model commit (made with llama.cpp)"
# !git push
!apt install expect
context = """
spawn git push
interact
"""
with open("/content/push.txt", "w") as f:
    f.write(context)
!expect /content/push.txt

重复步骤：5 清空目录 → 4 量化另一个精度 → 6 & 7 再重新移动文件、上传。

*注1：如需使用 API 登录，可使用单行命令
!python -c "from huggingface_hub.hf_api import HfFolder; HfFolder.save_token('?hf_API-TOKEN?')"

注2：Kaggle push 大文件有问题，可以使用官方 API 上传，但文件必须 <5G。详情见官方文档。

注3：国内有很多非标的 llama 模型，如 01-ai/Yi、vivo-ai/BlueLM，无法直接转换，或需要用到各种奇怪的技巧甚至修改推理代码，还有一些模型如 chatglm3，转换后无法加载，原因未知。

一些中文LLM的试用体验

2023 年 11 月 3 日
5 条评论

（2024.01）本文已过时，请参考：《【2024.01】目前好用的大语言模型以及部署情况》

之前在玩 Colab 和 Stable Diffusion，所以自然而然，也会进一步拓展到 LLM 领域。

说到底，我不算技术人员，甚至连炼丹师都算不上。以下内容不涉及什么具体的模型训练或者部署，只是结合试用和一些搜索到的资料，谈谈感受，没什么技术含量。

首先是个人应用方向，主要是 LocalLLM。从应用的角度来讲，公开的 OpenAI api、Bing、Bard、Claude 已经完全够用了，只有专业内容需要微调或者“非道德”内容才需要私人模型。

这里我主要关注 ~13B 或以下模型，原因是量化后能够在 Colab 上跑，根据 Steam 的统计，目前最主流的显卡还是 3060、2060、1060，分别对应 12G、12G、6G VRAM，也就是能跑 ~13B、~13B、~7B 模型。所以 ~13B 比较具有现实意义。

路径一：直接上中文模型

先来看几个 LeaderBoard：OpenCompass、C-Eval、HF-zh_models

可以看到，公开的模型中，能力比较强的有阿里的 Qwen-14B 和清华的 ChatGLM3-6B。
其中，Qwen-14B 有个变体版本：CausalLM-14B。这个模型使用了 Qwen-14B 的权重，加入一些其他数据集，最终搓了一个无审核的版本，经过量化后刚刚好可以在 Colab 上运行。
CausalLM 的表现实在过于优秀，所以截图不便放出。

ChatGLM3-6B 是 62 亿参数蒸馏+量化后 6G VRAM 就能跑，很有潜力，但可能不是未来。

还有一些模型，诸如商汤的 SkyWork-13B，vivo 的 BlueLM-7B，也在 trending 上，不过还有待更多验证。

路径二：用英文模型+LoRA

（2024/01）纠正：早期我理解 LoRA 是一个万能插件，实际上是错误的。应该说这个方案是在英文模型上用中文数据集再训练。现在靠这个方法汉化的好像不多见了，因为已经有了比较好的中文大模型基底。

第一条路其实已经足够好了，但还有其他选择。

第二条路是英文模型+LoRA，我试了下 Chinese-Wizard-Vicuna-13B-GPTQ，这是一个使用了来自科大讯飞 Chinese-LLaMA-Alpaca 的模型，总体效果还不错。能输出流畅的中文，但不如原生接地气。

⚠NSFW 点击查看测试结果

以下是我对 Uncensored 的测试，其实还是用了一些 Jailbreak Prompt
![](https://img.liedown.win/blog/2023/11-965f742dcebad9a74505db4d9d0c0705.png)

　
创作能力大概强于 ChatGPT 3.5，和 Claude-Slack 持平。这效果已经非常不错了，再回头看 CausalLM 就能理解为什么不便放出，因为太过逆天。

如果单看 Chinese-LLaMA-Alpaca，评分并不算很好，但作为一个 LoRA，配合会中文（但中文不太好）的英文模型，效果就很不错。此外，我测试用的是一期模型，现在 Chinese-LLaMA-Alpaca 已经有了二代，扩展了词表，相信效果会更好。

同理，相信 UltraLM、Nous-Hermes、Pygmalion、Mistral 等模型加 LoRA 效果也会不错。我比较好奇的是，如果这个 LoRA 和 MLewd 结合会不会变得逆天。

这里再提两个 LoRA：
一是 Llama2-Chinese，号称“最好的中文Llama大模型”，我试下来实际效果不太好。
二是 SuperHOT，一个专注于 NSFW 的 LoRA。一些英文 Uncensored 模型（例如之前的 Wizard-Vicuna-13B-Uncensored-HF）在加入中文 LoRA 后会出现轻微的 Censored 迹象，可能可以通过这个 LoRA 纠正。

路径三：RWKV+Finetune

由于 Transformer 对内存的需求是二次方增长的，而 RWKV 对内存的需求只有 O(1)，这对于本地多轮对话至关重要。

RWKV 发展神速，我在写这篇文章的时候已经有 V5 占位了，其中一个值得关注的微调模型是 LocalNSFW/RWKV-Claude。从名字就能看出是干什么的，介绍是“项目的初心是，摆脱大公司的控制，建立所有人都能涩涩的本地大语言模型。”

这个模型的参数为 7B，数据来自用户贡献的和 Claude-Slack 的对话，可以归结为通过 Claude 蒸馏的 RPG 垂直模型。这类模型在各垂直领域都比较多。

结论：

目前，在免费部署的前提下，Causal-14B 是最好的，Colab 或者 3060 都能跑。如果要在本地部署，VRAM 又比较紧张，那么通用模型选 ChatGLM3-6B，专注于涩涩用 RWKV-Claude。
我认为 RWKV 的潜力最大，尤其是在这个 VRAM 遇到严重瓶颈的时代。

英文模型+LoRA 的情况目前只能算是备选中的备选，通常中文模型本身就支持英文，而且英文不差。除非未来英文模型超越中文模型太多，这套方案才有可能成为首选。多语言模型直接融合可能是更普遍的做法。