躺平.赢 – 第 5 页

在Colab上量化llama模型并发布

2023 年 11 月 22 日
没有评论

本文主要介绍如何使用 Colab 从在 Hugging Face 上拉取模型，经 llama.cpp 量化，再发布到 Hugging Face。
假定已经注册了 HuggingFace，并已经生成了具备 write 权限的 API Token。

以下例子用到的模型是 zxbsmk/NSFW_13B_sft。这是一个基于百川的 Uncensored 模型，需要权限才能抓取，所以需要先注册 Hugging Face 并准备相应权限的 API Token。

clone llama.cpp，然后编译出量化用的 bin

%cd /content
!git clone https://github.com/ggerganov/llama.cpp
%cd llama.cpp
!mkdir build
%cd build
!apt install cmake
!cmake ..
!cmake --build . --config Release

通过脚本拉取模型，官方的有点慢，这里使用第三方的脚本

%cd /content
!apt -y install -qq aria2
!wget https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f/raw/5542d6c7ea6544b296dfcec770a74c74c5c01325/hfd.sh
!bash /content/hfd.sh zxbsmk/NSFW_13B_sft --tool aria2c -x 4 --hf_username ?USERNAME? --hf_token ?hf_API-TOKEN?

准备修改过的转换脚本，有两处改动。第一是 KerfuffleV2 提供的 --pad_vocab 参数，用于修正 vocab mismatch 错误；第二是修正部分模型需要从 config.json 中读取 model_max_length 作为 n_ctx。

!pip install sentencepiece
%cd /content
# download a patched converter.py
!wget https://pastebin.com/raw/bedgE0Px -O ./llama.cpp/convert.py
!python ./llama.cpp/convert.py --padvocab --outtype f16 ./NSFW_13B_sft/ #default name:ggml-model-f16.gguf

开始量化。Colab 大约能提供 108G 的硬盘，量化完一个模型大约需要 90G 或更多，所以只能分批量化。根据 TheBloke 推荐，Q4_K_M、Q5_K_S、Q5_K_M 性价比较高。

%cd /content
%cd NSFW_13B_sft
!../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q4_K_M.gguf Q4_K_M
# !../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q5_K_S.gguf Q5_K_S
# !../llama.cpp/build/bin/quantize ./ggml-model-f16.gguf ./nsfw-13b-sft.Q5_K_M.gguf Q5_K_M

去 Hugging Face 上新建模型，假设名称为NSFW_13B_sft-GGUF。清理目录，clone 所有非模型文件。

%cd /content
%rm -rf ./NSFW_13B_sft-GGUF
!GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/?USERNAME?/NSFW_13B_sft-GGUF
%cd NSFW_13B_sft-GGUF
!huggingface-cli lfs-enable-largefiles .

将量化后的模型移到目录中。

%cd /content
!mv ./NSFW_13B_sft/nsfw-13b-sft.Q4_K_M.gguf ./NSFW_13B_sft-GGUF/
!ls ./NSFW_13B_sft-GGUF

正式发布模型。git push 可能会提示找不到用户名，借用 expect 可以顺利上传，密码是 API Token（注意要有 write 权限），可能需要输入两遍用户名密码。

%cd /content
%cd ./NSFW_13B_sft-GGUF
!git lfs track "*.gguf"
!git config --global user.email "?EMAIL?"
!git config --global user.name "?USERNAME?"
!git add .
!git commit -m "GGUF model commit (made with llama.cpp)"
# !git push
!apt install expect
context = """
spawn git push
interact
"""
with open("/content/push.txt", "w") as f:
    f.write(context)
!expect /content/push.txt

重复步骤：5 清空目录 → 4 量化另一个精度 → 6 & 7 再重新移动文件、上传。

*注1：如需使用 API 登录，可使用单行命令
!python -c "from huggingface_hub.hf_api import HfFolder; HfFolder.save_token('?hf_API-TOKEN?')"

注2：Kaggle push 大文件有问题，可以使用官方 API 上传，但文件必须 <5G。详情见官方文档。

注3：国内有很多非标的 llama 模型，如 01-ai/Yi、vivo-ai/BlueLM，无法直接转换，或需要用到各种奇怪的技巧甚至修改推理代码，还有一些模型如 chatglm3，转换后无法加载，原因未知。

一些中文LLM的试用体验

2023 年 11 月 3 日
5 条评论

（2024.01）本文已过时，请参考：《【2024.01】目前好用的大语言模型以及部署情况》

之前在玩 Colab 和 Stable Diffusion，所以自然而然，也会进一步拓展到 LLM 领域。

说到底，我不算技术人员，甚至连炼丹师都算不上。以下内容不涉及什么具体的模型训练或者部署，只是结合试用和一些搜索到的资料，谈谈感受，没什么技术含量。

首先是个人应用方向，主要是 LocalLLM。从应用的角度来讲，公开的 OpenAI api、Bing、Bard、Claude 已经完全够用了，只有专业内容需要微调或者“非道德”内容才需要私人模型。

这里我主要关注 ~13B 或以下模型，原因是量化后能够在 Colab 上跑，根据 Steam 的统计，目前最主流的显卡还是 3060、2060、1060，分别对应 12G、12G、6G VRAM，也就是能跑 ~13B、~13B、~7B 模型。所以 ~13B 比较具有现实意义。

路径一：直接上中文模型

先来看几个 LeaderBoard：OpenCompass、C-Eval、HF-zh_models

可以看到，公开的模型中，能力比较强的有阿里的 Qwen-14B 和清华的 ChatGLM3-6B。
其中，Qwen-14B 有个变体版本：CausalLM-14B。这个模型使用了 Qwen-14B 的权重，加入一些其他数据集，最终搓了一个无审核的版本，经过量化后刚刚好可以在 Colab 上运行。
CausalLM 的表现实在过于优秀，所以截图不便放出。

ChatGLM3-6B 是 62 亿参数蒸馏+量化后 6G VRAM 就能跑，很有潜力，但可能不是未来。

还有一些模型，诸如商汤的 SkyWork-13B，vivo 的 BlueLM-7B，也在 trending 上，不过还有待更多验证。

路径二：用英文模型+LoRA

（2024/01）纠正：早期我理解 LoRA 是一个万能插件，实际上是错误的。应该说这个方案是在英文模型上用中文数据集再训练。现在靠这个方法汉化的好像不多见了，因为已经有了比较好的中文大模型基底。

第一条路其实已经足够好了，但还有其他选择。

第二条路是英文模型+LoRA，我试了下 Chinese-Wizard-Vicuna-13B-GPTQ，这是一个使用了来自科大讯飞 Chinese-LLaMA-Alpaca 的模型，总体效果还不错。能输出流畅的中文，但不如原生接地气。

⚠NSFW 点击查看测试结果

以下是我对 Uncensored 的测试，其实还是用了一些 Jailbreak Prompt
![](https://img.liedown.win/blog/2023/11-965f742dcebad9a74505db4d9d0c0705.png)

　
创作能力大概强于 ChatGPT 3.5，和 Claude-Slack 持平。这效果已经非常不错了，再回头看 CausalLM 就能理解为什么不便放出，因为太过逆天。

如果单看 Chinese-LLaMA-Alpaca，评分并不算很好，但作为一个 LoRA，配合会中文（但中文不太好）的英文模型，效果就很不错。此外，我测试用的是一期模型，现在 Chinese-LLaMA-Alpaca 已经有了二代，扩展了词表，相信效果会更好。

同理，相信 UltraLM、Nous-Hermes、Pygmalion、Mistral 等模型加 LoRA 效果也会不错。我比较好奇的是，如果这个 LoRA 和 MLewd 结合会不会变得逆天。

这里再提两个 LoRA：
一是 Llama2-Chinese，号称“最好的中文Llama大模型”，我试下来实际效果不太好。
二是 SuperHOT，一个专注于 NSFW 的 LoRA。一些英文 Uncensored 模型（例如之前的 Wizard-Vicuna-13B-Uncensored-HF）在加入中文 LoRA 后会出现轻微的 Censored 迹象，可能可以通过这个 LoRA 纠正。

路径三：RWKV+Finetune

由于 Transformer 对内存的需求是二次方增长的，而 RWKV 对内存的需求只有 O(1)，这对于本地多轮对话至关重要。

RWKV 发展神速，我在写这篇文章的时候已经有 V5 占位了，其中一个值得关注的微调模型是 LocalNSFW/RWKV-Claude。从名字就能看出是干什么的，介绍是“项目的初心是，摆脱大公司的控制，建立所有人都能涩涩的本地大语言模型。”

这个模型的参数为 7B，数据来自用户贡献的和 Claude-Slack 的对话，可以归结为通过 Claude 蒸馏的 RPG 垂直模型。这类模型在各垂直领域都比较多。

结论：

目前，在免费部署的前提下，Causal-14B 是最好的，Colab 或者 3060 都能跑。如果要在本地部署，VRAM 又比较紧张，那么通用模型选 ChatGLM3-6B，专注于涩涩用 RWKV-Claude。
我认为 RWKV 的潜力最大，尤其是在这个 VRAM 遇到严重瓶颈的时代。

英文模型+LoRA 的情况目前只能算是备选中的备选，通常中文模型本身就支持英文，而且英文不差。除非未来英文模型超越中文模型太多，这套方案才有可能成为首选。多语言模型直接融合可能是更普遍的做法。

给Kaggle上个终端

2023 年 10 月 29 日
没有评论

借助 code-server 和 ngrok 给 Kaggle 上个在线版的终端，这样修改文件就很方便。

Notebook：

!curl -fsSL https://code-server.dev/install.sh | sh
!pip install pyngrok
!ngrok config add-authtoken ?authtoken_here?

# run the cell then stop it if you want to generate the password
# there is no password for default
# !code-server

!sed -i.bak 's/auth: password/auth: none/' ~/.config/code-server/config.yaml
# !cat /root/.config/code-server/config.yaml | grep password

import subprocess
def iframe_thread():
    p = subprocess.Popen(["code-server"], stdout=subprocess.PIPE)

from threading import Thread
Thread(target=iframe_thread, daemon=True).start()

!ngrok http --domain=?your_ngrok_domain? 8080

Kaggle 好像不允许直接 ssh 连接，在线终端应该没事？

缺少 so 文件直接删除 conda 里的即可，系统一般是正常的，conda 比较残废罢了。

可能用蚁剑管理也可以，不过暂时 cs 够用了，先凑合一下。

（更新）一个简单的多线程消费者示例

2023 年 10 月 23 日
python
没有评论

更新：修改了一些容易卡锁的细节

一条简单的笔记。

需求：我有一批获取的 IP，要一一验证可用性。

一个个验证太慢了，需要使用多线程。
ChatGPT 给出的方法是，先用//分割文本，然后每个线程处理相等数量的 IP。但是，这个方法预分配了所有条目，总有线程特别慢，迟迟难以收尾。

之前写了一个简单的多消费者模型。先把文本全部读进列表，增加一个行计数器。每个线程一次只分配一条数据，在取任何数据前，先将计数器+1，代表对应行已被分配。处理完了再分配下一条数据。
不过，代码很奇怪，我决定用 queue 再重写一下。

以下是一个修改后的通用实现，附带一个简单的进度条。

from os import _exit
from time import sleep
from queue import Queue
from threading import Thread
from signal import signal, SIGINT
from dataclasses import dataclass
from time import time, strftime, gmtime

def consume(queue):
    while not queue.empty():
        item = queue.get()

        ''' do something here '''
        sleep(0.1)
        ''' do something here '''

        queue.task_done()

@dataclass
class QProgress:
    ''' a wget-like progress bar '''
    queue: Queue
    qsize: int = 0 # queue.qsize() by default
    width: int = 50 # characters of progress bar

    alive = True

    def interrupt(self):
        self.alive = False

    def show(self):
        data_size = max(self.queue.qsize(), self.qsize)
        start_time, showing_count= time(), 0
        while self.alive and showing_count < data_size:
            showing_count = data_size-self.queue.qsize()
            per = showing_count/data_size
            print(''.join([f"\r{('%.2f'%(per*100)).rjust(6,' ')}%[",
                f"{'='*int(per*self.width-1)}>".ljust(self.width,' '),
                f"] {showing_count}/{data_size} ",
                strftime('%H:%M:%S', gmtime(time()-start_time))]),
                end='', flush=True)

        if self.alive:
            print('', 'Done', sep='\n')

if __name__ == "__main__":

    queue = Queue()

    # 假定一些已生产的数据
    data_size = 6661
    [queue.put(i) for i in range(data_size)]

    # 进度条，启动！
    qprogress= QProgress(queue)
    Thread(target=qprogress.show, daemon=True).start()

    # 消费者们，启动！
    num_consumers = 661

    threads = [Thread(target=consume, args=(queue,), daemon=True)
        for _ in range(num_consumers)]
    [t.start() for t in threads]

    # 配合 daemon 响应 Ctrl+C
    def signal_handler(signal, frame):
        qprogress.interrupt()
        print('', 'Interrupted', sep='\n')
        _exit(0)

    signal(SIGINT,signal_handler)

    while any(t.is_alive() for t in threads):
        sleep(0)

一种基于终端输出的数据传输方式

2023 年 10 月 19 日
没有评论

哦，就是 base64 嘛。

最近 scaleway 服务很不稳定，终有一天它失联了。
根据以前的经验，一般是机器重启，需要去网页 TTY 重置下网络。

登录后，scaleway 问我，新的网络上线，更快更好，要不要一键 auto migrant？
一手贱，然后就双向失联了。具体表现为什么都 ping 不通，没有任何公网地址，连 apt update 也无法运行，通过 scw 分配 IP 也救不活。
此时 sacleway 后台弹出马后炮提示：您的套餐迁移时如果分配了静态 IP，需要先升级 blablabla，否则就会丢失网络连接。怎么救，没说。

这台服务器主要运行了这个博客，尽管文章在本地都有备份，但还是想着先抢救一下数据库。
我使用的是 sqlite 数据库，就一个/wp-content/database/.ht.sqlite文件。

抢救一下

网络彻底失联的情况下，我和这台机器唯一的交互手段就只有后台提供的网页版的 TTY。于是，只能靠屏幕输出了。

具体而言的话：

f=".ht.sqlite";
zip -9 -q f "$f";
base64 -w0 f.zip;echo "";

将输出保存到文件，从另一台机器

base64 -d save.txt > f.zip

进一步压缩

之前是针对空白系统的抢救办法。由于屏幕的输出空间很有限，结合一些工具的话，可以进一步缩减体积。

apt-get install sqlite3 p7zip-full python3-pip
pip install base2048

f=".ht.sqlite";
sqlite3 $f 'VACUUM;';
:<<eof
- or dump to sql -
sqlite3 $f .dump > dump.sql; f="dump.sql"; 
eof
7z a -bso0 -mx -myx -mmt=off -ms=on -mtm=off -mtc=off -mta=off -m0=LZMA:d=384m:fb=273:lc=4 -mmc=1000000000 f $f;
python3 -c "print(__import__('base2048').encode(open('f.7z','rb').read()))";

等待 TTY 狂暴输出。

这块截图大约是 10KB 的数据

其实还有更壮观的 base65536，输出的都是形似汉字的字符，但复制时可能会造成数据错乱。另一方面，base2048 屏幕输出占一个 ASCII 码的宽度，能容纳 2 个 ASCII 码的数据，而 base65536 占 2 个 ASCII 码的宽度，能容纳 3 个 ASCII 码的数据，压缩比提升不大且异常卡顿，实测还是 base2048 好。

恢复数据：将 TTY 打印的内容放入 2048.txt，然后恢复到 2048.7z。
其中明文数据大约是解码数据的 1.8 倍。

import base2048

with open('2048.txt', 'r',encoding='utf-8') as file:
    encoded_data = file.read()

decoded_data = base2048.decode(encoded_data)

with open('2048.7z', 'wb') as output_file:
    output_file.write(decoded_data)

Stable Diffusion inpaint扩图半成功

2023 年 10 月 16 日
Stable Diffusion
1 条评论

PS 的 AI 试用到期，于是尝试使用 SD 平替。

使用 inpaint only+lama 进行扩图。预览时还好好的，最后一步失败。
填充内容全部变成横条，原因未知。

如果先把原图本地扩大，再通过 SD 涂抹空白区域进行填充，倒是可以正常运行。
以下是 SD 生成的效果图。

搜了一些教程，发现教程里的 UI 在局部填充的地方和我的略有区别，但不清楚具体影响。

这是一只猫

2023 年 10 月 12 日
没有评论

最近收到个推送《为什么英短猫弃养率这么高》，文章说 70% 的人后悔养英短，接着细数了英短多条罪状。

我也有一只蓝白，是朋友送的。

精神的时候她长这样。

没睡醒的时候她长这样。

有人说英短心眼特小，报复心特强，我家的猫好像从来不记仇。

还有人说英短发情期会喵喵叫。我想所有猫都会这样。
不过我家的猫即使是发情期也不会随地大小便。
后来给她做了绝育，除了求猫条，平时都是哑巴了。

至于英短贪吃过于肥胖的问题，我是更加没遇到。我的猫明明一直好好吃饭，但就是长不胖，让我很苦恼。

文章最后说英短掉毛厉害。我想短毛猫都掉毛厉害，美短也是一样的。
比起长毛猫打理费劲，无毛猫洗澡麻烦，短毛猫已经很不错了。

我每天和猫贴贴的时候就会给她梳梳毛，也不是很麻烦。

这只猫不算很好看，但性格真的棒。
她很少咬人或抓人，也从来不会把东西弄在地上，还可以随便揉肚子。
猫的性格应该是随爸遗传的，这些都没有专门训练过。

2022 年封控前的一段时间，我压力非常大，是这只猫陪我度过了那段抑郁的日子。

她是一只小天使。她还有一个很霸气的名字，但现在已经退化成咪咪了（笑

我的看法：7z为什么不如RAR流行？

2023 年 10 月 11 日
没有评论

2014 年，有人在知乎提了个问题：为什么直到现在 RAR 仍然比 7z 更流行？这个问题陆陆续续一直有人回答，直到今天，RAR 在商业上仍然比 7z 更加流行。

这个问题有很多角度，每个时期的答案也非常不同。这个时代版本的答案是，用户只需要一个打包工具，根本不关心压缩率，7z 最核心的竞争力荡然无存。

我有一个更简洁的回答，即 7z 是面向后端开发的，而不是消费者。
它虽然诞生自 Windows 平台，但它使用的是 Linux 的那套方法论，这就是它难以普及的根本原因。

Linux 的设计哲学是，所有工具都专心做自己的事，然而专一的同时，对商业化非常不友好。
7z 的功能是丑陋的，它拥有 Linux 软件的通病，即：开箱即用的默认配置不合理，无法第一时间满足用户关注的需求。明明它可以做到，但它会把一大堆参数丢给用户。比如，不看说明，有多少人知道 2021 年前 7z 要加入 cu 参数才能保证 zip 不乱码？
如果一定要类比的话，7z 可能是压缩解压界的 ffmpeg，相信没人会问出 为什么 ffplay 不如快播流行 这种鬼话。

相比 tar.gz，7z 还是做到了打包压缩一体化，但这仅仅是做到了不反人类，还远远不够。RAR 支持一步解压 tar.gz、支持分卷、支持注释、支持恢复记录、支持添加到 Email、支持记住密码、扫描病毒等等。很多功能功能是过时的、臃肿的，但是可以看出来，真正优秀的商业软件是如何在每个时代，去迎合用户的需求。反观 7z，只是能用，但不好用。

话又说回来，7z.exe 是不好用，但 7z.dll 又不同。一些软件经过 7z.dll 套壳后问世，功能界面几乎完全复刻 WinRAR，然后就好用了。这进一步说明，7z 是面向开发者和后端设计的。
很多软件爱好者会说，这些套壳软件是带广告的流氓软件，有些甚至是强行安装的。但市场已经证明，用户不在乎广告。RAR 弹一个试用过期，和这些软件弹一个广告，对普通用户来说有什么区别呢？用户只是想要一个解压软件，一个不需要说明书就能用好的软件，一个不太反人类、至少压缩 zip 文件名不会乱码的软件。如果一个用户的知识水平达到了认识 7z，他大概率会选择用 RAR，或者某些不带广告的 7z 套壳。

可悲的是，如今，7z 连后端的流行度也难保。尽管企业仍有压缩的需求，但已经不如早期那么极端。而且企业大部分的压缩需求源于流量昂贵，数据更多是为了传输后立刻解包的，而不是为了冷备份。能够顺序读并解压的 zip、效率更高的 zstd，又或者是 webp/webm 这种为浏览器而生的格式，才是贴近时代的解决方案。

我可能还是会用 7z 的命令行做一些极限压缩，或许只是因为好玩，但也仅限于小体积的打包。7z 只能用于个人分享，反正解压它不是难事，但是商业交付，7z 绝对不是什么好选项。不想和用户啰嗦的话，zip 是唯一正解。
最后，做商业产品，一定不要学 7z。

给网站加上“原生”的文件直链（踩坑）

2023 年 10 月 7 日
没有评论

最近存在一些文件分享需求，我希望它符合以下要求：

链接长期有效，即使文件失效再补也能保持原链接
不要出现过度限速问题
不要存在我的服务器上，我的磁盘很有限
不要暴露任何与文件本身无关的信息

一些尝试

首先我尝试把文件存在 Github 的 release 上，因为 release 不限制带宽，也是官方推荐的分发方式。不过，release 的文件链接会包括上传者和 repo 名，我不希望它出现。

Github release 的链接和 raw 不同，会 302 到 objects 子域，无法直接 rewrite。我试图用 CF workers 代理这部分流量，发现在 workers.dev 下可以工作，但绑定自定义域名后就会出现 52x 错误。后来我在 CF workers 社区中找到了相关讨论，这是个历史遗留问题，答案就是 CF 的限制（或 Bug？）
如果再试图用 worker A 通过域名访问 worker B 来绕过，会显示两者无法连通。
回头看目前基于 CF 的 Github 代理，就能发现大家都是通过加一层外部 proxy 绕过这个限制。

也就是说想要自定义域名代理 Github release 文件的话，无论如何都必须引入 CF 外的服务。

换个方案

在服务器上 fetch() 并传递给 CF 自然是可行的，不过事已至此，我决定换 AList 挂载网盘。

最终我选了 mega 网盘。挂载这个网盘只需要用户名和密码，不涉及 token、私有 API、Cookie，不需考虑过期更新的问题，也没有限速问题，非常符合开头提到的要求。

具体而言，我将 down 子域指向我的 AList 服务器并反代，然后将直链中的 /[d|p]/files/<挂载目录> 通过 Transform Rules 去掉。

根据 CF 的文档，缓存单文件最大 100M，Page Rule 中设置最长可缓存 14 天，除了耗费一点回源流量，基本没什么消耗。

最终效果：https://down.liedown.win/Tinify-mod.zip

修复 TinyPNG GUI 应用

2023 年 9 月 30 日
没有评论

腾讯 TGideas 和 LOL 前端重构规范中，曾经有一个 TinyPNG GUI 工具，它调用网页版的 shrink 而非 API 批量压缩图片。不过在这些页面中，工具的下载链接已失效。

该工具由 Adobe Air 开发，尽管技术过时，但本身仍非常好用。然而，今年四月起，因官网接口改变，该工具彻底无法工作。

研究后发现，尽管官网本身已不再使用默认使用 shrink 接口，但仍保留了这个方法，只是修改了路径。新的接口是 /backend/opt/shrink。我修改了该工具的 bin，使其可以重新工作，并做了一点补充。

你可以 > 点此下载修改后的版本

TinyPNG mod screenshot

修改详情：

替换了新的 API
将版本号 TinyPNG 1.0.0 修改为 TinyPNG mod 1.0.1
跟随官方增加了 webp 格式支持，补全了 jpeg 格式
去除了启动 Logo，直接进入程序
将 About 中的二维码图片修改为官方吉祥物熊猫
将程序图标从恐怖片截图改为了官方吉祥物熊猫
一点体积上的优化

如果你对 mod 本身有兴趣，仍可以通过某些网站下载到原版，并通过 jpexs-decompiler 和 RisohEditor对比具体的改动。