RLHF 什么是 RLHF?基于人类反馈的强化学习(RLHF)是一种机器学习(ML)技术,它利用人类反馈来优化 ML 模型,从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策,使其结果更加准确。RLHF 将人类反馈纳入奖励功能,因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。 RLHF流程 数据收集 监督微调 SFT 构建单独的奖励模型 使用基于奖励的模型优化语言模型 2025-03-25 算法杂记 #大模型 #算法 #强化学习
vLLM 加速推理框架 什么是 vLLM?一言以蔽之: vLLM是一个开源框架,通过PagedAttention算法有效管理大语言模型的注意力内存,提升了吞吐量和内存使用效率。其特点包括24倍的吞吐提升和3.5倍的TGI性能,无需修改模型结构。文章详细介绍了vLLM的离线推理流程,包括KV Cache优化、内存管理和内存共享机制。 vLLM 的特点和优势: 采用了 Paged Attention,可以有效管理 Atte 2025-03-08 算法杂记 #大模型 #加速推理
KV Cache 模型推理在大模型推理的时候,我们最看重的是两个指标: 吞吐量: 吞吐量代表了大模型单位时间内处理 Tokens 的数量,这里的 Tokens 一般指输入和输出Tokens数量的总和。在 Infra 条件一样的情况下,吞吐量越大,大模型推理系统的资源利用效率更高,推理的成本也就是更低 时延: 时延是针对最终用户而言的。时延用户平均收到每个Token所花费的时间,业务通常认为这个数值如果小于50ms 2025-03-08 算法杂记 #大模型 #加速推理
DeepSeek-R1 部署微信机器人 待更新Github 仓库:https://github.com/GuoKent/DeepSeek-WeChatBot 2025-02-24 项目实战 #大模型 #NLP #LLM #项目实战
DeepSeek 系列 DeepSeek-V2论文:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model DeepSeek-V3DeepSeek-R1论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Lea 2025-02-07 论文笔记 #大模型 #NLP #LLM #论文
Docker 操作 创建镜像通常,创建 Docker 镜像的方法是通过 Dockerfile 文件。Dockerfile 是一个文本文件,包含了构建镜像所需的所有指令。 基于 Ubuntu 创建 Python 环境1234567891011121314151617181920# 使用官方 Ubuntu 镜像作为基础镜像FROM ubuntu:20.04# 设置环境变量,防止在安装过程中出现交互式提示ENV DEBIA 2025-01-20 开发笔记 #开发 #docker
Pytorch 分布式训练 手动配置分布式训练该方法自定义程度化较高,但环境等需自己配置,代码写起来较繁杂 准备环境12345678910111213141516171819202122232425262728293031323334353637383940import torchfrom torch.nn.parallel import DistributedDataParallel as DDPdef setup_dis 2025-01-18 开发笔记 #分布式 #开发 #Pytorch #Python
Python 装饰器@property装饰器作用就是把方法method转换为属性property。因此被@property装饰的成员函数,只能有一个参数self;不能和别的类属性同名;并且在调用时不需要加()。 换句话说就是把函数变成一个属性(数值) 如果只有@property装饰,那么value是只读不可写的。因此在property装饰的基础上,还附赠了@x.setter装饰器和@x.deleter装饰器 2024-12-31 开发笔记 #开发 #python
Git 笔记 git clone12345678git clone:git clone http://xxxx.git # 默认master分支git clone -b <branch_name> http://xxxx.git # clone指定分支# clone 特定版本/分支git clone -branch <branch-name> <repo-address> 2024-12-23 开发笔记 #开发 #git