KentGuoK

Docker 操作

创建镜像通常，创建 Docker 镜像的方法是通过 Dockerfile 文件。Dockerfile 是一个文本文件，包含了构建镜像所需的所有指令。基于 Ubuntu 创建 Python 环境1234567891011121314151617181920# 使用官方 Ubuntu 镜像作为基础镜像FROM ubuntu:20.04# 设置环境变量，防止在安装过程中出现交互式提示ENV DEBIA

2025-01-20

开发笔记

#开发 #docker

Pytorch 分布式训练

手动配置分布式训练该方法自定义程度化较高，但环境等需自己配置，代码写起来较繁杂准备环境12345678910111213141516171819202122232425262728293031323334353637383940import torchfrom torch.nn.parallel import DistributedDataParallel as DDPdef setup_dis

2025-01-18

开发笔记

#分布式 #开发 #Pytorch #Python

Python

装饰器@property装饰器作用就是把方法method转换为属性property。因此被@property装饰的成员函数，只能有一个参数self；不能和别的类属性同名；并且在调用时不需要加()。换句话说就是把函数变成一个属性(数值) 如果只有@property装饰，那么value是只读不可写的。因此在property装饰的基础上，还附赠了@x.setter装饰器和@x.deleter装饰器

2024-12-31

开发笔记

#开发 #python

Git 笔记

git clone12345678git clone：git clone http://xxxx.git # 默认master分支git clone -b <branch_name> http://xxxx.git # clone指定分支# clone 特定版本/分支git clone -branch <branch-name> <repo-address>

2024-12-23

开发笔记

#开发 #git

CLIP 系列

介绍CLIP (Contrastive Language-Image Pre-Training) 是 OpenAI 在 2O21 年发布的一个预训练模型，用于匹配图像和文本。它是多模态研究领域的经典之作。论文： Learning Transferable Visual Models From Natural Language Supervision 模型结构CLIP模型包含两个主要部分： T

2024-12-21

论文笔记

#大模型 #多模态 #论文

IntenVL 系列

InternVL项目地址: https://github.com/haotian-liu/LLaVA论文: InternVL Technical Report 动机当前多模态大模型都是 Image Encoder + glue layer + LLM，但 Image Encoder + glue layer 的参数量远小于 LLM，导致图文信息没有得到好的融合。InternVL 通过缩放 Imag

2024-12-21

论文笔记

#大模型 #多模态 #论文

LLaVA 系列

LLaVA: Visual Instruction Tuning项目地址: https://github.com/haotian-liu/LLaVA论文: LLaVA Technical Report 简介LLaVA模型的架构，是将一个预训练的视觉编码器（CLIP ViT-L/14）与一个大规模语言模型（Vicuna）连接在一起。这两个模型通过一个简单的映射矩阵连接，这个矩阵负责将视觉和语言特征对

2024-12-21

论文笔记

#大模型 #多模态 #论文

Qwen 系列

QwenQwen 2Qwen 2.5Qwen 3项目地址: https://github.com/QwenLM/Qwen3论文: Qwen3 Technical Report 模型架构常规结构：GQA、RoPE、SwiGLU、RMSNorm，BBPE 分词法 128 专家层，每个 token 激活 8 个专家，包含共享专家层(参考DeepSeek) 引入全局 Batch 平衡损失数据处理步骤

2024-12-21

论文笔记

#大模型 #多模态 #论文

BLIP 系列

BLIP背景BLIP(Bootstrapping Language-Image Pre-training)是一种统一的视觉语言理解与生成的预训练模型。其核心思想是通过 Bootstrapping 方法，利用 Captioner-Filter 机制生成高质量的文本标注，从而提高数据的质量和数量。BLiP 通过多模态混合结构（Multimodal mixture of Encoder-Decoder

2024-12-15

论文笔记

#大模型 #多模态 #论文

微调

微调微调一个模型的流程收集数据 →\rightarrow→ 数据处理/清洗 →\rightarrow→ 选择合适模型/loss →\rightarrow→ 添加特定任务头层 →\rightarrow→ 冻结部分参数 →\rightarrow→ 设定超参数 →\rightarrow→ 模型训练 →\rightarrow→ 模型评估 LoRA 微调核心思想: 参数优化量可以是低秩的，映射到低维空间下

2024-12-12

算法杂记

#大模型 #NLP #LLM