CLIP 系列 介绍CLIP (Contrastive Language-Image Pre-Training) 是 OpenAI 在 2O21 年发布的一个预训练模型,用于匹配图像和文本。它是多模态研究领域的经典之作。 论文: Learning Transferable Visual Models From Natural Language Supervision 模型结构CLIP模型包含两个主要部分: T 2024-12-21 论文笔记 #大模型 #多模态 #论文
Qwen 系列 QwenQwen 2Qwen 2.5Qwen-VL项目地址: https://github.com/QwenLM/Qwen-VL论文: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 模型架构大型语言模型(Large Language Model 2024-12-21 论文笔记 #大模型 #多模态 #论文
BLIP 系列 BLIP背景BLIP(Bootstrapping Language-Image Pre-training)是一种统一的视觉语言理解与生成的预训练模型。其核心思想是通过 Bootstrapping 方法,利用 Captioner-Filter 机制生成高质量的文本标注,从而提高数据的质量和数量。BLiP 通过多模态混合结构 (Multimodal mixture of Encoder-Decoder 2024-12-15 论文笔记 #大模型 #多模态 #论文
微调 微调微调一个模型的流程收集数据 →\rightarrow→ 数据处理/清洗 →\rightarrow→ 选择合适模型/loss →\rightarrow→ 添加特定任务头层 →\rightarrow→ 冻结部分参数 →\rightarrow→ 设定超参数 →\rightarrow→ 模型训练 →\rightarrow→ 模型评估 LoRA 微调 核心思想: 参数优化量可以是低秩的,映射到低维空间下 2024-12-12 算法杂记 #大模型 #NLP #LLM
Tokenizer 正向/逆向最大匹配法正向最大匹配法(Forward Maximum Matching, FMM):从左到右扫描句子,每次取最长的匹配词。逆向最大匹配法(Backward Maximum Matching, BMM):从右到左扫描句子,每次取最长的匹配词。 优点:实现简单,高效。在词典较完善时效果较好。 缺点:对歧义的处理能力弱。不能有效处理未登录词(OOV,Out-of-Vocabulary) 2024-12-08 算法杂记 #大模型 #NLP #LLM
Attention 算法 自注意力(Self-Attention)Q=X⋅WQ,K=X⋅WK,V=X⋅WVAttention(Q,K,V)=softmax(QKTdk)VX.shape:[B,T,D],W.shape:[D,D],dk=D \begin{aligned} & Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V \\ & 2024-10-03 算法杂记 #算法 #深度学习 #基础
Deeplearning 基础 常用激活函数1. sigmoid:σ(x)=11+e−x \sigma (x) = \frac{1}{1+e^{-x}} σ(x)=1+e−x1 优点: 平滑且连续,适合二分类任务,具有明确的生物意义缺点: 输入绝对值过大时有梯度消失问题,输出大多集中在 0 和 1,可能导致网络的权重更新不平衡。指数运算效率较慢 2. TanhTanh(x)=ex−e−xex+e−x Tanh(x) = \fr 2024-10-02 算法杂记 #算法 #深度学习 #基础
开篇首记 欢迎来到我的博客!此网站主要用于记录博主的一系列学习心得,希望其中的内容对您有用! 若笔记中有任何错误,欢迎指正,也欢迎一起学习交流。邮箱: kent_guok@qq.com 2024-10-01