HomePage
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

CLIP 系列

介绍CLIP (Contrastive Language-Image Pre-Training) 是 OpenAI 在 2O21 年发布的一个预训练模型,用于匹配图像和文本。它是多模态研究领域的经典之作。 论文: Learning Transferable Visual Models From Natural Language Supervision 模型结构CLIP模型包含两个主要部分: T
2024-12-21
论文笔记
#大模型 #多模态 #论文

Qwen 系列

QwenQwen 2Qwen 2.5Qwen-VL项目地址: https://github.com/QwenLM/Qwen-VL论文: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 模型架构大型语言模型(Large Language Model
2024-12-21
论文笔记
#大模型 #多模态 #论文

BLIP 系列

BLIP背景BLIP(Bootstrapping Language-Image Pre-training)是一种统一的视觉语言理解与生成的预训练模型。其核心思想是通过 Bootstrapping 方法,利用 Captioner-Filter 机制生成高质量的文本标注,从而提高数据的质量和数量。BLiP 通过多模态混合结构 (Multimodal mixture of Encoder-Decoder
2024-12-15
论文笔记
#大模型 #多模态 #论文

微调

微调微调一个模型的流程收集数据 →\rightarrow→ 数据处理/清洗 →\rightarrow→ 选择合适模型/loss →\rightarrow→ 添加特定任务头层 →\rightarrow→ 冻结部分参数 →\rightarrow→ 设定超参数 →\rightarrow→ 模型训练 →\rightarrow→ 模型评估 LoRA 微调 核心思想: 参数优化量可以是低秩的,映射到低维空间下
2024-12-12
算法杂记
#大模型 #NLP #LLM

Tokenizer

正向/逆向最大匹配法正向最大匹配法(Forward Maximum Matching, FMM):从左到右扫描句子,每次取最长的匹配词。逆向最大匹配法(Backward Maximum Matching, BMM):从右到左扫描句子,每次取最长的匹配词。 优点:实现简单,高效。在词典较完善时效果较好。 缺点:对歧义的处理能力弱。不能有效处理未登录词(OOV,Out-of-Vocabulary)
2024-12-08
算法杂记
#大模型 #NLP #LLM

Attention 算法

自注意力(Self-Attention)Q=X⋅WQ,K=X⋅WK,V=X⋅WVAttention(Q,K,V)=softmax(QKTdk)VX.shape:[B,T,D],W.shape:[D,D],dk=D \begin{aligned} & Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V \\ &
2024-10-03
算法杂记
#算法 #深度学习 #基础

Deeplearning 基础

常用激活函数1. sigmoid:σ(x)=11+e−x \sigma (x) = \frac{1}{1+e^{-x}} σ(x)=1+e−x1​ 优点: 平滑且连续,适合二分类任务,具有明确的生物意义缺点: 输入绝对值过大时有梯度消失问题,输出大多集中在 0 和 1,可能导致网络的权重更新不平衡。指数运算效率较慢 2. TanhTanh(x)=ex−e−xex+e−x Tanh(x) = \fr
2024-10-02
算法杂记
#算法 #深度学习 #基础

开篇首记

欢迎来到我的博客!此网站主要用于记录博主的一系列学习心得,希望其中的内容对您有用! 若笔记中有任何错误,欢迎指正,也欢迎一起学习交流。邮箱: kent_guok@qq.com
2024-10-01
12

搜索