KentGuoK

Tokenizer

正向/逆向最大匹配法正向最大匹配法（Forward Maximum Matching, FMM）：从左到右扫描句子，每次取最长的匹配词。逆向最大匹配法（Backward Maximum Matching, BMM）：从右到左扫描句子，每次取最长的匹配词。优点：实现简单，高效。在词典较完善时效果较好。缺点：对歧义的处理能力弱。不能有效处理未登录词（OOV，Out-of-Vocabulary）

2024-12-08

算法杂记

#大模型 #NLP #LLM

Attention 算法

自注意力(Self-Attention)Q=X⋅WQ,K=X⋅WK,V=X⋅WVAttention(Q,K,V)=softmax(QKTdk)VX.shape:[B,T,D],W.shape:[D,D],dk=D \begin{aligned} & Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V \\ &

2024-10-03

算法杂记

#算法 #深度学习 #基础

Deeplearning 基础

常用激活函数1. sigmoid:σ(x)=11+e−x \sigma (x) = \frac{1}{1+e^{-x}} σ(x)=1+e−x1 优点：平滑且连续，适合二分类任务，具有明确的生物意义缺点：输入绝对值过大时有梯度消失问题，输出大多集中在 0 和 1，可能导致网络的权重更新不平衡。指数运算效率较慢 2. TanhTanh(x)=ex−e−xex+e−x Tanh(x) = \fr

2024-10-02

算法杂记

#算法 #深度学习 #基础

开篇首记

欢迎来到我的博客！此网站主要用于记录博主的一系列学习心得，希望其中的内容对您有用！若笔记中有任何错误，欢迎指正，也欢迎一起学习交流。邮箱: kent_guok@qq.com

2024-10-01