Attention 算法 Self-AttentionQ=X⋅WQ,K=X⋅WK,V=X⋅WVAttention(Q,K,V)=softmax(QKTdk)VX.shape:[B,T,D],W.shape:[D,D],dk=D \begin{aligned} & Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V \\ & \text{ 2024-10-03 算法杂记 #深度学习 #算法 #基础
Deeplearning 基础 常用激活函数1. sigmoid:σ(x)=11+e−x \sigma (x) = \frac{1}{1+e^{-x}} σ(x)=1+e−x1 优点: 平滑且连续,适合二分类任务,具有明确的生物意义缺点: 输入绝对值过大时有梯度消失问题,输出大多集中在 0 和 1,可能导致网络的权重更新不平衡。指数运算效率较慢 2. TanhTanh(x)=ex−e−xex+e−x Tanh(x) = \fr 2024-10-02 算法杂记 #深度学习 #算法 #基础
开篇首记 欢迎来到我的博客!此网站主要用于记录博主的一系列学习心得,希望其中的内容对您有用! 若笔记中有任何错误,欢迎指正,也欢迎一起学习交流。邮箱: kent_guok@qq.com 2024-10-01