Skip to main content
Scour
Browse
Getting Started
Login
Sign Up
You are offline. Trying to reconnect...
Copied to clipboard
Unable to share or copy to clipboard
科学空间|Scientific Spaces
kexue.fm
DeepSeek
V4的tid2eid是怎么来的
?
kexue.fm
·
2d
直接以FID为Loss
:
从梯度计算到流式训练
kexue.fm
·
1w
如何更科学地估计矩阵的谱范数
?
kexue.fm
·
1w
MuP之上
:4.
坚守参数的稳定性
kexue.fm
·
3w
基于流式幂迭代的Muon实现
:5.
延伸
kexue.fm
·
4w
基于流式幂迭代的Muon实现
:4.
原理
kexue.fm
·
4w
基于流式幂迭代的Muon实现
:3.
雕琢
kexue.fm
·
5w
中位数
(Median)
简介
kexue.fm
·
6w
基于流式幂迭代的Muon实现
:2.
加速
kexue.fm
·
7w
Attention
Residuals
回忆录
kexue.fm
·
8w
一种基于流式幂迭代的Muon实现思路
kexue.fm
·
9w
MuP之上
:3.
特殊情况特殊处理
kexue.fm
·
10w
MoE环游记
:7、
动态激活极简解
kexue.fm
·
11w
MoE环游记
:6、
最优分配促均衡
kexue.fm
·
12w
MuP之上
:2.
线性层与最速下降
kexue.fm
·
13w
Adam优化器的最优超参数是β1
=
β2
?
kexue.fm
·
14w
一行代码将arXiv论文翻译成中文版
kexue.fm
·
15w
DeltaNet的核心逆矩阵的元素总是在
[-1, 1]
内
kexue.fm
·
15w
为什么我们偏爱各向同性
?
基于最速下降的理解
kexue.fm
·
16w
让炼丹更科学一些
(六):
自上而下的精妙构造
kexue.fm
·
17w
Page 2 »
Log in to enable infinite scrolling
Keyboard Shortcuts
Navigation
Next / previous item
j
/
k
Open post
o
or
Enter
Preview post
v
Post Actions
Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s
Recommendations
Add interest / feed
Enter
Not interested
x
Go to
Home
g
h
Interests
g
i
Feeds
g
f
Likes
g
l
History
g
y
Changelog
g
c
Settings
g
s
Browse
g
b
Search
/
Pagination
Next page
n
Previous page
p
General
Show this help
?
Submit feedback
!
Close modal / unfocus
Esc
Press
?
anytime to show this help