故事总结:系统没设计好损失函数 (loss function) 就开跑,跑起来发现模型都在走捷径(shortcut / bias),只能靠正则惩罚项去约束,可惜惩罚项不可导,反而还引入了新的捷径。于是模型一半学会了如何抵抗正则约束,一半学会了如何利用正则项作为捷径。模型调了一次超参,重新初始化也还是一个样。剧情设计合理,至少都能圆回来。战力没有通胀,观感非常好~看的很舒服~~
[sfem:3:314]
我猜作者没看懂
这是训练大模型呢吗。。