23年终总结
有半年没发博客了,最近实在太忙,之前的公开课学习也基本都搁置,马上24年了,希望有个新气象,这里先跟风写个总结,本文也发于知乎,以下为原文:
跟风写个年终总结吧,之前所有的博客都是写在自己的博客网站上,马上新的一年了,尝试一下知乎上写写。其实最近半年多已经没有更新过博客了,原因是各种事情导致太忙,实在没啥时间学习公开课,所以也一直停滞了。
发生的事情
细想一下,今年真的发生了很多事:1月孩子出生;2到4月换工作,面了几十次,同期也和合作者开发了HGRN;5月去新公司;6月对Linear Transformer结构做升级改进,加起来的ablation前后得有几百个;7月对Linear Transformer做加速,也学了triton,这期间经历过无数次3,4点睡觉;8,9月训练,测评Transnormer-LLM 7B,中间真是踩了无数的坑;10月之后做TransnormerLLM的开源,sft等工作;11月到12月初对我们之前的工作做了一些总结,测评1B, 3B level相比于Llama结构的效果,也同步测评了Mamba,具体见链接;12月之后也启动了15B模型的训练,整个过程(包括loss以及中间的ckpt)也会同步直播,具体可以见链接。
除了上述主要事外,还有各种大大小小的琐事。总的来说,今年确实是最近几年比较忙碌的一年,以至于到年底确实感受到了比较明显的疲惫。
学到的事情
经过这一年的磨练,收获还是不少(主要还是技术方面),这里流水账罗列一下:
- 多和同行交流,不要闭门造车;
- 和高水平的同行聊天,会经常有各种insight,比如sonta以及苏神;
- 大部分research都是重新发明,所以多考古之前的论文会找到灵感;
- 要学会去宣传自己的工作,毕竟大部分人都是关注各种大佬的工作,普通研究者只能自己宣传;
- LLM = 95%的数据 + 5%的结构,如果你用Llama,那后者为1%;
- 各种Efficient Sequence Model只有在1B level下和Llama结果相当,才有可能作为LLM的候选,否则都是玩具;
- 接上一条,在效果相当的情况下,越简单,速度越快越好( “Everything should be made as simple as possible, but not simpler,”);
- 长卷积(TNN, Hyena)暂时看不到出路;
- 工程很重要:cuda很难,triton也许是个折中方案;
- LLM让人印象深刻的落地场景还是感觉有点少;
明年的期待和规划
最后写一下明年的期待和规划吧,之所以分为两部分,是因为,期待是指不可控的,规划是指相对可控的:
期待:
- 训一个100B规模的非Transformer LLM;
- 扩大一些影响力;
- 找到LLM的落地方向;
规划:
- 把剩下两篇没开源的代码都整了;
- 对这两年的工作做个总结,输出20篇以上博客以及一个代码库;
- 学一下cuda;
- 扩一下技能包,入门序列建模以外的领域;
- 建立一个讨论序列建模的社区;
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere