标签:Transformer

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

谷歌大改Transformer,“无限”长度上下文来了。 现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。 8B大...

ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞

当前的视觉模型哪个更好?Meta团队最新一波研究来了。 如何根据特定需求选择视觉模型? ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相...

AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡

AI真的可以用来科学地算命了!? 丹麦技术大学 (DTU) 的研究人员声称他们已经设计出一种人工智能模型,据说可以预测人们的生活中的重大事件和结果,包括每个...

Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈...