2月16日,DeepSeek研究團(tuán)隊(duì)在arXiv上發(fā)表論文,提出了一種全新的注意力機(jī)制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長(zhǎng)上下文訓(xùn)練和推斷而設(shè)計(jì),具有硬件對(duì)齊的特點(diǎn),梁文鋒參與共創(chuàng)。
(科技日?qǐng)?bào) 趙衛(wèi)華 李忠明)
2月16日,DeepSeek研究團(tuán)隊(duì)在arXiv上發(fā)表論文,提出了一種全新的注意力機(jī)制架構(gòu)NSA(Native SparseAttention,原生稀疏注意力),專為超快長(zhǎng)上下文訓(xùn)練和推斷而設(shè)計(jì),具有硬件對(duì)齊的特點(diǎn),梁文鋒參與共創(chuàng)。
(科技日?qǐng)?bào) 趙衛(wèi)華 李忠明)