В этом документе представлена новая архитектура рекуррентной нейронной сети под названием xLSTM (расширенная краткосрочная краткосрочная память), целью которой является устранение некоторых ограничений традиционной сети LSTM (длинная краткосрочная память) и повышение ее производительности при языковом моделировании в других задачах. .
Статья: xLSTM: Расширенная долгосрочная краткосрочная память Ссылка: https://arxiv.org/pdf/2405.04517.
Ниже приводится подробная интерпретация каждой части статьи.
ct = ft * ct-1 + it * zt
,Чтосерединаct
это единичное состояние,ft
Это дверь забвения,it
это входные ворота,zt
через функцию активацииизвходить。it
、дверь забвенияft
ивыходные воротаot
,Контролируйте поток информации.В каждой части этой статьи подробно описаны принципы проектирования, математические формулы и результаты экспериментов xLSTM-архитектуры.,Демонстрирует свою эффективность в задачах моделирования языка.