Научно-исследовательский семинар «Вычислительные среды»
Приглашаем студентов и преподавателей на научно-исследовательский семинар «Вычислительные среды»
Докладчик: Пиле Ян Эрнестович, Лаборатория вычислительной физики НИУ ВШЭ
Название доклада: Доклад по статьям Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu Massive Activations in Large Language Models [1] и Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan The Super Weight in Large Language Models [2].
Аннотация:
В статье [1] обнаружен факт наличия в больших языковых моделях типа LLaMA2, Mistral и Mixtral, а также визуальных трансформерах типа CLIP и DINOv2 малого количества (не более 0.01%) больших по модулю (может на 5 порядков превышать средний масштаб внутри сети). Утверждается, что большие по модулю активации выполняют роль параметров смещения в трансформерах, в том числе – непосредственно при вычислении self-attention. В статье [2] показано, что в тех же моделях, что и в [1] аномально большие активации вызываются так называемыми «супер-весами», которые поступают на вход функции активации, при этом на качество модели влияют как сам «супер-вес» так и соответствующая ему «супер-активация», более того – удаление одного веса из миллиардов параметров увеличивает перплексию в 3 раза. Авторы предлагают метод идентификации таких весов, не требующий сборки датасета, а также способ сжатия нейронных сетей с использованием информации о супер-весах.
Семинар пройдет в аудитории 125 (Таллинская 34), а также онлайн по ссылке:
https://us06web.zoom.us/j/92997239709?pwd=Y2pQbE1lN1V6b3VtOXZrT1BTZUtFQT09
Meeting ID: 929 9723 9709
Passcode: 279568
Для заказа пропуска слушателям из других организаций писать на почту секретарю семинара Суховерховой Диане Дмитриевне dsukhoverkhova@hse.ru.
Темы будущих и прошедших докладов доступны на информационной странице семинара.