• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Научно-исследовательский семинар «Вычислительные среды»

Мероприятие завершено

Приглашаем студентов и преподавателей на научно-исследовательский семинар «Вычислительные среды»

Докладчик: Пиле Ян Эрнестович, Лаборатория вычислительной физики НИУ ВШЭ


Название доклада: Доклад по статьям Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu Massive Activations in Large Language Models [1] и Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan The Super Weight in Large Language Models [2].

Аннотация:
В статье [1] обнаружен факт наличия в больших языковых моделях типа LLaMA2, Mistral и Mixtral,  а также визуальных трансформерах типа CLIP и DINOv2 малого количества (не более 0.01%) больших по модулю (может на 5 порядков превышать средний масштаб внутри сети). Утверждается, что большие по модулю активации выполняют роль параметров смещения в трансформерах, в том числе – непосредственно при вычислении self-attention.  В статье [2] показано, что в тех же моделях, что и в [1] аномально большие активации вызываются так называемыми «супер-весами», которые поступают на вход функции активации, при этом на качество модели влияют как сам «супер-вес» так и соответствующая ему «супер-активация», более того – удаление одного веса из миллиардов параметров увеличивает перплексию в 3 раза. Авторы предлагают метод идентификации таких весов, не требующий сборки датасета, а также способ сжатия нейронных сетей с использованием информации о супер-весах.



Семинар пройдет в аудитории 125 (Таллинская 34), а также онлайн по ссылке:

https://us06web.zoom.us/j/92997239709?pwd=Y2pQbE1lN1V6b3VtOXZrT1BTZUtFQT09

Meeting ID: 929 9723 9709

Passcode: 279568



Для заказа пропуска слушателям из других организаций писать на почту секретарю семинара Суховерховой Диане Дмитриевне dsukhoverkhova@hse.ru.

Темы будущих и прошедших докладов доступны на информационной странице семинара.