Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

26.03.2026 в 11:15,
Hard news

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери т

очности в ответах и без потребности в дополнительном обучении. В тестах на ускорителях искусственного интеллекта Nvidia H100 4-битный алгоритм TurboQuant (с четвёртым битом на коррекцию ошибок) помог  ...

Автор: 3DNews
Источник: https://3dnews.ru/1138930
×