Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности

3DNews

26.03.2026 в 11:15,

Hard news

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери т

очности в ответах и без потребности в дополнительном обучении. В тестах на ускорителях искусственного интеллекта Nvidia H100 4-битный алгоритм TurboQuant (с четвёртым битом на коррекцию ошибок) помог ...

Автор: 3DNews

Источник: https://3dnews.ru/1138930

Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant