Google Research представила алгоритм TurboQuant, що значно підвищує ефективність великих мовних моделей (LLM). Ця технологія дозволяє вшестеро скоротити обсяг необхідної пам’яті, одночасно збільшуючи швидкість обробки та зберігаючи точність результатів. Основна мета TurboQuant – зменшити розмір кешу “ключ-значення”, який LLM використовують як “цифрову шпаргалку” для зберігання важливої інформації, аби не перераховувати її щоразу. Зменшення цього кешу, що складається з багатовимірних векторів, є критичним, оскільки саме він є вузьким місцем для продуктивності моделей.
На відміну від традиційних методів квантування, що часто погіршують якість при зменшенні ресурсоємності, TurboQuant, за попередніми даними Google, забезпечує 8-кратне зростання продуктивності та 6-кратне скорочення використання пам’яті без втрати якості. Алгоритм працює у два етапи: система PolarQuant перетворює стандартні декартові координати векторів у полярні, що дозволяє компактніше зберігати дані. На другому етапі техніка Quantized Johnson-Lindenstrauss (QJL) застосовує 1-бітний шар корекції помилок для усунення залишкових похибок, забезпечуючи точнішу оцінку уваги моделі.
Тестування TurboQuant на відкритих моделях Gemma та Mistral для довгого контексту показало ідеальні результати, підтвердивши 6-кратне зменшення обсягу пам’яті. Алгоритм може квантувати кеш до 3 біт без додаткового навчання, що дозволяє застосовувати його до вже існуючих моделей. Це відкриває шлях до здешевлення роботи ШІ та його меншої вимогливості до ресурсів, особливо для мобільних пристроїв, де апаратні обмеження є значними. Анонс TurboQuant вже вплинув на ринки: акції виробників пам’яті, таких як Micron Technology та Western Digital, знизились через очікуване послаблення попиту на DRAM та флеш-пам’ять. Проте аналітики все ще прогнозують зростання загального попиту на пам’ять у найближчі роки.
