vLLM: Максимально быстрый инференс для LLM

Этот шаблон содержит vLLM, высокопроизводительную библиотеку для инференса больших языковых моделей (LLM). Она использует технологию PagedAttention для увеличения пропускной способности до 24 раз по сравнению со стандартными решениями. Запустите свой собственный, молниеносный аналог OpenAI API.

Ключевые преимущества vLLM:

Значительно увеличивает количество запросов в секунду (tokens/s).
Технология PagedAttention минимизирует потери памяти.
Готов к работе с Llama 3, Mixtral, Falcon, Phi-3 и многими другими.
Легко интегрируется в существующие приложения, использующие API OpenAI.

Рекомендуемые GPU для vLLM:

Высокая производительность (модели до 70B): A100 80GB или L40S.
Флагманская скорость (архитектура Hopper): H100 PCIe и H200.
Эпоха Blackwell: NVIDIA B200 — абсолютный лидер для инференса. Поддержка FP4 и 192 ГБ памяти HBM3e обеспечивают непревзойденную производительность и позволяют запускать модели триллионного класса с минимальной задержкой.

Подобрать сервер для vLLM

Другие инструменты для LLM

Изучите альтернативы и сопутствующие технологии для ваших задач.

Ollama
Более простой в настройке, но менее производительный движок для инференса.
PyTorch
Большинство моделей для vLLM обучаются именно на этом фреймворке.