vLLM: Максимально быстрый инференс для LLM
Этот шаблон содержит vLLM, высокопроизводительную библиотеку для инференса больших языковых моделей (LLM). Она использует технологию PagedAttention для увеличения пропускной способности до 24 раз по сравнению со стандартными решениями. Запустите свой собственный, молниеносный аналог OpenAI API.
Ключевые преимущества vLLM:
- Значительно увеличивает количество запросов в секунду (tokens/s).
- Технология PagedAttention минимизирует потери памяти.
- Готов к работе с Llama 3, Mixtral, Falcon, Phi-3 и многими другими.
- Легко интегрируется в существующие приложения, использующие API OpenAI.
Рекомендуемые GPU для vLLM:
- Высокая производительность (модели до 70B): A100 80GB или L40S.
- Флагманская скорость (архитектура Hopper): H100 PCIe и H200.
- Эпоха Blackwell: NVIDIA B200 — абсолютный лидер для инференса. Поддержка FP4 и 192 ГБ памяти HBM3e обеспечивают непревзойденную производительность и позволяют запускать модели триллионного класса с минимальной задержкой.