Wouter Hoeffnagel - 21 mei 2025

Red Hat wil AI-toepassingen efficiënter maken met AI Inference Server

Red Hat, speler in open source-oplossingen, introduceert de Red Hat AI Inference Server. Deze nieuwe oplossing stelt bedrijven in staat om generatieve AI sneller, goedkoper en flexibeler in te zetten, ongeacht het AI-model, de hardware of de cloudomgeving. De server is gebaseerd op de virtualized Large Language Model inference (vLLM)-technologie van UC Berkeley en is verbeterd met compressie en optimalisatie door Neural Magic.

Artificial intelligence

Red Hat wil AI-toepassingen efficiënter maken met AI Inference Server image

De aankondiging vond plaats tijdens de jaarlijkse Red Hat Summit in Boston. De Red Hat AI Inference Server kan zowel zelfstandig als geïntegreerd in Red Hat Enterprise Linux AI (RHEL AI) en Red Hat OpenShift AI werken, waardoor AI-toepassingen vlotter en betrouwbaarder kunnen worden ingezet.

Inference als motor van AI

Inference, het proces waarbij een AI-model een antwoord geeft op een vraag, vereist veel rekenkracht. Bij het opschalen van AI-oplossingen kan inference traag, duur en foutgevoelig worden. Daarom is een krachtige, efficiënte inference-server essentieel. De Red Hat AI Inference Server biedt een open oplossing met ingebouwde compressie en optimalisatie, zodat inference zelfs met zware modellen en op verschillende infrastructuren snel verloopt.

De basis van de Red Hat AI Inference Server is het vLLM-project, een snelgroeiende communitytool van UC Berkeley voor krachtige inference, met brede modelondersteuning en geavanceerde functies zoals multi-GPU support en grote contextverwerking. vLLM wordt al gebruikt voor toonaangevende modellen zoals Llama, Mistral, DeepSeek, Phi, Llama Nemotron en Gemma.

Inference democratiseren

De Red Hat AI Inference Server combineert de voordelen van vLLM met slimme compressie, geoptimaliseerde modelkeuze, ondersteuning en brede inzetbaarheid. Het doel is om inference te democratiseren, zodat elk model op iedere accelerator en op welke cloud dan ook kan worden gebruikt, zonder beperkingen of keuzestress.

“Inference is het hart van generatieve AI. Het moet snel én betaalbaar zijn. Met Red Hat AI Inference Server bieden we een open platform dat elk model ondersteunt, op elke accelerator, in elke omgeving”, zegt Joe Fernandes, VP & GM, AI Business Unit bij Red Hat.

Samenwerking met Google Cloud

Tijdens de Red Hat Summit kondigden Red Hat en Google Cloud een samenwerking aan om de ingebruikname van AI-agents te versnellen. Deze samenwerking omvat de lancering van het llm-d open source-project, met Google als medeoprichter, ondersteuning voor vLLM op Google Cloud TPU’s en GPU-gebaseerde virtuele machines om AI-inference te verbeteren, directe Day 1-ondersteuning voor vLLM binnen Gemma 3-modeldistributies, ondersteuning voor Red Hat AI Inference Server op Google Cloud, en het stimuleren van vooruitstrevende ontwikkeling van AI-agents, waarbij Red Hat bijdraagt aan de community van Googles Agent2Agent (A2A)-protocol.

De Red Hat AI Inference Server belooft een belangrijke stap te zijn in het efficiënter en flexibeler maken van AI-toepassingen voor bedrijven.

Tip de redactie