English version below.
Mit der Einführung vom Spyre Accelerator auf IBM Z wird generative KI dorthin gebracht, wo geschäftskritische Anwendungen und Daten bereits laufen. Während der Telum II Prozessor on-chip primär für transaktionale KI Use Cases mit niedriger Latenz entwickelt wurde (z. B. für Fraud Detection oder Anti Money Laundering), adressiert Spyre eher die rechenintensiven Decoder-Modelle aus dem Bereich der generativen KI. Somit kann nun beides abgedeckt werden: Encoder und Prediction Modelle profitieren von der Nähe des Telum Prozessors zu den Daten und Transaktionen und erhalten durch Spyre die passende Beschleunigung, ohne dabei den Mainframe zu verlassen.
Bei Spyre handelt es sich um eine PCIe-Beschleunigerkarte und kann somit in die bestehende I/O-Architektur des Mainframes eingesetzt werden. Pro Karte stehen zur Verfügung:
-
128 GB LPDDR5 (Arbeitsspeicher)
-
300+ TOPS Rechenleistung bei ca. 75 W
-
Im Cluster von 8 Karten 1 TB aggregierter Speicher und 1,6 TB/s Bandbreite
Die Verfügbarkeit der Spyre Karten ist für Q4 2025 vorgesehen. Der Vertrieb erfolgt in 8er-Paketen an Karten (“T-Shirt-Sizing”).
Neben der Hardware als I/O Karte kommt Spyre mit einem Appliance Control Center (ACC), welches als zentrale Instanz das Management dedizierter LPARs bereitstellt. Weiterhin übernimmt die Spyre Support Appliance (SSA) das Firmwaremanagement. Beide Komponenten sind für den Betrieb von Spyre notwendig und Funktionsupdates erfolgen losgelöst vom System.
Der erste Exploiter für Spyre ist watsonx Assistant for Z: ein generativer Assistent, der beispielsweise Entwickler:innen im Alltag unterstützt. Über einen Dialog kann auf Systemwissen sowie Protokolle zugegriffen werden oder repetitive Aufgaben können beschleunigt werden. Zum GA-Start von Spyre fokussiert IBM sich im Decoder-Bereich auf das Modell Granite 3.3 (8B). Weitere Modelle sind für einen späteren Zeitpunkt vorgesehen. Weiterhin bestehen bleiben die Encoder-Modelle wie BERT, welche je nach Latenz auf Telum oder auch auf Spyre laufen können.

Abgrenzung zu GPUs
Bei der Einführung von Spyre geht es nicht darum, ein Konkurrenzprodukt zu GPUs zu schaffen. Der Unterschied liegt in der Ausrichtung: GPUs dominieren weiterhin das Training sehr großer Modelle, während Spyre Integration und Inferenz generativer KI innerhalb der Z-Umgebung adressiert. Dabei entsteht der Vorteil, dass sensible Daten, Prompts und Antworten im vertrauten Sicherheits- und Compliance-Rahmen bleiben und Applikationen auf KI-Funktionen zugreifen können.
_________________________________________________________________
Spyre Accelerator on IBM Z
With the introduction of the Spyre Accelerator on IBM Z, generative AI is brought to where business-critical applications and data are already running. While the Telum II processor is primarily designed on-chip for transactional AI use cases with low latency (e.g., fraud detection or anti-money laundering), Spyre targets the compute-intensive decoder models used in generative AI. This means that both aspects can now be covered: encoder and prediction models benefit from the Telum processor’s proximity to data and transactions and receive the appropriate acceleration through Spyre — without leaving the mainframe.
Spyre is a PCIe accelerator card that can be integrated into the existing I/O architecture of the mainframe. Each card provides:
Availability of the Spyre cards is planned for Q4 2025. Sales will be in packages of eight cards (“T-shirt sizing”).
In addition to the hardware as an I/O card, Spyre comes with an Appliance Control Center (ACC), which provides centralized management of dedicated LPARs. The Spyre Support Appliance (SSA) handles firmware management. Both components are required for operating Spyre, and function updates are delivered independently of the system.
The first exploiter for Spyre is watsonx Assistant for Z: a generative assistant that supports developers in their daily work. Through a dialog interface, system knowledge and logs can be accessed, and repetitive tasks can be accelerated. For GA of Spyre, IBM focuses on the Granite 3.3 (8B) model in the decoder space. Additional models are planned for a later point in time. Encoder models such as BERT will remain available and can run on either Telum or Spyre, depending on latency requirements.

Differentiation from GPUs
The introduction of Spyre is not about creating a competing product to GPUs. The distinction lies in the focus: GPUs will continue to dominate the training of very large models, while Spyre addresses integration and inference of generative AI within the Z environment. This offers the advantage that sensitive data, prompts, and responses remain within the familiar security and compliance framework, and applications can access AI capabilities directly.