09.09.2015

Cern setzt bei der Server-Virtualisierung auf Kontron Technologie

Große Aufgabe - kleines Modul

Das Europäische Kernforschungszentrum Cern in Genf suchte für die Virtualisierung der Server, die zur Überwachung eines der Experimente im Teilchenbeschleuniger dienen, smarte Knotenpunkte. Sie sollten nicht nur kompakt, robust und kosteneffizient sein, sondern auch Langzeitverfügbarkeit und eine hohe Skalierbarkeit bieten. Die Lösung: Schlanke 1HE Rack-IPCs mit je vier Prozessormodulen stellen nun sicher, dass die Daten besonders effizient und ausfallsicher verarbeitet werden.

Autor: Peter Ahne ist Channel Marketing Manager bei Kontron


LHCb ist eines von vier Experimenten am Large Hadron Collider (LHC) am Kernforschungszentrum Cern, besser bekannt als Teilchenbeschleuniger. Es erforscht die kleinen Unterschiede zwischen Materie und Antimaterie, um der Frage nachzugehen, warum unser Universum hauptsächlich aus Materie und nicht aus Antimaterie besteht. Diese Experimente laufen noch mindestens bis zum Jahr 2018 und nutzen ein 4.500t schweres Detektorsystem mit circa 1Mio. Sensoren. Diese Sensoren registrieren die unterschiedlichen Teilchen, die bei der Kollision von nahezu lichtschnellen Protonen im rund 27km langen Ringbeschleuniger entstehen. Das Detektorsystem setzt sich aus mehreren Subdetektoren zusammen. Jeder dieser Subdetektoren ist darauf spezialisiert, unterschiedliche Parameter wie Spurverläufe oder Energie-Werte zu messen. Bei 2.000 Ereignissen pro Sekunde entsteht stündlich eine Datenmenge von 250GB.

Das Detektionssystem

Diese Daten werden von den Sensoren der Detektor-Elektronik über Lichtwellenleiter an modulare Rechnersysteme geleitet, die die Daten des Experiments vorverarbeiten. Jedes System hat eine eigene Aufgabe und verarbeitet bis zu 38Gbit/s Rohdaten. Diese sendet es dann über 4GbE-Links zu einem Datenaufnahmesystem. Die real genutzte totale Bandbreite der Rechnersysteme des Detektionssystems beträgt rund 50 bis 60GByte/s und bildet die Datengrundlage für die Analyse und Resultate des Experiments. Ausgeführt sind diese Systeme in rund 100VME- sowie rund 400 ELMB-Systemen (Embedded Local Monitor Board).

Das Condition Monitoring System

Um die Verfügbarkeit des mit 1Mio. Sensoren höchst komplexen Detektionssystems während der ebenfalls nicht minder komplexen Experimente stets sicherzustellen, wird es von einem eigenen Kontrollsystem überwacht. Dieses soll gewährleisten, dass sich alle Elemente des Detektionssystems im vorgeschriebenen Zustand befinden, damit die teuren Experimente nicht umsonst gemacht werden. Zudem erlaubt es das Kontrollsystem, Aktionen auszuführen wie das Ein- und Ausschalten, das Setzen der Ausgangsspannungen, das Setzen der Grenzwerte für Ausgangsströme und die Änderung der Lüftergeschwindigkeit der Systeme. Dabei folgt das Monitoring der VME- und ELMB-Systeme einem einfachen Prinzip: Solange bei der Überwachung der Komponenten keine Anomalität festgestellt wird, werden alle nötigen Parametrierungen des Zustands der Elektronik automatisch ausgeführt. Nur wenn durch die kontinuierliche Überwachung der Komponenten eine Anomalität im System festgestellt wird, muss ein Mitarbeiter eingreifen und den Fehler beheben. In jedem Rechner des Detektionssystems ist hierfür ein CAN-Slave integriert, welcher die lokale Überwachungsinstanz des vernetzten Monitoring Systems darstellt. Diese Slaves wurden in der Vergangenheit über Monitoring-Server mit einer direkten Verbindung (über USB) zu einem CAN-Master überwacht und gesteuert.

Die Virtualisierung

"Diese Monitoring Server sollen aufgrund ihres hohen Alters nun ersetzt werden", erklärt Projektleiter Beat Jost. "Als Ersatz haben wir uns dafür entschieden, auf eine Virtualisierungslösung zu setzen, um so die Ressourcenauslastung unserer Server-Infrastruktur zu verbessern und um die Kapazitäten für das Experiment zu steigern." Früher war auf den dezentralen 1HE Servern eine komplette WinCC-Scada-Software implementiert, auf die vom Leitstand aus zugegriffen wurde. Diese Dezentralisierung wurde durch die Virtualisierung der Server auf einem zentralen System aufgehoben. Auf diesem werden nun alle Monitoring-Funktionen verwaltet. Neben den allgemeinen Vorteilen der Virtualisierung wie Energieeffizienz und erhöhter Verfügbarkeit ist auch die Möglichkeit, die Hardware flexibel auszulegen ein weiterer Pluspunkt. Außerdem lassen sich die virtuellen Maschinen genauer auf die entsprechende Anwendung anpassen. Wenn die Forscher also weitere unerwartete Entdeckungen machen, können sie ein noch breiteres Spektrum an Prozessen untersuchen, indem sie die Serverkapazität durch Virtualisierung einfach ausdehnen. Da auf den oberen Ebenen des Kontrollsystems die gesamte Kommunikation über Ethernet läuft, ist durch die Virtualisierung der entsprechenden Rechner auch der Ersatz eines defekten Rechners ohne direkte Hardware-Intervention möglich.

Empfehlungen der Redaktion

Die smarten Knotenpunkte

An der Stelle, wo früher die dezentralen Server standen, sind nun smarte Knotenpunkte am Werk, die den Transfer der Condition Monitoring Daten zwischen den dezentralen Rechnersystemen des Detektionssystems und den zentralen, virtualisierten Condition Monitoring Servern sicherstellen. Hierfür bieten die Knotenpunkte x86er Intelligenz und hosten einen integrierten ELMB-OPC-Server für je drei über CAN angeschlossene ELMB-Systeme und einen OPC-Server für die VME-Systeme, die ebenfalls über CAN angeschlossen sind. Zudem greift je ein Win-CC-OPC-Client auf diese OPC-Server zu, um letztlich die Monitoring-Daten den zentralen virtualisierten Servern zur Verfügung zu stellen. Die Hauptaufgabe der nun eingesetzten neuen smarten Knotenpunkte liegt also darin, die CAN- Master zum Feld hin zu treiben und über Ethernet mit den zentralen virtuellen Servern zu kommunizieren.

Der Systemaufbau

Um nach den Vorgaben des Leiters des Experiments ein hochverfügbares Low-Power System mit möglichst großer Dichte zu erreichen, wurde ein individuelles System entwickelt, das vier Subsysteme beinhaltet. In einem 19" 1HE System befinden sich vier unabhängige Carrierboards mit vier Computer-on-Modulen, sodass ein 4in1-System entstanden ist. Die vier Subsysteme verfügen über General-purpose input/ output (GPIO), mit denen sie sich gegenseitig resetten können. Dadurch erhöhen sich Verfügbarkeit und Zuverlässigkeit der Systeminstallation. Zudem werden Wartungseinsätze vor Ort reduziert - und dies ist bei den Wegestrecken der dezentralen Cern-Infrastruktur essenziell. Die Auslegung mit vier vollwertigen Rechnersubsystemen in einem einzigen 1HE Systemchassis ist zudem äußerst platzsparend. Alle externen Interfaces wie 6xUSB, 1xGbE und 1xDVI pro Subsystem sind auf dem Carrierboard integriert und damit kabellos ausgeführt. Die im Gesamtsystem eingesetzten Carrierboards wurden spezifisch für diese Kundenanforderung entwickelt. Die Anbindung an die Systeme des Detektionssystems erfolgt über externe USB-to-CAN Konverter. An ein 4in1-System können über diese Konverter bis zu 32 CANBusse angeschlossen werden. Über einen CAN Bus können wiederum bis zu 64 Slave-Module angesprochen werden. Damit lassen sich mit jedem 4in1-System bis zu 2.048 Slaves verwalten. Derzeit sind pro 4in1-System zwischen 10 und 20 CAN-Busse angeschlossen, sodass mit Hinblick auf die lange Laufzeit des Experiments noch hinreichend Kapazität zur umfassenden Erweiterung der gesamten Installation im Cern gegeben ist.

Der Modulstandard

Unter den verschiedenen am Markt verfügbaren Module-Spezifikationen entschied man sich für den COM-Express Standard. Zum einen ist COM-Express der führende Standard für Computer-on-Modules weltweit und erfreut sich daher einer besonders breiten Hersteller-Unterstützung. Zum anderen bietet dieser Standard mit COM-Express mini auch einen sehr kleinen scheckkartengroßen Formfaktor, der für das vom Cern geforderte kompakte Systemdesign genau passt. Da Module, die den Schnittstellenspezifikationen von COM- Express entsprechen problemlos austauschbar sind und Carrierboard-Designs und Entwicklungserfahrung somit immer wieder verwendbar sind, gewährleistet COM-Express sowohl eine hohe als auch ressourcen- und damit kostenschonende Designsicherheit.

Das Application Programming Interface

Unter den am Markt verfügbaren Herstellern für COM-Express entschied man sich für Kontron. Die COMs von Kontron mit KEAPI (Kontron Embedded Application Programming Interface) liefern eine plattformübergreifende Middleware, die Zugriff und Steuerung von Hardware-Ressourcen in Embedded-Applikationen deutlich vereinfacht. Applikationsentwickler können eine umfangreiche Bibliothek von API-Funktionen nutzen, die Hardwareinformationen aller neuen Embedded-Plattformen von Kontron bereitstellen. So bieten KEAPI bereits vorintegrierte APIs, mit denen man via l²C das gegenseitige Reset der COMs ermöglichen kann. Nutzen Entwickler diese APIs, muss die Applikation beim Wechsel des Moduls nicht aufwendig umprogrammiert werden, um auf die unterschiedlichen APIs der eingesetzten Bauelemente angepasst zu werden. KEAPI beschleunigt damit selbstverständlich auch Neudesigns und die Plattformintegration und reduziert den Arbeitsaufwand bei der Validierung und Verifikation. Zusätzlich bietet KEAPI auch wertvolle Funktionalitäten zur Fernsteuerung und zur Fernüberwachung, was die Wartung erleichtert und die Total-Cost-of-Ownership reduziert.

Die Menschen dahinter

Neben der Auswahl der richtigen Technologien und Hardwareplattformen ist für Cern aber mindestens genauso wichtig, mit den richtigen Experten zusammenzuarbeiten. Entwicklung und Produktion wurde realisiert durch Robert Brunner von Brunner Elektronik in partnerschaftlicher Zusammenarbeit mit Walter Weber vom schweizerischen Kontron Vertriebspartner Ineltro. Cern ist mit der entstandenen innovativen Lösung mehr als zufrieden. Beat Jost sagt zustimmend: "Bereits die erste Demonstration des smarten Knotenpunkts war so toll, dass genau dieses System jetzt in Serie geht. Wir sind sehr zufrieden."

Anzeige