Tag Archives: DELL

Dell switch from Hell: Probleme mit PowerConnect 6224

eine Story über die Macht von Software über Netzwerke und eher mäßigen Support

Alles Begann mit einer Umstrukturierung des internen Netzwerks im Juli 2008.Es wurde geplant, das Netz in mehrere Segmente aufzuteilen und diese mit einem Layer-3 Switch zu verbinden. Die Entscheidung fiel auf einen Dell PowerConnect 6224. Da dies ein zentraler Knotenpunkt werden sollte, erwarben wir auch den Pro Support mit 4h vor Ort Austausch-Service.

Im Februar tauchten sporadisch kurze Netzwerkausfälle auf, die sich immer weiter häuften. Es stellte sich heraus, dass der Switch sporadisch neustartete. Nach einem Anruf bei Dell hatten wir innerhalb einer Stunde ein Austauschgerät. Respekt!

Allerdings war das Problem damit nicht behoben. Nach ca. 3 Wochen Mailverkehr mit der Softwareentwicklung in Irland bekam ich den Hinweis, doch das SSH mal abzuschalten und siehe da, es war Ruhe im Karton.In ca. 1 Monat sollte eine neue Software erscheinen mit einer neuen SSH-Implementierung. Das war zwar etwas unschön, da wir den Switch primär über SSH managen, aber für 1 Monat würde das gehen. Leider wurden daraus 3 Monate. Diese lief auch stabil und behob noch ein anderes Manko, nämlich, dass man das DHCP Relay nur global einschalten konnte, und nicht pro vlan.

Im November fingen die Probleme dann richtig an, als ich für ein VLAN das Routing abschalten wollte. Über einen Zeitraum von ca. 15 min. funktionierte das Routing für das gesamte Netz nicht mehr. Interessanterweise passierte es nicht plötzlich, sondern nach und nach waren immer mehr Systeme nicht mehr erreichbar, als wenn der Routing Cache erst leerlaufen musste. Wenn man das Routing für das vlan wieder aktivierte lief wieder alles. Es ist mir nicht gelungen, dieses vlan abzuschalten ohne das Netz lahmzulegen, also habe ich es erstmal gelassen. Als wir später 2 zusätzliche LAG’s an den Switch anbinden wollten, bildeten sich plötzlich Netzwerkschleifen, wodurch das Netz zeitweise nicht  mehr benutzbar war.  Wir haben mehrere Tage intensiv den ganzen Netzaufbau nach möglichen Ursachen dafür abgesucht, konnten aber nichts finden. Also fragten wir mal beim Dell Support nach. Dieser verwies uns mehrfach an den kostenpflichtigen Konfigurationssupport . Beim dritten Anfruf endlich bekam ich die Aussage, dass die Software kurz nach der Veröffentlichung wieder zurückgezogen wurde, weil Diese Fehler en masse enthalte und ich solle doch bitte wieder ein Downgrade auf die alte Software durchführen. Gesagt, getan und wirklich, alles lief wieder vernünftig, ausser SSH natürlich.  Bis heute, nach über einem Jahr, ist noch keine neue Software erschienen und SSH ist nach wie vor nicht nutzbar.

Fazit: Der teure ProSupport von Dell nützt einem bei Softwareproblemen leider gar nichts. Mit den Servern von Dell haben wir wirklich sehr gute Erfahrungen gemacht, aber von den Switches, speziell dem 6224 und dem ProSupport dafür bin ich mehr als enttäuscht. Der nächste Layer-3 Switch wird definitiv kein Dell werden.  Schade, Dell hier besteht noch einiges an Nachholungsbedarf.

Generell kann ich Switches von Dell nicht sehr empfehlen, das reicht von langen Bootzeiten über nicht mehr erreichbare Webinterfaces (bis zum nächsten Neustart,eher suboptimal bei Netzwerkknotenpunkten) bis hin zu den merkwürdigsten Effekten in den Webinterfaces.

Update: Das Problem wird von DELL auch im englischen Community-Forum ignoriert: Link zum Post.

Update 2: Dell hat jetzt ein neues Minor-Release veröffentlicht, welches aber, laut den Release Notes, nicht das SSH-Problem behebt.

Update 3: Vor einigen Wochen hat Dell wieder eine neue Version der 3-er Reihe veröffentlicht und wir haben es eingespielt. Und oh Wunder, es gab noch keine Probleme und wir haben endlich wieder ssh. ;) Super Dell, nach ca. 1,5 Jahren haben wir endlich mal wieder eine sauber funktionierende Software…

MD3000i Performance-Test

DELL PowerVault MD3000iAls sekundäres Storage-System für unsere Datenarchivierung und Backups haben wir uns kürzlich die ISCSI-basierte PowerVault MD3000i von DELL angeschafft. Bevor das System in den Livebetrieb übergeht wird es unterschiedlichen, internen Tests unterzogen. Die wichtigsten Erkenntnisse meines ersten Performancetests stelle ich in diesem Artikel und die detaillierten Ergebnisse im Techstories-Wiki vor.

Die MD3000i ist in diesem Test mit 8 x 1TB SATA-Festplatten im RAID-10 Verbund konfiguriert. Als weiteres Hardware-Equipment stehen zwei managebare Gigabit-Switches für ein dediziertes ISCSI-Netzwerk und zwei ähnliche Serversysteme mit Windows Server 2003 und CentOS 5.3 zur Verfügung. Die Server sind mit 2 x 1GBe (loadbalancing) und das Storage mit 2 x 2 x 1GBe (redundanter Controller und loadbalancing) angebunden. Genauere Informationen zur Hardware und zum Test-Aufbau findet sich im Wiki.

Unter Windows wurden die Performancetests mit IOMeter und ORION (Oracle I/O Calibration Tool) durchgeführt. Leider erzielten die Tests mit IOMeter unter Linux noch aus ungeklärten Gründen nur einen Bruchteil der Performancewerte unter Windows: z.B. 180MB/s sequentielles 32k-Lesen unter Windows vs. 40MB/s unter Linux. Erst mit einer Block-Größe von 1MB statt 32k konnte ein ähnlicher, sequentieller Durchsatz erreicht werden. Daher wurde unter Linux erst einmal nur mit bonnie++ und dd getestet werden.

Die MD3000i erzielte eine maximale sequentielle Leserate von 200MB/s (6414 IOPS x 32k), eine sequentielle Schreibrate von 125MB/s (4025 IOPS x 32k) und 685 IOPS bei 8k-Random-Zugriff mit 70% Leseanteil. Interessanter als die nominalen Ergebnisse dieser spezifischen Storage-Konfiguration waren jedoch die Auswirkungen auf die Performancewerte bei unterschiedlichen Test-Parameter: Zugriff auf Raw-Device oder NTFS/Ext3/XFS-Dateisystem, Zugriff mit mehreren offenen IOs und Threads, Aktivierung von Flow-Control und Jumbo-Frames im ISCSI-Netzwerks. Die wichtigsten Erkenntnisse im Überblick:

  • Bei der Verwendung von NTFS mit 64k Clustergröße verringert sich die CPU-Belastung bei intensiven Schreibzugriffen zwischen 20 und 40%. Dabei verschlechtert sich die Performance bei Random-Zugriffen etwas (7%), der sequentielle Durchsatz bleibt konstant.
  • Auch bei aktiviertem Flow-Control im ISCSI-Netzwerk nimmt die CPU-Belastung stark bei intensiven Schreibzugriffen ab (20-40%). Im Vergleich zu NTFS 64k bricht dabei jedoch die Performance bei Random- und sequentiellem Zugriff nicht ein, sondern steigt minimal an. Fazit: Beste Performance bei annehmbarer CPU-Belastung.
  • Wird Jumbo-Frames im ISCSI-Netzwerk aktiviert, erhält man die geringste CPU-Belastung im gesamten Test: 13% geringer bei Random-Zugriff, 52% geringer bei seq. Lesen und 130% bei seq. Schreiben. Die Performance nimmt jedoch auch ab: 4,5% schlechtere Werte bei 32k seq. Lesen und 10% beim Random-Zugriff. Fazit: Geringste CPU-Belastung bei guter Performance.

Weitere Details und Testergebnisse unter Linux sind im Wiki-Dokument festgehalten.

Wenn es die Zeit zulässt, folgen noch Updates bezüglich einer weiteren Senkung der CPU-Belastung beim Einsatz von TOE (TCP Offload Engine) und Performance-Vergleichtests beim Einsatz von RAID-5/6 statt RAID-10.

Ausblick auf neue Blog-Themen:
In den nächsten Monaten wird das aufgebaute Hardware-Equipment für intensive Tests der drei großen Virtualisierungslösungen Citrix XenServer, Virtual Iron und VMWare ESX zum Einsatz kommen. Erste, unvollständige Grundlagen dazu finden sich hier.

DELL EqualLogic-Workshop

DELL-LogoVorgestern war ich auf einem EqualLogic-Workshop in Frankfurt. Gezeigt wurde nach etwas allgemeiner Dell-Hardware-Werbung die Live-Einrichtung einer PS5xxx und die wichtigsten Funktionen in der Webadministrationsoberfläche. Folgende Punkte finde ich besonders erwähnenswert:

  • Je 16 Festplatten (Fassungsvermögen eines EqualLogic-Systems) wird ein weiteres, vollwertiges Storage-System fällig. Mehrere Storage-Systeme (Array-Members) werden zu einer logischen Einheit (SAN-Group) zusammengefasst und erscheinen nach außen wie ein großes Storage-System mit einer virtuellen IP. Beste Voraussetzung für eine gute Skalierung vor allem im Bereich Performance. Die Kosten steigen jedoch auch linear.
  • Die EqualLogic bietet “Virtualisierungsfunktionen” für VMWare ESX und XenServer. Damit lassen sich Storage-Funktionen wie Neuanlegen von Volumes, Anpassen der Größe und Erstellen von Snapshots direkt in der Virtualisierung-Managementsoftware von VMWare und ESX durchführen. Hierzu ein Demo mit XenServer und EqualLogic.

Weitere Notizen zum Workshop findet sich im Wiki.