Die Software SQLite ist eine verbreitete Programmbibliothek. Sie bietet die vollständige Laufzeitumgebung für eine SQL-basierte Datenbank. Die Besonderheit ist, dass sie den Datenbestand in einer einzelnen Datei vorhält. Zudem ist sie mit der Abfragesprache SQL kompatibel. Die Software ist gemeinfrei, also frei von Urheberrechten. SQLite ist in allen gängigen Betriebssystemen implementiert.

Geschichte und Herkunft

SQLite wurde im Jahr 2000 durch D. Richard Hipp im Rahmen seiner Tätigkeit für die amerikanische Firma General Dynamics entwickelt. Dies geschah im Auftrag der Marine des US-Militärs. Zunächst handelte es sich um eine Erweiterung der Skriptsprache Tcl. Inzwischen wird SQLite von zahlreichen Programmier- und Skriptsprachen unterstützt.

Der Name setzt sich aus der Abkürzung für die Abfragesprache Structured Query Language (SQL) und der umgangssprachlichen Bezeichnung Lite, für eine „abgespeckte“ Version, zusammen. Aktuell wird das Projekt SQLite von D. Richard Hipp und zwei weiteren Entwicklern fortgeführt.

Obwohl SQLite lizenzfrei angeboten wird, ist es möglich, kostenpflichtigen Support und Erweiterungen bei den Entwicklern zu erwerben.

Details zur Funktionsweise

Die SQLite-Bibliothek ist in Desktop Betriebssystemen wie Windows, MacOS und den Linux-Distributionen enthalten. Auch die verbreiteten Smartphone-Betriebssysteme Android und iOS unterstützen SQLite nativ.

Die gesamte Anwendung läuft in einem Prozess. Anders als bei anderen Datenbanksystemen, wie MySQL, ist keine Server-Client-Architektur nötig.

SQLite verwendet eine relationale Datenbank. Die Daten werden in Tabellen abgelegt, die spaltenweise über einen Identifier angesprochen werden können. Dies hat den Vorteil, dass Daten nicht redundant vorgehalten werden müssen. Vielmehr können die Inhalte einer Tabelle mit einer oder mehreren Spalten anderer Tabellen verknüpft, also in Relation gesetzt werden.

So ist es typisch für eine Speicherung in relationalen Datenbanken, dass Daten je nach Zweck in unterschiedlichen Tabellen abgelegt werden. Eine Mail-Software könnte beispielsweise folgende Tabellen in ihrer Datenbank führen:

-Kontakte: Enthält die Mailadressen der Kommunikationspartner,

-Konversation: Speichert den Mailverlauf mit einem Gesprächspartner,

-Mails: Beinhaltet die Metadaten einzelner Mails,

-Attachments: Weist Metadaten und Pfade von Anlagen auf.

Anstatt nun in jeder Spalte der Tabelle „Mails“ die Adressen der Absender und Empfänger aufzuführen, wird dort nur die Ordnungsnummer des Kontakts abgelegt. Entsprechend erfolgt die Zuordnung der Anlagen und die Zuordnung einer einzelnen Mail zu einer Konversation.

Datentypen unter SQLite

Daten können in verschiedenen Formaten abgelegt werden. Dies erleichtert die Weiterverarbeitung ohne vorherige Konvertierung. Mögliche Datentypen sind: Null (Nullwert), Integer (Zahlenwert), Real (Fließkommazahl), Text (Klartextlicher Inhalt) und Blob (Binärwert).

Hiermit sind alle Datentypen abbildbar. So werden Datumswerte häufig als Zahlenwert, etwa im Format Unix-Time (Sekunden seit dem 01.01.1970), abgelegt. Alternativ findet sich auch eine Notierung im klartextlichen Datumsformat.

Sehr universell wird der Datentyp Blob (Binary Large Object) eingesetzt. Es können beispielsweise Vorschaubilder darin abgelegt werden. Ebenso finden sich aber auch Konfigurationsdateien, etwa im XML- oder PLIST-Format, in Blob-Datenfeldern.

Datensicherheit und temporäre Dateien

SQLite beherrscht zwei Methoden zur Gewährleistung der Konsistenz einer Datenbank.

Eine Möglichkeit ist das Führen eines Rollback-Journals. Hier wird beim Öffnen der Datenbank ein temporäres Journal erstellt. Dies erhält den Namen der Datenbank mit der Endung „-journal“. In der Datei werden die vorgenommenen Änderungen dokumentiert. So kann beim Auftreten von Problemen eine Wiederherstellung (Rollback) erfolgen.

Die andere Alternative ist die Nutzung des Write-Ahead-Logs (WAL). Bei dieser Methode werden Änderungen zunächst in die Logdatei geschrieben. Die permanente Übernahme in die Datenbank erfolgt beim ordnungsgemäßen Schließen der Datenbank oder durch manuelle Speicherung mit einem Commit-Befehl.

Zudem wird in diesem Fall ein Index in der „Shared-Memory“-Datei (SHM) geführt.

Entsprechend werden bei dieser Methode zwei temporäre Dateien angelegt. Diese erhalten den Namen der Datenbank mit den Endungen „-shm“ und „-wal“.

Schnittmengen mit SQL

Die Verarbeitung der Inhalte in SQLite-Datenbanken erfolgt mittels der Abfragesprache nach dem SQL-92 Standard. Hierdurch ist gewährleistet, dass SQL-Befehle und Abfragen angewendet werden können.

Die Speicherung eines Kontaktes könnte beispielsweise durch einen Befehl nach dem Muster

INSERT INTO kontakte (lfd_nr, name, vorname, mailadresse, rufnummer) VALUES (1, „Mustermann“, „Max“, „mustermann@muster.xyz“, „0123/45678“)

erfolgen. Hierdurch würden in der Tabelle „kontakte“ in die Spalten innerhalb der ersten Klammer die Werte aus der zweiten Klammer eingetragen.

Inhalte aus verschiedenen Tabellen können durch den Befehl JOIN kombiniert werden. Zudem ist es möglich, die Ausgaben beispielsweise durch Befehle wie WHERE und LIKE an Bedingungen zu knüpfen.

Anwendungsgebiete von SQLite

Inzwischen findet man SQLite-Datenbanken als Unterbau vieler Anwendungen. Gängige Apps auf Smartphones, zum Beispiel Messenger wie WhatsApp und Facebook, legen ihre Daten darin ab. Ebenso Browser wie Firefox und Chrome auf Desktop-PC.

Auch kommerzielle Programme nutzen SQLite. Dies bietet sich für verteilte Anwendungen an. Es muss nur die Datenbank für alle Anwender freigegeben sein. Hierdurch ist auch keine besondere Performanz mehr nötig und es ist gut möglich, diese auf virtuellen Servern bereitzustellen.

Ein solcher muss sich nicht notwendigerweise physikalisch im eigenen Netzwerk befinden. Zur Gewährleistung der Verfügbarkeit können sich hierfür extern gehostete Server anbieten.

Bei Microsoft SQL (MS-SQL) handelt es sich um ein relationales Datenbankmanagementsystem, welches von dem US-Konzern in den 90er-Jahren veröffentlicht wurde. SQL ist speziell für Anwendungen konzipiert, die in Unternehmen eingesetzt werden. Das Datenbankmanagementsystem orientiert sich an standardisierten SQL-Versionen und wird von Microsoft durch zusätzliche moderne Features ergänzt.

Die Geschichte von MS-SQL

Seinen Ursprung hat MS-SQL Ende der 80er-Jahre. SQL basiert auf einem von der Firma Sybase entwickelten Code. Im Rahmen einer Zusammenarbeit zwischen den Firmen Microsoft, Sybase und Ashton-Tate wurde die erste Version des Datenbankmanagementsystems für das Betriebssystem OS/2 veröffentlicht. Im Jahr 1992 erschient für OS/2 bereits die SQL-Version 4.2. Version 4.21 kam im Jahr 1993 auf den Markt und war erstmals mit Microsofts Windows NT kompatibel. Kurz darauf endete die Kooperation zwischen Microsoft und Sybase. Mittlerweile bieten beide Unternehmen eigene SQL-Server-Versionen an: Sybase unter der Bezeichnung Adaptive Server Enterprise (ASE) und Microsoft unter dem Namen Microsoft SQL Server.

Wozu wird MS-SQL benötigt?

Wenn ein Unternehmen zum Beispiel ein CRM– oder ERP-System im Einsatz hat, dann benötigt die Software eine Datenbankstruktur, um Daten jedweder Art speichern zu können. Nach wie vor ist es gängig, dass vor allem Puristen den Betrieb von Datenbank-Servern nach wie vor gerne auf physischer Hardware bewerkstelligen. Mittlerweile lassen allerdings ein Großteil aller Datenbank-Server auf virtuellen Servern problemlos betreiben.

Grundsätzlich lässt MS-SQL dadurch beschreiben, dass die sogenannte Abfragesprache einen standardisierten Zugriff auf Datenbanken gewährleistet. Sowohl MS-SQL als auch MySQL können auf fast alle Datenbanksysteme angewendet werden. Mit Hilfe von MS-SQL können Administratoren oder Datenbank-Entwickler Tabellen erstellen oder abfragen ersten. Die SQL-Befehle „Select“ sowie „Create“ sind in diesem Zusammenhang wohl die am meisten genutzt Abfrage-Befehle.

Vor diesem Hintergrund ist es nützlich zu wissen, dass die Abkürzung „SQL“ für Structured Query Language, übersetzt „strukturierte Abfrage-Sprache“, steht. MS-SQL ist eine Abfragesprache für relationale Datenbanken, um etwa Tabellen zu definieren und Daten zu bearbeiten oder abzufragen. Häufige genutzte Daten von Unternehmen sind hierbei unter anderem Material- und Kundendaten, Rechnungen sowie Unterlagen für erhaltene Aufträge.

Redundanzen verhindern

MS-SQL ist für relationale Datenbanken entwickelt. Die dort hinterlegten Informationen sind üblicherweise auf viele verschiedene Tabellen verteilt. Dass Felder bzw. Informationen „doppelt“ vorkommen, ist nicht vorgesehen, wenn die Idee des relationalen Datenbankmodells eingehalten werden soll. Um Redundanzen (Doppelte Einträge) zu vermeiden, müssen alle notwendigen Informationen auf mehrere Tabellen verteilt und durch einen Schlüssel miteinander verknüpft werden. Diese essentiell wichtige Schlüssel wird auch als primärer Schlüssel bezeichnet und bildet das Fundament für eine relationale Datenbank auf Basis von MS-SQL.

MS-SQL geht mit der Zeit

MS-SQL hat eine lange Entstehungsgeschichte und konnte sich über alle die Jahre hinweg gegenüber etwaige Konkurrenzprodukte stets behaupten. Dafür sind vor allem permanente Weiterentwicklungen verantwortlich, welche sich dem jeweils aktuellen Stand der Technik angepasst haben und für den Einsatz im Unternehmen einen Mehrwert mit sich gebracht haben.

Aktuelle MS-SQL-Versionen sind überaus leistungsfähig und lassen sich problemlos im Big-Data-Umfeld sowie für komplexe Cloud-Lösungen einsetzen. Darüber hinaus ist die Realisierung von Datenbankmanagementsystemen für geschäftskritische sowie intelligente Anwendungen oder für hochskalierbare Hybrid-Datenbankplattformen im Bereich des Möglichen. Zum derzeitigen Leistungsspektrum von MS-SQL gehören unter anderem erweiterte Sicherheitsfeatures, In-Memory-Funktionen sowie Analysemöglichkeiten für große Datenbestände.

Auf der Basis von MS-SQL sind mittlerweile Apps verfügbar, welche Onlinetransaktionsverarbeitung (OLTP) mit einer sehr guten Skalierbarkeit und einer hohen Verfügbarkeit bereitstellen können. Umfassende Analysefunktionen stehen durch „R“, eine spezielle Statistiksprache, für SQL-Datenbanken zur Verfügung. Durch den Einsatz von „R“ ist selbst das Verschieben von Daten vollkommen überflüssig geworden. MS-SQL findet somit in Private Clouds, Public Clouds (zum Beispiel Microsoft Azure) oder in einem Rechenzentrum nach wie vor nützliche Verwendungen für die unterschiedlichsten Bereiche.

Überall dort, wo große Datenmengen in Netzwerken verarbeitet werden, ist eine leistungsfähige Datenbank notwendig. Sind eine Mehrbenutzerfähigkeit und hohe Performanz gefragt, wird diese oft durch SQL-Server realisiert. Hierbei handelt es sich um Software, die einen Dienst zur Speicherung, Bearbeitung und Abfrage von Datensätzen unterschiedlicher Art bietet.

Ein paar Details zu SQL-Servern

Allen SQL-Servern ist gemein, dass sie relationale Datenbanksysteme verwenden. Die zu speichernden Inhalte werden in zweckgebundene Tabellen abgelegt. Ziel ist, dass möglichst wenige Daten redundant gespeichert sind. Vielmehr werden diese mit Ordnungskriterien versehen und miteinander verknüpft, also in Relation gesetzt.

Dies bietet Vorteile bei der Verarbeitungsgeschwindigkeit und hält die Datenbank schlank. In einer Kundendatenbank könnten die Kontaktdaten beispielsweise in einer Tabelle verwaltet werden. Die Bestellungen hingegen würden in einer separaten Tabelle verwaltet und nur mit der Kennziffer des Kunden versehen. In gleicher Weise könnte es eine Tabelle für Rechnungen und Mahnungen geben. Für neue Einträge müssten nur die notwendigen Werte in der entsprechenden Tabelle erstellt werden.

Alle SQL-Server können mittels der namensgebenden Structured Query Language (SQL) angesprochen werden. Mittels der entsprechenden Syntax können Datensätze erstellt, verändert, gelöscht und abgefragt werden.

Ein einfacher Befehl zum Speichern eines Datensatzes lautet:

INSERT INTO Adressen (kundennr, nachname, vorname, strasse, plz, stadt) VALUES (1, „Mustermann“, „Max“, „Hauptstraße 1“ „12345“, „Musterstadt“).

Dieser speichert die Werte aus der zweiten Klammer in die Spalten der Tabelle „Adressen“. Die Namen der Spalten ergeben sich aus der ersten Klammer.

Die abgelegten Daten können unterschiedlicher Art sein. Wichtige Datentypen sind INTEGER (Ganzzahlen), FLOAT (Gleitkommazahl), CHAR (Zeichenketten), BOOLEAN (boolesche Wahrheitswerte) und BLOB (Binäre Werte, auch eingebettete Dateien wie Bilder sind möglich). Im Detail können die Datentypen bei unterschiedlichen Anbietern von SQL-Servern abweichen.

Die wichtigsten Anbieter von SQL-Servern

Es gibt mehrere Entwickler für SQL-Server. Darunter befinden sich kommerzielle aber auch kostenlose Anbieter. Die wichtigsten Anbieter sind die folgenden:

Oracle

Das älteste kommerzielle System ist der SQL-Server der Firma Oracle. Die erste Version erschien 1979. Bis zum heutigen Tag wird die Software weiterentwickelt. Je nach Art und Umfang des Einsatzes werden nicht unerhebliche Lizenzkosten fällig. Es handelt sich um einen der verbreitetsten SQL-Server, der Basis für viele kommerzielle Softwareprodukte ist.

Microsoft SQL-Server

Der SQL-Server von Microsoft ist das zweite kommerzielle System, welches zu den Marktführern zählt. Es wurde 1989 erstmals veröffentlicht und durch die Firma Sybase mitentwickelt. Anfangs gehörte es zum Betriebssystem OS/2 und wurde später für Windows NT portiert. Auch für den Einsatz dieses Systems sind Lizenzkosten zu entrichten. Bemerkenswert an Microsofts SQL-Server ist eine große Anzahl spezieller Datentypen. So sind zum Beispiel die Datentypen „smallmoney“ und „smalldatetime“ definiert.

MySQL / MariaDB

Das verbreitetste quelloffene Produkt ist der MySQL-Server. Dieser ist kostenlos für alle gängigen Betriebssysteme erhältlich. Zusätzlich wird ein kostenpflichtiges Enterprise-Paket angeboten, bei dem es zusätzlich Supportleistungen gibt. Erstmals vorgestellt wurde MySQL im Jahre 1995. Zunächst war die Firma „MySQL AB“ Entwickler. Das Unternehmen wurde später durch die Firma Sun aufgekauft. Inzwischen gehört MySQL zur Firma Oracle. MySQL hat eine hohe Verbreitung im Bereich von Webservern. Es ist in den Repositories der gängigen Linux-Distributionen enthalten. Daher können diese mit wenig Aufwand für den Einsatz eines MySQL-Servers eingesetzt werden.

Kurz nach der Übernahme von MySQL durch Oracle, spaltete sich im Jahr 2009 das Projekt MariaDB als Fork ab. Verantwortlich hierfür war Michael Widenius, der ehemalige Hauptentwickler von MySQL. Einige Linux-Distributionen setzen inzwischen als Standard auf MariaDB. Darunter Fedora, CentOS und openSUSE.

Weitere SQL-Varianten

PostgreSQL

Eine weitere quelloffene Alternative ist der PosgreSQL-Server. Dieser wurde 1996 veröffentlicht und wird von einer Entwicklergemeinschaft, der PostgreSQL Global Development Group, gepflegt. Eine Besonderheit ist, dass er eine objektrelationale Datenbank verwendet. Hierdurch können nicht nur Felder in Relation gesetzt werden, sondern Mengen von Datensätzen, die als Objekte zusammengefasst wurden. Deher kann unter PostgreSQL das Prinzip der Vererbung aus der objektorientierten Programmierung angewendet werden.

-SQL Anywhere

Das ebenfalls kommerzielle SQL Anywhere gehört zum in Deutschland ansässigen Unternehmen SAP. Dieses übernahm den ursprünglichen Entwickler Sybase im Jahr 2010 und entwickelt das Produkt weiter. Bemerkenswert ist, dass Sybase bereits für die Basis des Microsoft SQL-Server verantwortlich war.

Anwendungsgebiete für SQL-Server

Neben dem bereits erwähnten Einsatz im Bereich von Webanwendungen, nutzen häufig komplexe Anwendungen im Firmenumfeld SQL-Server. Ein Beispiel sind Softwareprodukte des Enterprise-Resource-Planning (ERP). Unter deren Entwicklern finden sich, nicht ganz zufällig, einige bereits aufgeführte Hersteller von SQL-Servern, wie Oracle, Microsoft und SAP.

Ebenso genutzt werden SQL-Server für Software auf dem Gebiet des Custom-Relationship-Managements (CRM). Hierbei geht es ebenfalls um die Erfassung und Verknüpfung vieler Datensätze, in diesem Fall zur Kundenpflege.

Aufgrund der besonderen Stellung eines SQL-Servers in Systemen, wird dieser häufig auf einem dedizierten Server betrieben. Hier kann Virtualisierung eine geeignete Lösung sein, da diese eine hohe Ausfallsicherheit und insbesondere Skalierbarkeit gewährleistet. Viele Hoster für virtuelle Server bieten kurzfristige Anpassbarkeit von Ressourcen. Hierdurch kann flexibel auf Belastungsspitzen reagiert werden.

Die National Security Agency (NSA) ist ein Auslandsgeheimdienst der Vereinigten Staaten von Amerika. Seine Hauptaufgabe besteht in der Überwachung elektronischer Kommunikation ausländischer Geheimdienste und Militärs. Das bringt ihm, berechtigt oder nicht, einige Kritik ein. Wussten Sie aber, dass Entwicklung und Forschung im Bereich von Sicherheit und Verschlüsselung auch Aufgaben des Geheimdienstes sind? Quellcode der Behörde befindet sich beispielsweise in fast jedem Android-Mobiltelefon und auf nahezu jedem Linux-Server.

Geschichte und Entwicklung der NSA

Gegründet wurde der Vorläufer der NSA, die Army Security Agency (ASA) 1945 durch den damaligen Präsidenten Harry S. Truman. Sie war zunächst eine Unterabteilung des Verteidigungsministeriums. Hauptgrund der Gründung war in der Anfangszeit die Spionage gegen das Deutsche Reich. Später trug der beginnende Kalte Krieg mit der Sowjetunion zum Fortbestand und Ausbau der Abteilung bei.

Im Jahr 1952 ging die NSA aus der ASA hervor. Sie ist mittlerweile der größte Auslandsgeheimdienst der USA.

De NSA hat über die Jahre beträchtliche Verdienste an der Entwicklung von Sicherheitsstandards in Hard- und Software erworben. Zum Beispiel auf dem Feld der Kryptografie.

Aufgaben der NSA heute

Die Aufgaben der NSA sind gesetzlich festgelegt. Sie hat Informationen zu sammeln, die zum Schutz der nationalen Sicherheit benötigt werden. Die zweite Hauptaufgabe ist der Schutz vor Angriffen auf geheime Informationen der US-Regierung. Die NSA untersteht dem Verteidigungsministerium. Das Internet wiederum basiert auf einer Entwicklung des US-Militärs, dem APRANET. Daher war die Behörde von Anfang an in die Entwicklung von Sicherheitsstandards eingebunden. Sie hat sich im Laufe der Jahre maßgeblich an der Forschung im Bereich der Verschlüsselungstechnik beteiligt. Dies beschreibt zugleich auch das dritte große Aufgabenfeld der NSA.

Entwicklung von Verschlüsselung

Die verschlüsselte Übertragung von Daten wurde in den 1970er Jahren als Schutz vor unbefugtem Abhören etabliert. Die NSA arbeitete früh an der Entwicklung und Implementierung von Algorithmen mit.

Der Data Encryption Standard (DES) wurde ab 1977 durch die US-Regierung für die verschlüsselte Übertragung von Daten eingesetzt. Der symmetrische Verschlüsselungsalgorithmus war für lange Zeit erste Wahl, wenn im Internet Daten verschlüsselt versandt werden sollten. Erst in den 1990er Jahren äußerten Forscher vermehrt Sicherheitsbedenken. Die Entwicklung erfolgte durch die Firma IBM, die US-amerikanische Behörde NBS (National Bureau of Standards) und die NSA. Sie war auch in die Planung und Ausschreibung eingebunden.

Am Nachfolger von DES, dem Advanced Encryption Standard (AES), war der Geheimdienst dann nicht mehr beteiligt.

Entwicklung von Software

Im Open-Source-Bereich hat die NSA gemeinsam mit Red Hat-Linux die Kernel-Erweiterung SELinux entwickelt. Diese setzt das Prinzip der Mandatory Access Control (MAC) für Zugangsrechte um. Nach der ist jeglicher Zugriff verboten, es sei denn, er wird explizit erlaubt. Das System wurde in den Linux-Kernel integriert (ab Version 2.6). In das Smartphone-Betriebssystem Android fand es mit der Version 4.3 als SEAndroid Einzug.

Seit 2017 veröffentlicht die NSA zahlreiche Programme auf Github.com in einem eigenen Repository. Darunter befinden sich einige zum Aufspüren von Sicherheitslücken. Auch Programme zum Absichern der eigenen Kommunikation werden angeboten, beispielsweise das VPN-Tool goSecure.

Für Aufsehen sorgte das kostenfreie Angebot des mächtigen Reverse-Engineering-Frameworks Ghidra. Dieses wird von Fachleuten als ernstzunehmender Konkurrent für das bekannte „IDA Pro“ angesehen.

Für alle Programme ist der Quellcode öffentlich. Daher können sich Sicherheitsexperten weltweit daran beteiligen, sie auf ihre korrekte Funktionalität zu überprüfen.

Dies wurde für Ghidra intensiv betrieben. Dabei fanden Forscher einen gravierenden Fehler im Code. Es herrscht aber Einigkeit unter den Fachleuten, dass es sich um einen Bug und keine Hintertür handelt.

Engagement im Bereich IT-Sicherheit

Die Behörde überprüft und zertifiziert Verschlüsselungsalgorithmen. Sie arbeitet mit Entwicklern von Verschlüsselung zusammen, beispielsweise beim Protokoll RSA.

In der „NSA Suite B“ werden die getesteten Produkte veröffentlicht und in Sicherheitsstufen eingeteilt. Sie empfiehlt beispielsweise folgende Standards:

-Verschlüsselung: AES (Schlüssellänge 128/256 für „geheim“/“streng geheim“)

-Digitale Signatur: ECDSA (Schlüssellänge 256/384 für „geheim“/“streng geheim“)

-Schlüsseltausch: ECDH (Schlüssellänge 256/384 für „geheim“/“streng geheim“)

-Hashfunktion: SHA-2 (Schlüssellänge 256/384 für „geheim“/“streng geheim“)

Die NSA veröffentlicht zudem Schwachstellen und Möglichkeiten, sich davor zu schützen. Über die Plattform Github.com lässt sich der „Hardware-and-Firmware-Security-Guidance“ herunterladen. Dieser gibt Anleitungen, sein System auf Verwundbarkeiten („Vulnerabilities“) zu überprüfen. Möglichkeiten zum Patchen werden dort beschrieben.

Sponsoring durch die NSA

Auch im Bereich der Ausbildung und Förderung junger IT-Talente engagiert sich die NSA. Sie pflegt Kooperationen mit Schulen. Ausgewählte Universitäten sponsert sie als Center of Academic Excellence (CAE). Zudem beteiligt der Geheimdienst sich an der Ausschreibung von Preisen für Forschungsergebnisse von Wissenschaftlern und Ingenieuren.

 

Lange Jahre wurde die Architektur von Speicher ausschließlich durch die Parameter der Hardware bestimmt. Zumindest, was Größe, Zugriffsgeschwindigkeit und Cache anging. Dynamische Volumes und RAID-Verbünde waren ein erster Schritt, zu mehr Flexibilität. Software defined Storage (SDS) ist die konsequente Fortentwicklung dieses Ansatzes. Der Speicherplatz wird dabei von der Hardware abstrahiert. Dies erlaubt maximale Flexibilität und Skalierbarkeit.

Wie funktioniert die klassische Speicherung von Dateien?

Bis der physikalische Speicher dem Benutzer zum Ablegen seiner Daten angeboten wird, durchläuft er mehrere logische Bearbeitungsprozesse. Dies beginnt beim Controller der klassischen Festplatte. Dieser fasst Speicherbereiche zusammen und bietet sie dem Dateisystem in einer logischen Adressierung an. In Flashspeicher ist ebenfalls eine Abstraktionsschicht integriert, der Flash Translation Layer (FTL). Dieser übernimmt die Adressierung des vom Controller verwalteten Speichers.

Sowohl vom Betriebssystem, als auch auf Hardware-Ebene, können Verbünde erzeugt werden. Beispielsweise durch einen RAID-Controller, der den Speicher von zwei oder mehr Festplatten transparent zu einem großen Bereich zusammenfasst. Auch auf Software-Ebene ist dies möglich, indem beispielsweise unter Windows aus mehreren Festplatten ein dynamisches Laufwerk gebildet wird.

Auf den so zur Verfügung gestellten Speicher greift das Dateisystem zu und übernimmt die Partitionierung sowie Speicherung der Dateien.

Bezüglich der Schreib- und Lesegeschwindigkeit ist man bei diesen Methoden immer auf das „schwächste Glied“ im Verbund reduziert. Die Ablage der Dateien erfolgt zufällig. Auch ist der Austausch oder die Erweiterung der Komponenten nicht in jedem Fall möglich, ohne den gesamten Verbund neu aufzubauen. Ausnahme hiervon sind natürlich RAID-Verbünde, die speziell auf Redundanz ausgelegt sind, dafür aber eine homogene Hardware benötigen.

Wie funktioniert Software defined Storage?

Software defined Storage (SDS) übernimmt mehrere Aufgaben, die zuvor durch unterschiedliche Komponenten erledigt wurden. Er setzt an der Stelle an, wo der Speicher vom Controller logisch zur Verfügung gestellt wird. Er fasst die eingebundenen Komponenten zusammen und setzt sie dynamisch ein.

Dabei kann heterogene Hardware zum Einsatz kommen, ohne dass hierdurch die gesamte Performance beeinträchtigt wird. Vielmehr werden beispielsweise schnelle Speicher für eine Zwischenspeicherung verwendet. Die Daten werden dann zu weniger lastintensiven Zeiten auf andere Bereiche verteilt. Weiterhin ist das Dateisystem ein fester Bestandteil des Systems. So wird dafür gesorgt, dass Daten nicht doppelt abgelegt werden. Sind Dateien inhaltlich mehrfach vorhanden, speichert das Dateisystem sie nur einmal ab und legt Verweise auf den Inhalt an. Diesen Vorgang nennt man Deduplikation.

Auch das Anlegen von Snapshots und Backups wird durch Software defined Storage (SDS) gewährleistet. Die Datenablage erfolgt in redundanten Arrays. So kann Datenverlust bei Ausfall einzelner Komponenten verhindert oder vermindert werden.

Ein großer Vorteil ist die bereits angesprochene Skalierbarkeit. Es ist zu jedem Zeitpunkt möglich, Speicher zu ergänzen. Auch ein Austausch oder das Entfernen von Komponenten ist im laufenden Betrieb möglich.

Anwendungsfälle für Software defined Storage

Software defined Storage (SDS) bietet die flexible Basis für gemeinsam genutzten Speicherplatz in lokalen Netzwerkverbünden. Hauptsächlich dürfte dies für Firmennetzwerke interessant sein. Aus allen bereits vorhandenen Servern kann ein Software defined Storage (SDS) gebildet werden. Auf diesem können dann die notwendigen Dienste angeboten werden. Eine Möglichkeit ist beispielsweise die Nutzung des Speicherplatzes als Fileservers. Auch beliebige Serverdienste können darauf ausgeführt werden. Diese dürfen auch in einer virtualisierten Umgebung laufen. Das gesamte System ist nach der Einrichtung zentral administrierbar.

Was ist Ceph?

Ceph ist eine freie Variante des Software defined Storage (SDS). Sie wird unter GNU Lesser General Public License angeboten (LGPL). Ceph läuft unter Linux und wird von einem Konsortium verschiedener Hard- und Softwarehersteller entwickelt. Unter den Firmen befinden sich Canonical (Entwickler von Ubuntu-Linux), Cisco, Fujitsu, Intel, Red Hat, SanDisk und SuSE-Linux.

Die Software läuft auf handelsüblicher Hardware. Zur Speicherung wird ein Algorithmus mit Namen CRUSH verwendet. Dies steht für Controlled Replication Under scalable Hashing und setzt die Verteilung der Daten im System um. Die Komponenten im System werden Object Storage Nodes (OSDs) genannt. Es ist eine Redundanz der Daten vorgesehen, die dafür sorgt, dass ausgefallene Komponenten ohne Datenverlust ersetzt werden können. Die Software bringt mit CephFS ein eigenes Dateisystem mit.

Was ist Storage Spaces Direct?

Storage Spaces Direct (S2D) heißt der Software defined Storage (SDS) von Microsoft. Das System ist bereits in den Datacenter-Versionen von Windows Server 2016 und 2019 integriert. Es kann also relativ einfach verwendet werden, wenn die Infrastruktur auf diesen Betriebssystemen basiert. Die Flexibilität ist allerdings insofern eingeschränkt, als dass für jedes eingebundene Gerät eine Lizenz erforderlich ist.

Die Einrichtung von S2D erfolgt per PowerShell. Als Dateisystem kann das bekannte NTFS oder das für diesen Zweck optimierte ReFS zur Anwendung kommen. Bei ausreichend eingebundenen Komponenten liegt die Speichereffizienz bei bis zu 80 Prozent. Auch S2D bietet eine Wiederherstellung verlorener Dateien. Dies wird mit der Technik Local Reconstruction Codes (LRC) gewährleistet.

Weitere Anbieter von Software defined Storage

VMWare, der Spezialist für Virtualisierung, verwendet Software defined Storage (SDS) für seine Software vSAN, die Wiederherstellungssoftware Site Recovery Manager und sein Framework Virtual Volumes. Hierbei handelt es sich um ein kostenpflichtiges Angebot. Eine freie Alternative zu Ceph ist das Netzwerk-Dateisystem GlusterFS.

OpenStack Swift ist ein weiteres System zur Bereitstellung von Netzwerkspeicher aus verteilten Systemen. Es handelt sich dabei um Open-Source-Software, die also kostenfrei genutzt werden darf.

Gehört Software defined Storage die Zukunft?

Es sieht im Moment danach aus, dass Software defined Storage (SDS) das Konzept der Zukunft ist. Insbesondere gegenüber vorhandenen NAS- und SAN-Lösungen besticht es durch seine Flexibilität.  Man kann Hardware kann integrieren. Zuwächse in der Performance sind auch mit geringen Investitionen möglich. Zudem scheint der integrative Ansatz ein großer Vorteil bei der Administration zu sein. Backup-Strategien müssen beispielsweise nicht separat entworfen werden. Die Möglichkeit zur zentralen Administration ist ein grundsätzlicher Bestandteil der Technologie. Zudem sind keine Beschränkungen bei der Art der Nutzung des Speicherplatzes des Software defined Storage (SDS) gegeben. Somit harmoniert es beispielsweise gut mit dem Konzept der Virtualisierung von Systemen.

Storage Spaces direct (S2D) ist ein System von Microsoft, mit dem skalierbarer softwaredefinierter Speicher realisiert wird. Es handelt sich um eine Funktion für die Betriebssysteme Windows Server 2016 und 2019 Datacenter. Dabei wird ein Cluster aus den physikalischen Speichermedien der eingebundenen Server erstellt und logischer Speicherplatz gebildet. Dieser ist hochverfügbar und kann unkompliziert erweitert werden.

Wie funktioniert Storage Spaces direct im Detail?

Direkte Speicherplätze, wie Storage Spaces direct (S2D) in deutschsprachigen Programmversionen heißt, nutzt das Prinzip der Virtualisierung. Aus den physikalischen Speichermedien, egal ob Festplatte, SSD oder NVM, wird ein Verbund gebildet. Der schnellste verfügbare Speicher wird dabei automatisch als Cache genutzt. In einer Abstraktionsschicht sorgt das Cluster Shared Volumes Filesystem (CSVFS) dafür, dass der gesamte Speicherbereich logisch wie ein Laufwerk verwaltet werden kann. Die Funktionalität der Dateiverwaltung wird optional durch das bekannte Desktop-Dateisystem NTFS oder ReFS, das spezielle Server-Dateisystem von Microsoft, gewährleistet. Microsoft empfiehlt die Verwendung von ReFS. Der Speicherplatz kann danach zentral verwaltet werden. Dies ist das Prinzip des softwarebasierten Speichers, dem Software-Defined Storage. Die Einrichtung und Verwaltung ist mit der integrierten Microsoft Powershell möglich.

Vorteile von Storage Spaces direct

Das System Storage Spaces direct (S2D) ist direkt in die neuen Server-Betriebssysteme integriert. Hierdurch ist eine reibungslose Einbindung gewährleistet. Aus einer gewachsenen, heterogenen Server-Landschaft kann ein einheitlicher Speicher gebildet werden, der für alle eingebundenen System verfügbar ist. Dieser ist in der Folge auch zentral administrierbar.

Das System ist zudem skalierbar. Mit wenigen Befehlen können nachträglich weitere Komponenten hinzugefügt oder ausgetauscht werden.

Ein bedeutendes Merkmal ist die Ausfallsicherheit. Hier unterscheidet man zwischen der Einzelparität, die einem RAID-5 gleicht und dadurch nur 50 Prozent des physikalischen Speichers nutzen kann und der dualen Parität. Diese ähnelt dem RAID-6 und die Effizienz steigt mit der Anzahl der eingebundenen Hardware-Speichermedien auf bis zu 80 Prozent.

Zudem verwendet Microsoft eine Technik mit Namen Local Reconstruction Codes (LRC). Dabei werden innerhalb der eingebundenen Medien kleinere Gruppen gebildet, damit der Aufwand zur Wiederherstellung nicht auf den gesamten Speicher angewendet werden muss, sondern nur auf die lokal betroffenen Bereiche. Zur Steigerung der Effizienz kann zudem parallel Spiegelung für Teile des Speichers verwendet werden. Dieser Speicher wird dann vorrangig für Schreibvorgänge genutzt und die Daten erste später in andere Speicherbereiche verschoben.

Nachteile von S2D

Storage Spaces direct (S2D) ist an die entsprechenden Server-Lizenzen gebunden. Das bedeutet, dass alle eingebundenen Systeme auch über eine Lizenz für Windows Server 2016 oder 2019 Datacenter verfügen müssen. Das verursacht Kosten von etwa 5000 Euro pro Server, der in den Verbund aufgenommen werden soll. Insbesondere wenn es vorrangig um eine File-Server-Funktionalität geht, gibt es günstigere Alternativen. Bei Nutzung als Plattform für virtuelle Maschinen, müssen die Kosten anderer kommerzieller Anbieter gegenübergestellt werden.

Alternativen zu Storage Spaces direct

Eine ähnliche Funktionalität wie Storage Spaces direct (S2D) bietet das 2012 vorgestellte Ceph. Das System wird unter der GNU-General Public License angeboten und ist damit kostenfrei. An der Weiterentwicklung arbeiten namhafte Firmen. So sind beispielsweise die Hardware-Herstellern CISCO, Fujitsu und Intel sowie Linux-Distributoren, wie Red Hat, SuSE und Canonical (Entwickler von Ubuntu) beteiligt. Es ist allerdings nur unter Linux lauffähig.