Analyse und Bearbeitung der Daten mit XPREP

1. Die HKL-Datei

Wechselt in das Verzeichnis ~/tutorial/user (siehe Linux-Tutorial fuer Hinweise zum Verzeichniswechsel). Die gemessenen Daten liegen gespeichert in der Datei momo-new-unmerged.hkl vor. Eine HKL-Datei enthält Reflexe, die grundsätzlich 'Reflektionsebenen' des Kristallgitters (hkl) zugeordnet sind, wie es die Bragg'sche Gleichung beschreibt. Jeder einzelne experimentelle Reflex wird durch die Werte h k l, eine gemessene Intensität I und ihren Fehler sigma(I) charakterisiert.

Um die HKL-Datei mit dem Texteditor kate anzuschauen, muss der Befehl kate momo-new-unmerged.hkl & eingegeben werden. (Was macht das & am Ende? Siehe Linux-Grundlagen)

Das folgende Bild ist ein Ausschnitt der mit kate geöffneten Datei:

Jede Zeile entspricht einem gemessenen Reflex. Die ersten drei Spalten stehen für die Millerschen Indizes h, k und l und geben die Gitterebene an, zu der der Reflex gehört (s.o.). Die nächsten zwei Spalten geben die Intensität I des Reflexes und den dazugehörigen Fehler sigma(I) an. Die letzte Spalte gibt an, in welchem 'run' der Reflex gemessen wurde. Ein run ist eine Messreihe, bei der der Kristall um eine bestimmte Achse des Diffraktometers gedreht und dabei bestrahlt wird.

Beispiel 1: Der Reflex (326) kommt in der Liste dreimal vor, d.h. er wurde dreimal während der Messung beobachtet. Das erste Mal wurde der Reflex im 1. run mit einer Intensität von 57.80 gemessen (Fehler von 6%), das zweite Mal im 3. run mit einer Intensität von 50.34 (Fehler von 7%) und das dritte Mal im 4. run mit einer Intensität von 53.71 (Fehler von 6%). Bei Reflexen, die mehrfach gemessen wurden, können die Intensitäten gemittelt werden. Dadurch erreicht man ihre genauere Bestimmung und die Fehler werden reduziert.

Beispiel 2: Die Reflexe (226) und (-2-2-6) sind durch die Zentrosymmetrie des Beugungsbildes äquivalent und bilden ein sogenanntes Friedelpaar. Für solche Reflexe besagt das Friedelsche Gesetz:

I(hkl) = I(-h-k-l)

Allerdings ist dieses Gesetz streng nur für zentrosymmetrische Strukturen gültig, also solche, die in der Einheitszelle auch wirklich ein Inversionszentrum enthalten. Auch in diesem Fall können die Intensitäten der Reflexe gemittelt werden. Bei nicht zentrosymmetrischen Strukturen spielt die Anomale Streuung von eventuell vorhandenen Schweratomen eine Rolle und das Gesetz ist nur noch eine Annäherung.

Beispiel 3: Die Reihe (226), (22-6), (2-2-6), (2-26), (-2-26) und (-2-2-6) sind vermutlich symmetrieequivalente Reflexe, d.h. die Reflexe sind über Symmetrieoperatoren der Zelle miteinander verwandt. Weiß man, welche Symmetrie vorliegt, so können auch solche Reflexe gemittelt werden.

2. Das Programm XPREP

Um die Daten auf Symmetrieelemente hin zu analysieren und dementsprechend zu mitteln, verwendet man das Programm XPREP. Im Falle einer unproblematischen Struktur mit gutem Datensatz entspricht die Bedienung von XPREP weitgehend einem vorgefertigten Schema, so dass man in den meisten Fällen die vorgeschlagenen Optionen einfach nur bestätigen (sich 'durchentern') braucht. Allerdings sollte man dabei natürlich wissen, was man tut!

XPREP wird mit dem Befehl xprep name aufgerufen, in diesem Fall xprep momo-new-unmerged. So wird die zu analysierende HKL-Datei direkt eingelesen.

Es erscheint folgendes Bild (in einem neuen Fenster):

>

Es werden 36064 Reflexe vom file momo-new-unmerged.hkl eingelesen. Daraufhin wird die mittlere Intensität aller Daten über ihren Fehler berechnet - mean (I/sigma). Dieser Wert ist ein grober Richtwert für die Stärke der Daten. (Ein Wert von 1 würde bedeuten, dass die Intensität genauso gross wäre wie der Fehler - also handelte es sich quasi um reines Hintergrundrauschen).

Nun muss die schon während der Messung bestimmte Zelle angegeben werden und zwar in der Reihenfolge a b c alpha beta gamma [enter].
Die hier angegebenen Werte findet Ihr auch in der Textdatei momo.cell, ansonsten werden sie auf dem Projekte-Blatt genannt.

Na, was für ein Kristallsystem würdet Ihr hier aufgrund der Zellparameter erwarten? Mögliche Gitterzentrierungen werden nach Eingabe der Zelle anhand der erwarteten und tatsächlich vorhandenen Auslöschungen (Fehlen von Reflexen, s.u.) überprüft:

Die erste Zeile (N total) gibt an, wieviele der vorhandenen Reflexe den Auslöschungen fuer eine Zentrierung widersprechen, um eine bestimmte Gitterzentrierung vorzufinden. Die Zeile N (int>3sigma) gibt an, wieviele von diesen Reflexen stark sind und das Auslöschungsgesetz verletzen. Die weiteren Zeilen sind Angaben zur Intensität der genannten beobachteten (bösen) Reflexe.

Das primitive Gitter erzeugt keine Auslöschungen, weswegen auch in allen Zeilen Nullen auftreten.

Beispiel: Wuerde ein innenzentriertes Gitters I vorliegen, wuerde man auch hier erwarten, dass die Zahl der Reflexe, die die Ausloesungen verletzten, nahe bei Null sind. Es gibt aber 18037 Reflexen, von denen 12180 mit einer hohen Intensität (I > 3sigma) auftreten, die das Auslöschungsgesetz der I-Zentrierung verletzen. Bei der analogen Betrachtung der weiteren Zentrierungen stellt man fest, dass wahrscheinlich ein P-Gitter vorhanden ist (wie vom Programm auch vorgeschlagen wird).

Der Programmvorschlag [P] wird bestätigt [enter], so dass man zum Hauptmenü von XPREP gelangt:

Der obere Teil des Hauptbildschirms besteht aus einer Informationsleiste. In der ersten Zeile wird angegeben, um welchen Datensatz es sich handelt (momo-new-unmerged.hkl), bei welcher Wellenlänge dieser gemessen wurde (bei Molybdän-Röntgenstrahlung 0.71073 A) und ob es sich um eine chirale Raumgruppe handelt (in diesem Fall noch nicht klar). Es folgen die am Anfang angegebene Zelle, das daraus berechnete Zellvolumen und der schon ermittelte Gittertyp (P). Die folgende Zelle (current cell) ist die Zelle, mit der man gerade arbeitet. Oft handelt es sich bei der 'original cell' und der 'current cell' um ein und dieselbe Zelle, aber XPREP stellt (manchmal unerwünschterweise) Zellen um, die nicht konventionell aufgestellt sind. Will man daher die 'current cell' ändern, so muss man ggf.mittels einer Matrixtransformation (Option U im Menü) die Aufstellung wiederherstellen.

Der untere Teil ist das Befehlsmenü. Die bei einer Standard-Datenbearbeitung verwendeten Befehle werden vom Program schon vorgeschlagen.

Als erstes wird überprüft, ob das System eventuell einer höheren Symmetrie unterliegt, der bereits vorgegebene Befehl ist [H] -> [enter]

Aufgrund der vorliegenden Zellkanten und Zellwinkel schlaegt das Programm 'orthorhomisch' vor. Dies wird bestaetigt: Option [A] -> [enter] (hier nicht aufgeführt).

Nun kann die Raumgruppe ermittelt werden. Mit der Bestätigung des Befehls [S] -> [enter] kommt man zu folgendem Untermenü:

Die Chiralität der Verbindung interessiert an dieser Stelle erstmal nicht (Befehle [C] oder [N]).

Da die Raumgruppe auch nicht bekannt ist (sonst [I]), wählt man den vorgegebenen Befehl [S] -> [enter]. Nach der Bestätigung des orthorhombischen Kristallsystems [O] -> [enter] werden die Auslöschungen bezüglich des Gittertyps erneut überprüft. Das Ergebnis ist wieder ein primitives Gitter [P] -> [enter].

Es folgt die eigentliche Ermittlung der Raumgruppe. Als Anhaltspunkte dienen unterschiedliche Kriterien:

1. Die E-Wert Statistik. Als Hinweis, allerdings nicht als Beweis, für oder gegen eine zentrosymmetrische Raumgruppe verwendet man die E-Wert Statistik. Dabei handelt es sich um eine Statistik, die E-Werte verwendet, das sind normalisierte Strukturfaktoren, d.h. gewichtete und auf die Beugungswinkel bezogene Amplituden (vom Betrag her die Wurzel der Reflex-Intensitäten). Man beobachtet folgendes: In zentrosymmetrischen Strukturen ist die statistische Häufigkeit besonders starker und schwacher E-Werte größer als in nicht zentrosymmetrischen. Um diesen Unterschied zu erkennen berechnet man den Mittelwert von ¦E²-1¦: für nicht zentrosymmetrische Strukturen beträgt er theoretisch 0.736 und für zentrosymmetrische 0.968. In diesem Fall ist er 0.789, also handelt es sich wahrscheinlich um eine nicht zentrosymmetrische Raumgruppe.

2. Die Auslöschungen. Auslöschungen werden nicht nur von unterschiedlichen Gittertypen erzeugt, sondern auch durch das Vorhandensein von translationshaltigen Symmetrieelementen, das sind Schraubenachsen oder Gleitspiegelebenen. Die Auswertung der Auslöschungen erfolgt in drei Blickrichtungen (die Blickrichtungen sind für jedes Kristallsystem einzeln festgelegt). In diesem Fall kann man zweizählige Schraubenachsen 2(1) entlang aller drei Blickrichtungen erkennen. Zum Beispiel werden zwar entlang der ersten Blickrichtung 13 Reflexe beobachtet, die die Auslöschungen verletzen ('Systematic absence exceptions'), aber diese Reflexe sind alle schwach (N=0 fuer int>3sigma), was das Vorhandensein der Schraubenachse bestätigt. (Ebenso 17:0 und 94:2 in den anderen beiden Richtungen). Die letzte Zeile zeigt auch die mittlere Intensitaet ueber dem Fehler an fuer die Reflexe, die die Symmetrieelemente verletzen (ueberall fast Null fuer die Schraubenachsen, aber hohe Werte fuer die anderen Symmetrielemente. Wofuer steht eigentlich b-- oder -a- in der Tabelle?).

Wir wissen also, dass es sich um ein orthorhombisches und primitives Gitter P handelt, dass eine nicht zentrosymmetrische Raumgruppe vorliegt und dass entlang aller Blickrichtungen, die im orthorhombischen System die drei Zellkanten sind, zweizählige Schraubenachsen vorhanden sind. Von den 230 Raumgruppen kommt bereits nach den ersten zwei Kriterien nur eine in Frage, die diese Eigenschaften zeigt: P2(1)2(1)2(1). Entscheidender für die Vorhersage von Raumgruppen sind im Zweifelsfall übrigens die Auslöschungen und nicht die E-Wert-Statistik, welche in unserem Fall also eigentlich überflüssig ist.

3. Die Häufigkeit der Raumgruppe. Vor allem, wenn noch mehrere Raumgruppen zur Auswahl stehen, ist die Häufigkeit wichtig, mit der eine Raumgruppe in der Natur auftritt. Diese wird durch die Anzahl bekannter Strukturen angegeben, die in derselben Raumgruppe kristallisieren und in der CSD (Cambridge Structural Database) aufgeführt sind. Eine äußerst seltene Raumgruppe ist mit großer Wahrscheinlichkeit falsch!
P2(1)2(1)2(1) wird von XPREP als Option [A] vorgeschlagen. Die Nummer 19, die hier angegeben ist, ist die Nummer, unter der die Raumgruppe in den International Tables of Crystallography dokumentiert ist. Es folgen ein paar weitere Gütefaktoren, darunter die besagte CSD-Häufigkeit. Ein zusammenfassender Hinweis auf die wahrscheinlichste Raumgruppe ist schließlich der CFOM-Wert (combined figure of merit), der möglichst niedrig sein sollte.

In unserem Fall wird die vorgeschlagene Option [A] natürlich auch wahrgenommen -> [enter].

Achtung! Hin und wieder kann XPREP keine eindeutige Raumgruppe bestimmen, z.B. bei euren Projektstrukturen. In solchen Fällen muß die Raumgruppe von Hand bestimmt und gesetzt werden. Seht euch dazu die E-Wert-Statistik und die Auslöschungen an. Unter den Menupunkten [S] 'Determine or input SPACE GROUP' und [I] 'INPUT known space group' kann eine Raumgruppe eingetragen werden.

Durch die Raumgruppeninformation P2(1)2(1)2(1) weiss man nun, welche Reflexe durch Symmetrieelemente miteinander verknüpft sind und ob Friedel-Paare wirklich als äquivalent angenommen werden dürfen (s.o.). Das langerwartete 'mergen' (Mitteln) der Reflexe kann also beginnen!

Mit dem Befehl [D] (read, modify or merge datasets) im Hauptmenü gelangt man zu folgendem Untermenü:

Im 'Index' findet man die zur Verfügung stehenden HKL-Dateien und darunter werden einige Optionen aufgeführt.

Bevor man die Reflexe mittelt, ist es sinnvoll die Datenstatistik anzugucken mittels Befehl [S] -> [enter]:

Um eine Datenstatistik zu erstellen, mittelt XPREP die Daten 'im Voraus'. Dabei muss man entscheiden, was für eine Mittelung stattfinden soll. Das Friedel'sche Gesetz spielt eine entscheidende Rolle. Ist die Raumgruppe zentrosymmetrisch, so gilt das Friedel'sche Gesetz und Friedelpaare können ohne schlechtes Gewissen mit gemittelt werden (Option [A]). Ist die Raumgruppe allerdings nicht zentrosymmetrisch, so sollten Friedelpaare lieber nicht gemittelt werden, sondern nur die 'regulär' symmetrieverwandten Reflexe (Option [S]).

Da P2(1)2(1)2(1) zur letzteren Kategorie gehört, wird entgegen dem Vorschlag die Option [S] gewählt.

Es folgt die Datenstatistik:

Die Reflexe werden in Auflösungsschalen unterteilt, die in der ersten Spalte zu sehen sind. Es folgen die Reflexe, die in der jeweiligen Auflösungsschale gemessen wurden (Spalte data). Die nächste Spalte gibt an, wieviele Reflexe nach der vorhandenen Symmetrie hätten beobachtet werden sollen (theory). Daraufhin folgt die aus den letzten zwei Spalten berechnete Vollständigkeit der Daten. Dies ist eine sehr wichtige Angabe, da mangelnde 'Completeness' Anlass sein könnte eine Messung fortzusetzen um weitere Reflexe zu sammeln. Die fünfte Spalte stellt das Motto der Abteilung Sheldrick dar: REDUNDANZ! Diese gibt an, wie oft die symmetrieunabhängigen Reflexe im Mittel gemessen wurden und sollte möglichst hoch sein, da ja Mittelwertbildungen grundsätzlich genauer werden, je mehr Daten zum Mittlen zur Verfügung stehen. Bei den beiden folgenden Intensitätsangaben ist mean I/sigma wichtiger als die einfache mittlere Intensität, da die Fehler (sigma) berücksichtigt werden. Die letzten zwei Spalten listen die Gütefaktoren R(int) und R(sigma) auf, beide sollten möglichst niedrig sein.

Bei diesem Datensatz erkennt man leicht, dass die Daten bis auf die letzte Auflösungsschale (0.80-0.78 Angström, hoch aufgelöste Daten) relativ gut sind. Die Vollständigkeit ist hoch, die Redundanz ist mindestens vier und die mittlere Intensität/sigma fällt nicht unter fünf. Die Tendenz der Daten zu höheren Auflösungen hin schlechter zu werden ist normal und vor allem in der höchsten Auflösungsschale deutlich zu erkennen. Die Sprünge in der Vollständigkeit, der Redundanz und im Rsigma-Wert sind so hoch, dass es sogar besser ist die Daten in diesem Bereich zu verwerfen.

Um die Daten zu 'schneiden' wählt man den Befehl [H] (apply high/low resolution cutoffs):

Die höchste Auflösungsgrenze wird auf 0.80 Angström gehoben, die niedrigste Auflösungsgrenze wird nicht verändert ([inf] -> [enter]).

Guckt man sich die Datenstatistik erneut an, so erkennt man, dass sämtliche Werte für den gesamten Auflösungsbereich besser geworden sind (letzte Zeile, Auflösung Inf-0.80):

Achtung! Die Daten eurer Projektstrukturen sind in der Regel sehr gut und müssen daher meist nicht geschnitten werden.

Nun werden die Daten mit dem Befehl [M] (sort-merge current data) wirklich gemittelt. Dabei muss man wieder auf die richtige Behandlung der Friedelpaare achten, also in unserem Fall wieder [S]. Damit allerdings die gemittelten Daten auch tatsächlich als Datei vorliegen, muss man sie anschließend mit dem Befehl [W] speichern:

Es erfolgt zunächst die Angabe des Formats der zu erstellenden Datei. Für die weiteren Programme ist das HKLF4-Format erforderlich, d.h. [4] -> [enter] Die neue Datei wird momo-new.hkl genannt (und enthält nur noch 5580 gemittelte, daher - bis auf die Friedel-Partner - einzeln (unique) vorliegende Reflexe). Es ist sehr wichtig, dass der Name der neuen gemittelten Datei ein anderer ist als der der Originaldatei! Die letzte Eingabe [0] -> [enter] besagt, daß die Reflexe auch alle für die später folgende Verfeinerung verwendet werden - bei Makromolekül-Verfeinerungen würde man normalerweise 5% gesondert behandeln.

Achtung! Wenn ihr nicht sicher seid, ob und wie ihr bei euren Projektstrukturen mitteln duerft: bei zentrosymmetrischen Raumgruppen duerfen alle Reflexe gemittelt werden, bei nicht-zentrosymmetrischen oder chiralen Raumgruppen aber nicht. Die richtige Mittelung wird spaeter von den Programmen automatisch durchgefuehrt. Ihr koennt daher an dieser Stelle bei euren Projektstrukturen auch die ungemittelten Daten abspeichern (Option [W]).

Die neue Datei ist auch im folgenden Index als #3 zu sehen (#2 ist die ursprüngliche, aber 'geschnittene' Datei):

Anmerkung: Wenn Ihr an dieser Stelle den [W]-Befehl nicht verwendet habt, könnt Ihr auch später noch die Datei schreiben (s.u.)

Die Daten sind nun gemittelt und liegen als momo-new.hkl Datei vor.

Wir können zum Hauptmenü zurückkehren mittels Befehl [E].

Eine Aufgabe bleibt noch. Es fehlt die Befehlsdatei, die das Programm SHELXS zur Strukturlösung braucht. Um diese zu erstellen, müssen wir angeben, was für eine Struktur wir ungefähr erwarten.

Die Art und Häufigkeit vermutlich vorhandener Atome wird mit dem Befehl [C] (define unit-cell contents) -> [enter] angegeben:

Eine Art Summenformel wird verlangt, wobei man für bestimmte Gruppen die angegebenen Abkürzungen verwenden kann.

Unsere Angabe C13 H22 O6 stützt sich auf genaue Kenntnis des erwarteten Moleküls.

In den Projekten zieht Ihr die auf dem Informationsblatt gegebenen Produkt-Vermutungen heran. Dabei ist es wichtig, dass ihr die ungefaehre Zusammensetzung chemisch sinnvoll abschaetzt, z.B. werden in einem Kobalt-Komplex wahrscheinlich ein oder zwei Kobaltatome auf vielleicht 10 Ligandenatome (C, N oder O) kommen, aber nicht andersherum, z. B. 10 Kobalt-Atome auf ein C.

Mit dieser Angabe berechnet XPREP die Zahl Z. Diese ist definiert als die Anzahl der Formeleinheiten (oft gleichzusetzen mit Molekülzahl) in der Zelle. Teilt man das Zellvolumen durch das von allen Nicht-Wasserstoffen der Formeleinheit benötigte Volumen (ungefähr je 18 A³, siehe Vorlesung) ergeben sich hier 8 Formeleinheiten. Die Raumgruppe P2(1)2(1)2(1) hat vier asymmetrische Einheiten in einer Zelle. Das heisst, dass sich in jeder asymmetrischen Einheit, dem unabhängigen Teil der kristallographischen Struktur, zwei Moleküle befinden sollten (was sich später bestätigen wird). Zurück zum Hauptmenü findet man die zuletzt gewonnenen Informationen in der Infoleiste wieder:

Unter der Matrix stehen das Kristallsystem, die Raumgruppe und die Lauegruppe. Es folgen die Formel, und daraus berechnet die meisten der folgenden Größen: das Molekulargewicht, Z, die Kristall-Dichte, das 'tatsächliche' Volumen eines Nicht-Wasserstoffatoms (s.o) sowie die Gesamt-Anzahl der Elektronen in der Zelle (F(000)). Mu ist ein berechneter Absorptionskoeffizient.

Mit dem Befehl [F] -> [enter] wird nun die INS-Datei erzeugt. Sie sollte denselben Namen haben wie die neue HKL-Datei, also hier momo-new.

Es wird nun automatisch der Inhalt der erzeugten Datei momo-new.ins angezeigt. Die erste Zeile ist der Titel (TITL) der Datei, momo-new in der Raumgruppe P2(1)2(1)2(1). Bei der Zellangabe (CELL) wird zunächst die Wellenlänge aufgeführt und dann erst die Zellparameter. Direkt darunter bei ZERR stehen Z, sowie die Fehler des jeweiligen Zellparameters. LATT gibt an, ob ein Inversionszentrum vorhanden ist. Der Wert ist für zentrosymmetrische Strukturen 1 und für nicht-zentrosymmetrische -1. Daraufhin folgen die Symmetrieoperatoren unter SYMM, die zu dieser Raumgruppe gehören (nicht aufgeführt ist der 'Grund-Operator' x, y, z, der für jede Raumgruppe gilt). Unter SFAC sind die vermutlich vorhandenen Atome aufgelistet, anhand derer für Strukturlösung und -verfeinerung wichtige atomare Streufaktoren berechnet werden. Unter UNIT wird dann angegeben, wieviele Atome von der jeweiligen Sorte in der Zelle zu finden sind. Nun kommt der eigentliche Befehl zur Strukturlösung: TREF (siehe nächstes Kapitel). Die Angabe zum HKL-Dateiformat HKLF4 (entspricht im wesentlichen dem der Anfangsdatei) und END vervollständigen die INS-Datei.

Da die gemittelte HKL-Datei schon geschrieben wurde, wird die folgende Frage mit [N] -> [enter] beantwortet, anderenfalls mit [Y], wobei die dann geschriebene HKL-Datei automatisch so hiesse wie die INS-Datei.
Alles ist nun für den bevorstehenden Versuch der Strukturlösung vorbereitet und das Programm XPREP kann mit [Q] -> [enter] verlassen werden. Weiter geht es mit dem Programm SHELXS im nächsten Kapitel.