Benutzerhandbuch

Benutzerhandbuch
the high performance phylogenetic database
Benutzerhandbuch
Industrie- und Universitätsversion
Benutzerhandbuch für tree, Version 1.0.0.1
Publiziert von:
nadicom Gesellschaft für angewandte Mikrobiologie mbH
Pflanzgarten 10
D-35043 Marburg
www.nadicom.com
Die in diesen Unterlagen enthaltenen Angaben und Daten können ohne Ankündigung geändert werden. Die in
den Beispielen verwendeten Daten und Namen sind frei erfunden, soweit nichts anderes angegeben ist. Ohne
ausdrückliche schriftliche Erlaubnis der nadicom Gesellschaft für angewandte Mikrobiologie mbH darf kein Teil
der Unterlagen für irgendwelche Zwecke vervielfältigt oder übertragen werden, unabhängig davon, auf welche Art
und Weise und mit welchen Mitteln, elektronisch oder mechanisch, dies geschieht.
nadicom Gesellschaft für angewandte Mikrobiologie mbH, Februar 2007. Alle Rechte vorbehalten.
Printed in Germany.
nadicom Kundenservice
email: [email protected]
H
H
1
1
1
Inhaltsverzeichnis
WILLKOMMEN ....................................................................................................................................................... 6
2
INSTALLATION UND INBETRIEBNAHME VON TREE ............................................................................... 7
3
EINLEITUNG ................................................................................................................................................11
4
ARBEITEN MIT TREE ..................................................................................................................................12
4.1
tree – Übersicht über das Programm ...................................................................................................12
4.1.1
Vorteile und Methoden von tree ..........................................................................................................12
4.1.2
tree-Versionen .....................................................................................................................................13
4.1.3
Gliederung der Datenbank in Teil-Datenbanken .................................................................................14
4.2
Allgemeines ............................................................................................................................................17
4.2.1
tree starten und Anmelden des Benutzers ..........................................................................................17
4.2.2
Passwortänderungen vornehmen........................................................................................................18
4.2.3
Hauptfenster und Umgebungsfenster..................................................................................................20
4.3
Arbeiten mit dem tree-Umgebungsfenster...........................................................................................20
4.3.1
Übersicht über das Umgebungsfenster ...............................................................................................20
4.3.2
Die Schaltknöpfe „Import“ und „ABI“: EMBL, GenBank, FASTA- sowie ABI-Sequenzen importieren..24
4.3.3
Der Knopf openDB: Teil-Datenbanken öffnen und Sequenzen übergeben .........................................27
4.3.4
Der Knopf „Löschen“: Entfernen von Sequenzen aus dem Umgebungsfenster ..................................29
4.3.5
Die Taste „Ende“: tree beenden und temporäre Sequenzen verwerfen ..............................................30
4.4
Arbeiten mit dem tree-Hauptfenster .....................................................................................................31
4.4.1
Allgemeine Konzepte...........................................................................................................................31
4.4.1.1
Sequenzen auswählen und die aktuelle Sequenz......................................................................31
4.4.1.2
Das tree-Owner-Prinzip und die Autorisierungs-Dialoge............................................................32
4.4.1.3
Die Referenz-Datenbanken........................................................................................................34
4.4.2
Übersicht über das tree-Hauptfenster..................................................................................................37
4.4.3
Das Übersichtsfenster .........................................................................................................................39
4.4.3.1
Auswahl von Datensätzen im Übersichtsfenster ........................................................................40
4.4.3.2
Schnelles Öffnen und Schließen von Ordnern des Übersichtsfensters......................................42
4.4.3.3
Manipulation der Position einer Sequenz im Übersichtsfenster .................................................43
4.4.3.4
Darstellung importierter Sequenzen...........................................................................................44
4.4.4
4.5
Das Infofenster ....................................................................................................................................45
Allgemeine Funktionen des tree-Hauptfensters ..................................................................................49
4.5.1
Öffnen einer Teil-Datenbank ...............................................................................................................49
4.5.2
Anlegen einer neuen tree-Teil-Datenbank...........................................................................................49
2
2
4.5.3
Sicherungskopien von Teil-Datenbanken anlegen ..............................................................................50
4.5.4
Änderungen speichern ........................................................................................................................53
4.5.5
Sequenzen importieren .......................................................................................................................53
4.5.6
tree beenden .......................................................................................................................................56
4.5.7
Suchen und Finden .............................................................................................................................57
4.5.7.1
Übersicht....................................................................................................................................57
4.5.7.2
Suchen durchführen und Suchen kombinieren ..........................................................................57
4.5.7.3
Gefundene Sequenzen manipulieren.........................................................................................59
4.5.8
Datensätze verändern mit dem Dialog „Sequenzinformationen“ .........................................................60
4.5.8.1
Übersicht....................................................................................................................................60
4.5.8.2
Arbeiten mit dem Dialog „Sequenzinformationen“......................................................................61
4.5.8.3
Änderung des Namens eines Datensatzes ................................................................................62
4.5.9
Anlegen und Administrieren von Datenfeldern ....................................................................................63
4.5.10
Funktionen des Hauptfenster-Menüs „Bearbeiten“ .........................................................................65
4.5.10.1
Schnelle Manipulation der Sequenzauswahl..............................................................................65
4.5.10.2
Sequenzen und Filter kopieren ..................................................................................................65
4.5.10.3
Sequenzen und Filter entfernen.................................................................................................66
4.5.10.4
Ähnliche Sequenzen automatisch auswählen............................................................................67
4.5.10.5
Sequenzen revers-komplementieren .........................................................................................69
4.5.10.6
Identische Sequenz ...................................................................................................................70
4.6
Die Inhalte des Arbeitsfensters des tree-Hauptfensters oder: Analyseschwerpunkte ....................71
4.6.1
Alignments I: der tree-Alignment-Editor...............................................................................................71
4.6.1.1
Das Alignmentfenster.................................................................................................................72
4.6.1.2
Manuelle Alignmentkorrekturen .................................................................................................73
4.6.1.3
Modi des Alignment-Editors .......................................................................................................74
4.6.1.4
Der Align-Modus ........................................................................................................................76
4.6.1.5
Der Edit-Modus ..........................................................................................................................78
4.6.1.6
Entfernen von Sequenzrändern .................................................................................................80
4.6.1.7
Hinzufügen und Entfernen von Positionen des multiplen Alignments ........................................82
4.6.2
Alignments II: automatische Integration in das multiple Alignment ......................................................83
4.6.2.1
Alignen einer oder mehrerer Sequenzen ...................................................................................83
4.6.2.2
Alignmentkontrolle .....................................................................................................................85
4.6.3
Weitere Funktionen des Alignment-Menüs..........................................................................................86
4.6.3.1
Alignment oder Alignmentausschnitt als PDF exportieren .........................................................86
4.6.3.2
Alignmentausschnitt drucken .....................................................................................................88
4.6.3.3
Dargestellte Sequenzen zur Auswahl hinzufügen /aus Auswahl entfernen ...............................89
4.6.3.4
Multiples Alignment zweier Sequenzen vergleichen ..................................................................89
4.6.3.5
Paarweises Alignment zweier Sequenzen (berechnen und) vergleichen...................................90
4.6.4
Phylogenie I: das Phylogenie-Fenster ................................................................................................91
4.6.4.1
Darstellung von Phylogenien .....................................................................................................91
4.6.4.2
Auswahl-Modus: Sequenzen im Baum markieren, demarkieren und die aktuelle Sequenz
festlegen.....................................................................................................................................95
3
3
4.6.4.3
Modus „Namen ändern“: Ändern von Gruppennamen und Texten an den Ästen von
Stammbäumen („Beschriftung“) .................................................................................................95
4.6.4.4
Modus „Wurzel definieren“: aktuellen Baum neu wurzeln ..........................................................98
4.6.4.5
Die Modi „Äste drehen“ und „Baum ordnen“ : Ändern der Baum-Topologie ............................100
4.6.4.6
Gruppier-Modus: Definieren, komprimieren und expandieren von Sequenzgruppen...............100
4.6.4.7
Modi „Alle Gruppen komprimieren bzw. expandieren“: vereinfachtes Komprimieren und
Expandieren von Gruppen........................................................................................................105
4.6.4.8
4.6.5
Verschieben und Ändern des Maßstabs ..................................................................................105
Phylogenie II: Berechnung phylogenetischer Bäume .......................................................................106
4.6.5.1
Einführung................................................................................................................................106
4.6.5.2
Sequenzauswahl......................................................................................................................106
4.6.5.3
Auswahl des phylogenetischen Algorithmus ............................................................................107
4.6.5.4
Auswahl phylogenetischer Parameter......................................................................................109
4.6.5.5
Baumbenennung und Kommentierung ....................................................................................111
4.6.5.6
Die Taste „Daten übernehmen“................................................................................................111
4.6.6
Phylogenie III: Baumadministration und -ausgabe ............................................................................115
4.6.6.1
Der Baum-Administrations-Dialog............................................................................................115
4.6.6.2
Baum oder Baumausschnitt als PDF exportieren ....................................................................116
4.6.6.3
Bäume drucken........................................................................................................................117
4.6.6.4
Bäume im Newick-Format exportieren.....................................................................................118
4.6.7
Phylogenie IV: Phylogenien berechnen mit dem tree-Assistenten ....................................................119
4.6.8
Phylogenie V: Distanzmatrizen berechnen........................................................................................121
4.6.9
Phylogenie VI: Filter berechnen.........................................................................................................122
4.6.10
Export von Sequenzen und assoziierten Sequenzinformationen..................................................125
4.6.10.1
Das Exportfenster ....................................................................................................................125
4.6.10.2
Export in „klassische Formate“.................................................................................................127
4.6.10.3
Export in „eigene Formate“ ......................................................................................................127
4.6.11
4.6.11.1
Das Log-Fenster (nur Industrie-Version) ......................................................................................130
Einführung................................................................................................................................130
4.6.12
Darstellung im Log-Fenster ..........................................................................................................131
4.6.13
Protokolltexte als PDF-Dokumente exportieren oder drucken ......................................................132
4.6.13.1
4.6.13.2
4.6.14
Sicherungskopie des aktuellen Log-File anlegen.....................................................................133
Darstellen eines gespeicherten Log-Files ................................................................................133
Sequenzen analysieren mit Hilfe der „Schnellen Identifizierung“ (QI)...........................................135
4.6.14.1
Übersicht..................................................................................................................................135
4.6.14.2
Berechnung und Darstellung einer QI......................................................................................135
4.6.14.3
Referenz-Datensätze der QI ....................................................................................................137
4.6.14.4
Interpretation der QI.................................................................................................................138
4.6.14.5
Ergebnis der Schnellen Identifizierung (QI) als PDF exportieren .............................................141
4.6.14.6
Ergebnis der Schnellen Identifizierung (QI) drucken................................................................141
4.6.14.7
Dargestellte Sequenzen der QI zur Auswahl hinzufügen /aus Auswahl entfernen...................141
4.6.14.8
Ergebnis der Schnellen Identifizierung (QI) löschen ................................................................142
4
4
5
ANWEISUNGEN FÜR TREE-ADMINISTRATOREN..................................................................................143
5.1
Nutzerverwaltung und tree-Administration........................................................................................143
5.1.1
Übersicht ...........................................................................................................................................144
5.1.2
Nutzerkonto-Felder und erlaubte Eingaben.......................................................................................144
5.2
Referenz-Datenbanken ........................................................................................................................147
5.2.1
Referenz-Datenbanken aktualisieren ................................................................................................147
5.2.2
Probleme mit der Referenz-DB .........................................................................................................150
5.3
Datenbank-Update mit Original-nadicom Update-DBs .....................................................................152
5.3.1
Übersicht ...........................................................................................................................................152
5.3.2
Redundante Sequenznamen.............................................................................................................152
5.3.3
Update der Referenz-Datenbanken...................................................................................................154
5.3.4
Auswirkungen des Updates ...............................................................................................................156
5.4
Sicherungskopien von Teil-Datenbanken wieder einspielen ...........................................................157
5.5
Probleme durch externe Manipulationen und unbekannte Datenbanken .......................................160
6
KURZANLEITUNGEN FÜR DIE ERSTELLUNG VON TEIL-DATENBANKEN UND
SEQUENZZUORDNUNGEN ......................................................................................................................162
6.1
Kurzanleitung 1: „Sequenzen schnell zuordnen – vom Import bis zur Phylogenie“ .....................162
6.2
Kurzanleitung 2: „Neue Teil-Datenbank anlegen“.............................................................................164
6.3
Kurzanleitung 3: „Besonderheiten der tree-Universitäts-Version“..................................................166
7
WISSENSCHAFTLICHER HINTERGRUND – IDENTIFIKATION VON MIKROORGANISMEN MIT
KLASSISCHEN UND SEQUENZBASIERTEN METHODEN .....................................................................169
7.1
Probleme der klassischen Mikrobiologie...........................................................................................169
7.2
16S/18S-rDNA basierte Analysen .......................................................................................................171
8
ÜBERSICHT ÜBER DAS HAUPTFENSTER-MENÜ, REFERENZEN ZU DEN DETAILLIERTEN
BESCHREIBUNGEN ..................................................................................................................................173
9
INDEX .........................................................................................................................................................175
5
5
Willkommen
Herzlich willkommen bei der Software tree by nadicom, die von nadicom
Gesellschaft für angewandte Mikrobiologie mbH, Marburg und Karlsruhe,
entwickelt wurde.
Die Familie des tree-Softwarepakets besteht aus den folgenden Modulen:
ƒ
Die Industrie-Version, die vornehmlich für industrielle Kunden im Rahmen
validierter Systeme entwickelt wurde.
ƒ
Die Universitäts-Version, die akademische Fragestellungen und die
Generierung eigener Datenbanken in den Vordergrund stellt.
ƒ
14 umfangreiche Datenbanken, die rund 10.000 Sequenzen von über 7.000
verschiedenen Arten, davon 3.500 Typ-Stämme (Industrie-Version) bzw. über
6.500 Sequenzen von über 1.600 Arten (Universitäts-Version) enthalten.
Kontaktieren Sie nadicom (www.nadicom.com) für weitere Informationen und
H
H
aufkommende Fragen.
Systemanforderungen für die Verwendung von tree
Für die Installation und den Betrieb von tree benötigen Sie folgende MinimalSystemeigenschaften:
ƒ
Betriebssystem Microsoft Windows XP bzw. XP (Professional).
Für den Betrieb unter älteren Windows-Betriebssystemen nehmen Sie
Rücksprache mit der Firma nadicom GmbH.
ƒ
Windows Notepad
ƒ
500 MB freier Festplattenspeicher
ƒ
1024 MB RAM (empfohlen), 512 MB RAM (minimal)
ƒ
Java Runtime Environment ab Version 5.0 (1.5.0 oder höher)
ƒ
Internet-Verbindung für externe Links notwendig
Hinweis: tree funktioniert nur auf Einzelprozessoren. Die Software ist nicht netzwerkfähig;
hier kann die Funktionsfähigkeit nicht garantiert werden.
6
6
2
Installation und Inbetriebnahme von tree
Legen Sie die CD tree by nadicom ein und starten Sie die Installationsroutine
(„tree-1.0-industrie-setup.exe“ bzw. „tree-1.0-universität-setup.exe“) bzw. laden
Sie die Datei online von dem Ihnen übermittelten Pfad herunter und folgen Sie der
dortigen Installationsroutine. Sollte kein CD-Laufwerk vorhanden sein, können Sie
die Installationsroutine auch über das Netzwerk auf den entsprechenden Rechner
kopieren und dort starten.
Die Installationsroutinen für die tree-Industrie-Version und die tree-UniversitätsVersion unterscheiden sich hinsichtlich der Handhabung nicht. Der nachfolgende
Text ist dementsprechend für beide gültig.
ƒ
Wählen Sie zunächst die Sprache aus, in der Sie durch die Installation geleitet
werden möchten.
ƒ
Verlassen Sie den anschließend dargestellten Begrüßungsdialog durch
Betätigen der Taste Weiter.
ƒ
Um tree zu installieren, ist es notwendig, der im nächsten Schritt dargestellten
Lizenzvereinbarung zuzustimmen. Der Text befindet sich auch im Format PDF
bzw. als Textdokument auf der CD (Lizenz.doc bzw. Lizenz.pdf).
ƒ
Um der Lizenzvereinbarung zuzustimmen, drücken Sie die Taste Annehmen.
Wenn Sie nicht zustimmen, drücken Sie Abbrechen. In diesem Fall wird der
Installationsvorgang abgebrochen, es werden keine Daten installiert.
ƒ
Falls Sie der Lizenzvereinbarung zugestimmt haben, können Sie nun im
Dialog Komponenten auswählen festlegen, ob Sie nur das Programm selbst,
die tree-Datenbanken oder beide Einheiten installieren wollen. In aller Regel
werden Sie alle Komponenten installieren wollen. Das Programm tree vermag
nicht ohne ein korrekt installiertes Datenpaket zu arbeiten. Sollten Sie aber
beispielsweise tree bereits zu einem früheren Zeitpunkt installiert haben und
jetzt lediglich auf eine neuere Version upgraden wollen, demarkieren Sie das
Auswahlfeld Datenbanken.
ƒ
Anschließend haben Sie, je nach zuvor gewähltem Installationspaket, die
Möglichkeit, die Verzeichnisse auszuwählen, in denen das Programm bzw. die
Datenbanken installiert werden sollen. Beachten Sie dabei die gegebenen
Hinweise. Es ist notwendig, dass künftige Anwender Ausführungsrechte für
7
7
den Programmordner und Schreib-, Lese- und Ausführungsrechte für den
Datenordner sowie alle Unterordner haben. Testen Sie den reibungslosen
Ablauf des Programms (Datenzugriff) anschließend als Nutzer.
Der Pfad zu den tree-Datenbanken darf keine Leerzeichen enthalten. Das
Installieren, beispielsweise im Ordner Eigene Dateien, ist dementsprechend nicht
möglich.
Hinweis: Auf einem Rechner kann jeweils nur eine tree-Datenbank installiert werden. Selbst
wenn mehrere tree-Versionen auf einem Rechner installiert wurden, werden alle
Programme stets auf die zuletzt installierten Datenbanken zugreifen. Sollen also
mehrere Mitarbeiter jeweils eigene Datenbanken bearbeiten, ist die Installation auf
getrennten Rechnern notwendig.
ƒ
Nach dem Festlegen der Installationsordner haben Sie die Möglichkeit, einen
Startmenüordner für den Programmstart zu bestimmen. In diesem Ordner wird
eine Verknüpfung zu dem installierten Programm erzeugt. Um keine
Verknüpfung zu erstellen, markieren Sie das gleichnamige Auswahlfeld.
ƒ
Im Anschluss starten Sie die Installation der ausgewählten ProgrammKomponenten durch Drücken der Taste Installieren. Bis zu diesem Zeitpunkt
können Sie die Installationsroutine jederzeit verlassen (Drücken der Taste
Abbrechen).
ƒ
Nach der Installation werden Sie über den erfolgreichen Verlauf informiert.
Schließen Sie den Installationsassistenten durch Betätigen der Taste
Beenden. Die Installation wurde erfolgreich abgeschlossen.
Beim ersten Start der tree-Industrie-Version nach der Installation wird die
Vollständigkeit der installierten Daten und Dateien überprüft, eine neue Log-Datei
generiert und das Programm initialisiert.
ƒ
Starten Sie tree, beispielsweise durch Auswahl des entsprechenden Eintrags
im Startmenü Ihres Computers. Sie werden nun über den erfolgreichen
Verlauf der Überprüfung und Initialisierung unterrichtet. Bestätigen Sie die
Meldung mittels der Taste OK.
8
8
Vor dem ersten Arbeiten mit tree ist das Programm zunächst frei zu schalten.
Bestätigen Sie die entsprechende Abfrage mit Ja. Nutzer einer tree-Testversion
können das Programm für eine vereinbarte Zeitspanne nutzen, ohne es zu
erwerben. In diesem Fall drücken Sie die Taste Nein.
Haben Sie sich entschieden, tree frei zu schalten, öffnet sich der gleichnamige
Dialog. Um die Freischaltung durchzuführen, benötigen Sie den so genannten
Freischaltungscode. Dieser erlaubt das Arbeiten mit tree auf genau einem
Rechner. Den Freischaltungscode können Sie direkt vom Server der Firma
nadicom beziehen.
Betätigen Sie dazu die Taste Code beziehen. In einem Web-Browser wird die
entsprechende Internet-Seite automatisch geöffnet. Geben Sie hier nun
a)
die zehnstellige Lizenznummer Ihrer tree-Version ein. Diese wurde Ihnen
beim Erwerb von tree übergeben oder per e-mail zugestellt. Mittels einer
Lizenznummer können Sie nur einen Freischaltungscode für einen einzigen
Rechner beziehen. Haben Sie mehrere tree-Versionen erworben, nutzen Sie
für jede Installation eine neue Lizenznummer.
b)
Den 12-stelligen Hexadezimal-Code, der Ihnen im Dialog Freischalten
angezeigt wird (im Beispiel „00-0C-76-F9-01-A7“). Beachten Sie die Hinweise
auf der Internetseite.
Nach Bestätigung der Eingabe wird Ihnen der zwölfstellige Freischaltungscode für
den Computer angezeigt, auf dem tree zuvor installiert wurde. Heben Sie diesen
Code gut auf, da er, beispielsweise nach einer Neuinstallation von tree auf
demselben Computer, erneut eingegeben werden muss.
Sollten Sie später Ihre tree-Version auf einen anderen Computer portieren wollen,
nehmen Sie Kontakt mit der Firma nadicom auf, um einen neuen
Freischaltungscode zu beziehen.
Falls der Rechner, auf dem tree installiert wurde, nicht an das Internet
angeschlossen sein sollte, können Sie Ihren Freischaltungscode auch mittels
eines anderen Rechners beziehen. Geben Sie in diesem Fall bitte manuell
folgende URI ein:
http://www.nadicom.de/tree/freischalten
H
9
9
H
Alternativ ist natürlich auch eine telefonische Abfrage möglich. Um das
Eingabefeld für den Freischaltungscode zu aktivieren, ist die Betätigung der Taste
Code beziehen allerdings auch in diesen Fällen notwendig.
Nach der Eingabe des korrekten Codes bestätigen Sie mittels der Taste
Freischalten. tree steht nun für den regelmäßigen Einsatz bereit.
Bei der tree-Industrie-Version ist nach der ersten Anmeldung des treeAdministrators (ID: „Admin“, temporäres Passwort „AdminPW“) zunächst dessen
temporäres Passwort durch ein geeignetes individuelles Passwort zu ersetzen
(vgl. 4.2.1 und 4.2.2).
Anschließend sollte der tree-Administrator Nutzerkonten für Anwender einrichten
(siehe Abschnitt 5.1).
1
2
3
Abb. 1: tree freischalten. Um Ihre tree-Version frei zu schalten, öffnen Sie durch Anklicken der Taste „Code
beziehen“ (2) die entsprechende nadicom-Internetseite und geben dort den Rechner-spezifischen HexadezimalCode (1) und ihre 10-stellige tree-Lizenznummer ein. Sie erhalten anschließend den Freischaltungscode, den Sie
in Feld (3) eingeben können. Bestätigen Sie den Code durch Drücken der Taste „Freischalten“.
10
10
3
Einleitung
Die Software tree ist ein Programm zur phylogenetischen Verrechnung und
Einordnung ribosomaler DNA-Sequenzen von Bakterien und Pilzen. Es erlaubt
dem Benutzer, phylogenetische Analysen schnell und präzise durchzuführen.
Durch eine Vielfalt an weiteren Funktionen bestehen zusätzliche Möglichkeiten,
um Datenbanken von Sequenzen verschiedenster Herkunft zu erstellen und zu
bearbeiten.
Das vorliegende Handbuch gibt Ihnen einen detaillierten Überblick über die
einzelnen Funktionen und Möglichkeiten der Software. Die einzelnen Kapitel in
diesem Handbuch sind so angeordnet, dass Sie als Anwender in die Software
Schritt für Schritt eingeführt werden.
Wir empfehlen dem Anwender zusätzlich zu dem Studium des Handbuchs jedoch
die Teilnahme an einer Einführungsveranstaltung in die Software, bei der die
Theorie der phylogenetischen Analyse und die praktische Handhabung der
Software geschult und vertieft werden. Termine können bei der nadicom GmbH
(www.nadicom.com) erfragt und individuell nach Kundenwunsch vereinbart
H
H
werden.
Um dem Anwender die wissenschaftliche Basis der vorliegenden Software
genauer zu erklären, empfehlen wir das Kapitel 7. Hier werden die
Analyseverfahren und Grundlagen der phylogenetischen Einordnung von
Bakterien und Pilzen anhand der ribosomalen DNA anschaulich dargelegt.
11
11
4
Arbeiten mit tree
4.1
tree – Übersicht über das Programm
Die einzelnen in tree implementierten Methoden und Funktionen für die
Verwaltung und die vergleichende Analyse molekularer Sequenzdaten werden in
den folgenden Kapiteln detailliert dargestellt. Diese Anleitung soll, gemeinsam mit
dem auf leichte, intuitive Bedienbarkeit ausgelegten Programmdesign, auch den in
der Phylogenie und Bioinformatik weniger geübten Anwender schnell in die Lage
versetzen, mit tree effizient verlässliche Analysen durchzuführen und das
Programm gemäß den eigenen Ansprüchen sicher zu gebrauchen.
Vor der Darstellung der einzelnen Funktionen und Anwendungen, der jeweiligen
Optionen und Parameter soll hier zunächst ein Überblick über das Programm
gegeben werden. Die beiden wesentlichen Stärken des Programms wurden
bereits einleitend erwähnt:
tree kombiniert die leichte, sichere und (für die industrielle Anwendung) Gamp /
GxP / part11–konforme Sicherung und Verwaltung großer Sequenzmengen (tree
als Sequenzdaten-Managementprogramm) mit der vergleichenden
phylogenetischen Analyse dieser Sequenzdaten sowohl untereinander als auch
gegen einen großen Satz von Referenzsequenzen bzw. -organismen
(Identifikation von Mikroorganismen). Die wesentlichen Aspekte sollen nun im
Einzelnen kurz umrissen werden.
4.1.1
Vorteile und Methoden von tree
Einer der wichtigsten Vorzüge der Kombination von Datenverwaltung und
Sequenzanalyse innerhalb eines Programms und einer graphischen
Benutzeroberfläche im Vergleich zu alternativen Stand-alone Werkzeugen ist die
schnellere und effizientere Arbeit. Mittels weniger Mausklicks können beliebige
Sequenzen einer Teil-Datenbank für die verschiedenen Methoden der
Sequenzanalyse ausgewählt werden. Die Ergebnisse der Analysen werden
gemeinsam mit den Sequenzen automatisch verwaltet und können später
jederzeit zu Vergleichen herangezogen werden. Dabei werden die
Analyseergebnisse (bspw. die mit tree berechneten Stammbäume) nicht nur
statisch gespeichert, sondern können selbst interaktiv genutzt werden, um
12
12
Sequenzen für weitere Berechnungen etc. auszuwählen.
Die wichtigsten, in tree implementierten Methoden der vergleichenden
Sequenzanalyse sind:
ƒ
Berechnung phylogenetischer Stammbäume mit Distanz- und Likelihoodbasierten Methoden unter Berücksichtigung von Evolutionsmodellen und
Filtern
ƒ
Berechnung von Distanz-Matrizen und tabellarische Ausgabe
ƒ
Berechnung von Alignments bzw. Integration in das jeweilige bestehende
multiple Alignment aller Sequenzen einer Teil-Datenbank
ƒ
Berechnung der „Schnellen Identifizierung“ (eine Methode für die
vergleichende tabellarische Auflistung von Ähnlichkeitswerten)
ƒ
Berechnung von paarweisen Alignments
ƒ
Funktionen für die manuelle Kontrolle und Optimierung problematischer
Bereiche multipler Alignments
ƒ
Import- und Export-Funktionen in die gängigen Sequenz-Formate
ƒ
Export-Funktionen in frei definierbare Formate
ƒ
Berechnung von Filtern und Konsensussequenzen
ƒ
Berechnung von BLAST-Analysen gegen die Sequenzen der jeweiligen TeilDatenbank.
Während der Programmentwicklung wurde, ausgehend von Erfahrungen der
beteiligten Phylogenie-Experten, insbesondere auch im Bereich der Lehre, darauf
geachtet, mögliche Anwender-, insbesondere auch Anfängerfehler gezielt
abzufangen und durch Implementierung verschiedener, voneinander
unabhängiger Methoden ein größtmögliches Maß an Sicherheit und
Zuverlässigkeit zu gewährleisten.
4.1.2
tree-Versionen
In diesem Handbuch werden zwei hinsichtlich der Kernfunktionalität ähnliche, in
Details jedoch voneinander abweichende tree-Versionen für zwei
Anwendergruppen mit unterschiedlichen Wünschen und Analyse-Schwerpunkten
beschrieben.
13
13
Die tree-Industrie-Version wurde für die industrielle Nutzung im Rahmen
validierter Systeme entwickelt und erfüllt die in Pharma- und Lebensmittelindustrie
geltenden Regularien und Sicherheitsauflagen. Als typische Besonderheit der
tree-Industrie-Version ist die restriktive Benutzerpolitik zu nennen:
ƒ
Authentifizierung der Nutzer mit Usernamen und Passwort
ƒ
Beschränkung der Anwenderrechte
ƒ
Spezifikation von tree-Administratoren mit erweiterten Rechten
ƒ
das permanente Protokollieren aller sicherheitsrelevanten
Datenmanipulationen („Audit-trail“ oder „Logbuch“)
Für den industriellen Anwender steht die routinemäßige automatisierte Analyse
und Identifikation erhobener Sequenzdaten unter genau definierten und validierten
Bedingungen im Vordergrund.
Universitäre Nutzer hingegen sind in der Regel an einer größtmöglichen
Entscheidungsfreiheit interessiert, insbesondere was manuelle Arbeiten, das
Ausprobieren konkurrierender Techniken und die Lösung neuer, akademischer
Fragestellungen angeht. Bei der tree-Universitäts-Version wurden deshalb
Beschränkungen aufgehoben und die Kontrolle, auch im Sinne eines
Qualitätsmanagementsystems, gegen eine größere Eigenverantwortung des
akademischen Nutzers ausgetauscht. Trotz dieser prinzipiellen Unterschiede
hinsichtlich der Erwartungen und Wünsche beider Zielgruppen wurden wichtige
Aspekte und Strategien jeder tree-Version in abgeschwächter Form in die jeweils
andere Version integriert, zum Nutzen aller Anwender.
Alle nachfolgenden Erläuterungen und Abschnitte sind jeweils, soweit nicht anders
angegeben, für beide tree-Versionen gültig. Größere versionsspezifische Absätze
sind als solche gekennzeichnet und können von den Anwendern der jeweils
anderen Version beim Lesen übergangen werden.
4.1.3
Gliederung der Datenbank in Teil-Datenbanken
Unabhängig davon, ob es sich um DNA-, RNA- oder Proteinsequenzen handelt,
setzt die vergleichende Analyse von Sequenzdaten voraus, dass die Sequenzen
zueinander homolog sind und dass die einzelnen homologen Basen/Aminosäuren
14
14
(die aus einer gemeinsamen Vorläufer-Base/Aminosäure hervorgingen) einander
zugeordnet werden können. Diese Zuordnung homologer Sequenzabschnitte
nennt man „Alignment“. Aus diesen Bedingungen folgt zunächst klar, dass
verschiedene Sequenzen (beispielsweise 16S/18S-rDNA-Sequenzen einerseits
und 23S-rDNA-Sequenzen andererseits) nicht miteinander verrechnet werden
können und dementsprechend in verschiedenen Datenbanken abgelegt werden
müssen. Weiß man darüber hinaus, dass die 16S/18S rDNA-Sequenzen
phylogenetisch weit entfernter Organismen aufgrund der partiell sehr großen
Sequenzvariabilität sehr viele zueinander nicht homologe Sequenzabschnitte
aufweisen und deshalb schwer miteinander zu alignen sind und dass das Alignen
von Sequenzen aller wichtigen phylogenetischen Gruppen (aller drei Domänen
des Lebens, vgl. Kapitel 7) in einem gemeinsamen Alignment resultieren, dass
aufgrund der immensen Anzahl an zueinander nicht homologer, getrennt
evolvierter Basen um ein Vielfaches länger ist als jede einzelne der verrechneten
Sequenzen, liegt es nahe, die verschiedenen, schnell und verlässlich trennbaren
taxonomischen Hauptentwicklungslinien in getrennten Teil-Datenbanken zu
verwalten.
Hieraus resultiert eine wesentlich gesteigerte Übersichtlichkeit des gemeinsamen
Alignments sowie der Datenbank als solcher und darüber hinaus eine größere
Effizienz der einzelnen Analysen. Weiter ermöglicht das „Baukasten-Prinzip“, nur
solche Sequenzen zu verwalten, die für die eigenen Analysen überhaupt von
Relevanz sind.
tree verwaltet dementsprechend zunächst nach der Installation eine je nach treeVersion abweichende Anzahl übersichtlicher wohl definierter Teil-Datenbanken,
deren Sequenzen jeweils zu einer oder wenigen miteinander nah verwandten
taxonomischen Hauptentwicklungslinien gehören und in einem gemeinsamen, von
nadicom-Experten erstellten und kontrollierten multiplen Alignment miteinander
verrechnet sind.
Die Daten der tree-Universitäts-Version werden entsprechend verteilt, allerdings
bestehen die durch nadicom gelieferten einzelnen Teil-Datenbanken hier lediglich
aus wenigen repräsentativen Sequenzen, die durch den Anwender durch weitere
Sequenzen zu ergänzen sind.
15
15
Vor dem Import einer Sequenz in die „passende“ Teil-Datenbank ist somit
zunächst eine grobe Zuordnung zu der jeweiligen Hauptentwicklungslinie
vorzunehmen. Dies wird, im Falle der 16/18S-rDNA-Sequenzen, durch tree
automatisch durchgeführt.
Den Anwendern bleibt es darüber hinaus freigestellt, weitere eigene (Teil-)
Datenbanken, z.B. auch für nicht-16/18S-rDNA-Sequenzen, zu erstellen (siehe
4.5.2) sowie Kapitel 6 „Kurzanleitungen“.
16
16
4.2
Allgemeines
4.2.1
tree starten und Anmelden des Benutzers
Um tree zu starten, wählen Sie das tree-Symbol im Ordner „tree by nadicom“ oder
doppelklicken Sie die Datei tree.exe.
Während des Starts der tree-Industrie-Version wird ein interner Systemcheck
durchgeführt. Dabei wird u. A. überprüft, ob die wichtigsten, für die Ausführung
des Programms benötigten Dateien gefunden werden können, ob die Integrität der
Daten gewährleistet ist, ob bereits eine tree-Version gestartet wurde und ob das
Programm nach der letzten Aktivität korrekt beendet wurde. Der Anwender wird
über diesen Systemcheck nur dann in Kenntnis gesetzt, wenn Probleme auftreten
sollten.
Während bei der Universitäts-Version nach dem Programmstart direkt das treeUmgebungsfenster (0) geöffnet wird, ist bei der Industrie-Version zunächst die
Anmeldung erforderlich.
Abb. 2: Der Anmelde-Dialog der tree-Industrie-Version.
ƒ
Geben Sie im tree-Anmelde-Dialog (Abb. 2) den Ihnen vom tree-Administrator
zugewiesenen Benutzernamen sowie das zugehörige Passwort ein und
bestätigen Sie die Eingaben (Taste OK).
ƒ
Bei korrekter Eingabe wird das Programm mit Öffnen des treeUmgebungsfensters gestartet. Sollte die Anmeldung nicht gelingen, versuchen
17
17
Sie es erneut.
ƒ
Überprüfen Sie in diesem Fall, ob bspw. die Feststelltaste ihrer
Computertastatur gedrückt ist (Umkehrung von Groß- und Kleinschreibung).
Jeder Anwender hat zunächst drei Versuche, sich anzumelden. Um einen „Bruteforce“ Angriff auf ein Konto zu verhindern, wird das Benutzerkonto im Anschluss
an den dritten aufeinander folgenden Fehlversuch temporär gesperrt. Die
Sperrung beginnt mit dem Zeitpunkt des letzten gescheiterten Anmeldevorgangs
und dauert die Anzahl der gescheiterten Anmeldungen -2 in Stunden. Nach dem
dritten gescheiterten Anmeldeversuch wird das Konto somit zunächst für eine
Stunde gesperrt. Erfolgt während dieser Zeit oder auch im Anschluss daran ein
weiterer Fehlversuch, wird das Konto vom Zeitpunkt des erneuten Fehlversuchs
an für 2 Stunden gesperrt usw. Während der Sperrung können Sie (oder ein
potentieller Angreifer) beliebige weitere Anmeldeversuche vornehmen, Sie werden
jedoch, auch wenn ein korrektes Passwort eingegeben wurde, keinen Zugang zum
Programm erlangen. Stattdessen werden Sie über die verbleibende Dauer der
Sperrzeit des Kontos informiert.
Nach einer erfolgreichen Anmeldung (korrekte Eingabe von Benutzernamen und
Passwort bei nicht gesperrtem Konto) wird die Anzahl der gescheiterten
Anmeldungen wieder auf 0 gesetzt. Sollte Ihr Konto durch mehrfache,
unbeabsichtigte Fehleingaben durch Sie selbst oder auch ohne Ihr Zutun gesperrt
worden sein, kann Ihr tree-Administrator die Sperrung aufheben.
4.2.2
Passwortänderungen vornehmen
Spätestens 6 Monate nach Vergabe Ihres aktuellen Passworts werden Sie von
tree aufgefordert, ein neues Passwort zu vergeben. Die Vergabe des neuen
Passworts ist nun unumgänglich, um das Programm zu starten oder andere
Nutzer zur Manipulation Ihrer Daten zu autorisieren (4.4.1.2).
Um zu einem früheren Zeitpunkt ein neues Passwort zu vergeben, wählen Sie im
tree-Hauptfenster den Menüpunkt Einstellungen > Passwort ändern. In beiden
Fällen erscheint der Dialog „tree-Passwort ändern“.
18
18
ƒ
Geben Sie im Feld Altes Passwort das bis zu diesem Zeitpunkt gültige
Passwort ein.
ƒ
Das neue Passwort muss zweimal eingegeben werden (Felder Neues
Passwort und Neues Passwort wiederholen). Voneinander abweichende
Eingaben werden vom Programm erkannt und abgelehnt. Das Passwort muss
aus mindestens 6 und maximal 15 Zeichen bestehen. Alle Sonderzeichen sind
erlaubt. Das neue Passwort darf nicht mit einem der vier letzten Passwörter
übereinstimmen oder darin enthalten sein. Darüber hinaus darf das letzte
Passwort nicht im neu vergebenen Passwort enthalten sein (Ändern des
Passworts Passwort in Passwort2 wird somit beispielsweise abgelehnt).
Abb. 3: Der Dialog “Passwort ändern“. Um ein neues Passwort zu vergeben, muss sich der Anwender durch
Eingabe des korrekten alten Passworts authentifizieren. Um Fehler durch versehentliche Falscheingaben zu
vermeiden, ist das neue Passwort zweimal einzugeben.
19
19
4.2.3
Hauptfenster und Umgebungsfenster
Das Arbeiten mit tree ist auf zwei wesentliche Bereiche verteilt. Das treeUmgebungsfenster dient, vereinfacht gesagt, dem „Verteilen neu importierter
Sequenzen auf die passenden Teil-Datenbanken“. Darüber hinaus ermöglicht es,
durch die „tree-Historie“, für jede importierte Sequenzen zu einem späteren
Zeitpunkt nachzuvollziehen, in welche Teil-Datenbank diese Sequenz übertragen
wurde. Schließlich erlaubt das tree-Umgebungsfenster das schnelle Öffnen und
Wechseln der einzelnen Teil-Datenbanken, ohne dass der Anwender deren
tatsächliche Position auf der Festplatte berücksichtigen muss. Prinzipiell können
alle Analysen jedoch auch unter Umgehung des Umgebungsfensters durchgeführt
werden.
Das eigentliche Arbeiten mit den Sequenzen (Datenbankverwaltung und
vergleichende Sequenzanalysen) findet im tree-Hauptfenster statt. Die
prinzipielle Abfolge der einzelnen Arbeitsschritte kann grob folgendermaßen
umrissen werden: Eine oder mehrere Sequenzen werden importiert (tree erkennt
die wichtigsten Sequenzdaten-Formate) und in das multiple Alignment der TeilDatenbank integriert. Das Alignment kann vom Anwender überprüft und bei Bedarf
manuell korrigiert werden. Die importierten Sequenzen werden einzeln (gegen
Referenzen der Teil-Datenbank oder bereits zuvor importierte, proprietäre Daten)
oder gemeinsam (gegeneinander und ggfs. weitere Referenzsequenzen)
analysiert. Die Sequenzen stehen nun selbst bei allen (bzw. bei der treeIndustrie-Version: bei vielen) Analysemethoden als Referenzsequenzen zur
Verfügung.
4.3
Arbeiten mit dem tree-Umgebungsfenster
4.3.1
Übersicht über das Umgebungsfenster
Nach dem Programmstart (Industrie-Version: nach dem erfolgreichen Anmelden)
wird zunächst das tree-Umgebungsfenster geöffnet (Abb. 4). Sie haben hier die
Möglichkeit,
ƒ
Sequenzen der Formate „ABI“, „EMBL“, „GenBank“ und „FASTA“ aus
20
20
externen Dateien zu importieren
ƒ
tree-Teil-Datenbanken zu öffnen
ƒ
importierte Sequenzen in Teil-Datenbanken zu überführen
ƒ
früher importierte Sequenzen mittels der Historie-Funktion („Suchen“) zu
finden und die Zuordnung zu den Teil-Datenbanken nachzuvollziehen.
Abb. 4: Das tree-Umgebungsfenster dient dem Importieren und automatischen Zuordnen von Sequenzen
in die einzelnen Teil-Datenbanken.
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
Knopfleiste des tree-Umgebungsfensters
Verzeichnisbaum
Dient der Darstellung der einzelnen Teil-Datenbanken sowie der aktuell bzw. in
vorherigen Sitzungen importierten Sequenzen. Die aktuell selektierte TeilDatenbank ist gelb hinterlegt.
Beschreibungen
Im unteren Fenster wird die jeweils aktuelle Teil-Datenbank kurz beschrieben.
Darunter werden alle zuvor in diese Teil-Datenbank importierten Sequenzen
aufgelistet.
Knopf “Ende”:
Programm beenden
Knopf „Import”:
Einlesen von Sequenzen in den Formaten EMBL, GenBank oder FASTA
Knopf „ABI”:
Einlesen von Sequenzen im ABI-Format
Knopf „Löschen”:
Entfernen aller markierten Sequenzen (rote Schrift)
Suchfeld:
Suchtext hier eingeben
Knopf “openDB”:
Öffnen der aktuellen selektierten (gelb hinterlegten) Teil-Datenbank
Knopf “Suchen”:
Startet die Suche in der Historie nach dem aktuellen Suchtext
Kontrollkästchen „Suche“: Wenn markiert, werden Ergebnisse der Suche angezeigt.
21
21
Im oberen Bereich sind verschiedene Bedienelemente angebracht, die
nachfolgend detailliert erläutert werden sollen. Im unteren Bereich des Fensters
werden eine kurze Beschreibung der aktuell ausgewählten tree-Teil-Datenbank
(Erläuterung zum Thema Teil-Datenbanken siehe 4.1.2) dargestellt sowie alle
zuvor in diese Teil-Datenbank importierten Sequenzen inklusive des Importdatums
sowie eines möglicherweise abweichenden aktuellen Sequenznamens.
Der zentrale Bereich des tree-Umgebungsfensters wird durch einen
Verzeichnisbaum (Abb. 4-2) dominiert, der die dem Programm z.Z. bekannten
(verwalteten) Teil-Datenbanken enthält, symbolisiert durch Ordner mit den Namen
der Teil-Datenbanken.
Hinweis: Datenbanken, die z.B. mittels der Funktion Kopie speichern unter (4.5.3) oder
der Funktion Neue DB anlegen (4.5.2) erstellt wurden, sind hier nicht dargestellt.
Die einzelnen Ordner enthalten zunächst keine Sequenzen. Nach dem Importieren
werden die Sequenzen jedoch den einzelnen Teil-Datenbanken und dabei den
entsprechenden Ordnern zugeordnet. Importierte Sequenzen können, analog dem
Übersichtsfenster des tree-Hauptfensters (vgl. auch 4.4.3.1), markiert (Darstellung
in roter Farbe) bzw. demarkiert (schwarze Farbe) werden.
ƒ
Sequenzen werden durch Anklicken des Sequenznamens im
Verzeichnisbaum mit der linken Maustaste markiert.
ƒ
Um alle Sequenzen eines Ordners zu markieren, klicken Sie direkt den Ordner
mit der linken Maustaste an.
ƒ
Demarkieren erfolgt analog durch Verwendung der rechten Maustaste.
ƒ
Darüber hinaus ermöglicht es die tree-Historie-Funktion, beliebige, in eine
der verwalteten Teil-Datenbanken importierte Sequenzen im entsprechenden
Ordner darstellen zu lassen.
ƒ
Geben Sie dazu ein passendes Suchwort in das Feld (8) ein (Abb. 4)
ƒ
Markieren Sie das Kontrollkästchen (11)
ƒ
Drücken Sie den Knopf Suchen (10)
Alle Sequenzen deren aktueller bzw. ursprünglicher Name (vgl. Änderung des
Namens eines Datensatzes, Abschnitt 4.5.8.3) das Suchwort enthalten, werden
in den Ordnern dargestellt, die die Sequenz-zugehörige Datenbank symbolisieren.
22
22
Dabei spielt es keine Rolle, ob die Sequenzen über das Umgebungsfenster in die
jeweilige Teil-Datenbanken importiert wurden (siehe unten) oder direkt im treeHauptfenster in die Datenbank geladen wurden (Abschnitt 4.5.5).
Achtung: Beachten Sie, dass die Suchen-Funktion „case-sensitive“ ist: Groß- und
Kleinschreibung werden also unterschieden. Eingabe des Suchworts „AB“
resultiert bspw. im Finden und Darstellen einer Sequenz mit Namen „AB456372“,
eine Sequenz „AbwasserKlon1“ würde jedoch nicht gefunden.
Um sämtliche jemals importierte Sequenzen anzuzeigen, entfernen Sie
jeglichen Text aus dem Suchfeld (8) und führen eine erneute Suche aus. Um die
Suchergebnisse zu entfernen, demarkieren Sie das Kontrollkästchen (11) und
drücken Sie erneut Suchen. Sequenzen der Historie werden zur besseren
Unterscheidung von aktuell importierten (noch nicht an eine Teil-Datenbank
übergebene) Sequenzen in blauer Farbe dargestellt. Sie können nicht markiert
werden.
23
23
4.3.2
Die Schaltknöpfe „Import“ und „ABI“: EMBL, GenBank, FASTA- sowie ABISequenzen importieren
Vorgehen beim Importieren von Sequenzen im EMBL-, GenBank- oder FASTAFormat:
ƒ
Drücken Sie den Knopf Imp (Abb. 4-5). Ein Datei-Auswahl-Dialog wird
geöffnet.
ƒ
Wählen Sie die Datei, die die zu importierenden Sequenzen enthält.
Abb. 5: Dateiauswahl mittels des Dialogs „Importieren“. Dargestellt werden zunächst nur Dateien mit den
Endungen .fas, .embl oder .gb. Durch Ändern des Feldes „Dateityp“ können aber auch alle anderen Dateien
angezeigt werden. Relevant für die Lesbarkeit einer Datei ist nicht die Endung, sondern der Dateiinhalt.
In jeder Datei können beliebig viele Sequenzen eines Formats enthalten sein,
wenn sie nach den gültigen Formatregeln voneinander getrennt sind. Treten beim
Einlesen einer Datei, die mehrere Sequenzen enthält, Probleme bei einzelnen
Sequenzen auf, informiert Sie das Programm darüber und versucht, zumindest die
korrekten Sequenzen einzulesen. Überprüfen Sie bei Warnmeldungen deshalb
stets, wie viele und welche Sequenzen korrekt erkannt wurden. Während des
Import-Vorgangs versucht tree, die Sequenzen mittels eines heuristischen
Algorithmus zu einer der dem Programm bekannten Teil-Datenbanken
zuzuordnen. Die Zuordnung erfolgt zur Teil-Datenbank, die die „ähnlichsten“
24
24
Sequenzen enthält und nicht aufgrund möglicher Meta-Informationen (z.B.
GenBank-Format, Feld Source o.ä.). Ist eine eindeutige Zuordnung nicht möglich,
werden Sie informiert. Die Sequenz wird dann im Ordner Keine Zuordnung
abgelegt und kann von dort nicht in eine Teil-Datenbank importiert werden. Bei
begründeter Annahme, dass eine Sequenz trotz Problemen bei der automatischen
Zuordnung zu einer Teil-Datenbank zugehörig ist, importieren Sie die Sequenz
direkt in die Teil-Datenbank (vgl. 4.5.5).
Hinweis: Beachten Sie, dass das Alignen nicht-zugehöriger Sequenzen das multiple
Alignment problematisch und unübersichtlich machen kann.
Während der automatischen Zuordnung wird auch die Orientierung der Sequenz
überprüft. Sollte die Sequenz „verkehrt“ orientiert sein (bspw. ABI-Sequenzen, die
mit „revers“-Primern sequenziert wurden) wird sie automatisch reverskomplementiert und der Anwender darüber informiert.
Abb. 6: tree überprüft beim Importieren die korrekte Orientierung der Sequenzen.
Zum Importieren von Sequenzen im ABI-Format drücken Sie den Knopf ABI
und verfahren wie gerade beschrieben. Das Format lässt es nicht zu, dass mehr
als eine Sequenz während eines Schritts importiert wird. Auch Sequenzen im ABIFormat werden automatisch der passenden Teil-Datenbank zugeordnet und
hinsichtlich der korrekten Orientierung überprüft.
Sollte es beim Importieren von Sequenzen zu Problemen mit den treeNamenskonventionen kommen [Sequenznamen dürfen keines der Zeichen ( ) , ’ :;
25
25
oder das Leerzeichen enthalten] oder sollten Namen bereits vergeben worden
sein, werden die Namen automatisch angepasst. Bei diesem Vorgang werden
die ursprünglichen Namen nicht gespeichert! Die Sequenznamen werden bei
den Formaten EMBL, GenBank und FASTA aus den jeweiligen Datensätzen
ausgelesen, beim ABI-Format wird der Name der ABI-Datei als Sequenzname
benutzt.
Tipp:
Um Probleme beim späteren Identifizieren von Sequenzen zu vermeiden, halten
Sie unbedingt die tree-Namenskonventionen ein und vermeiden Sie es,
Sequenznamen doppelt zu vergeben.
26
26
4.3.3
Der Knopf openDB: Teil-Datenbanken öffnen und Sequenzen übergeben
Vorgehensweise:
1.
Um eine Teil-Datenbank zu öffnen, wählen Sie den Namen der
gewünschten Datenbank durch Anklicken des korrespondierenden
Ordners im Verzeichnisbaum des Umgebungsfensters (Abb. 4-2) oder einen
in diesem Ordner enthaltenen Eintrag aus.
2.
Der Name der Teil-Datenbank wird nun gelb hinterlegt dargestellt.
3.
Betätigen Sie anschließend den Knopf openDB (Abb. 4-9), um die
ausgewählte Datenbank zu öffnen.
4.
Ist bislang noch keine Teil-Datenbank geöffnet gewesen, wird zunächst das
tree-Hauptfenster (4.4) initialisiert und anschließend die Teil-Datenbank
geladen.
5.
War bereits eine andere Teil-Datenbank geöffnet, haben Sie nun
Gelegenheit, die veränderten Daten zu speichern.
Bei der tree-Industrie-Version haben Sie nicht die Möglichkeit, Veränderungen
zu verwerfen. Um also eine neue Teil-Datenbank zu öffnen, müssen Sie dem
Speichern der bislang geöffneten Datenbank zustimmen. Nutzer der treeUniversitäts-Version können die Veränderungen verwerfen. Drücken Sie dazu
die Taste Nein. Bei Betätigung der Taste Abbruch bleibt (bei beiden treeVersionen) die bisherige Teil-Datenbank geöffnet. War die im Umgebungsfenster
ausgewählte Teil-Datenbank bereits im Hauptfenster geöffnet, wird dieses ohne
weitere Abfragen dargestellt.
Um zuvor importierte Sequenzen aus dem Umgebungsfenster in die während der
automatischen Zuordnung assoziierte Teil-Datenbank zu überführen, wählen Sie
folgende Vorgehensweise:
ƒ
Versichern Sie sich, dass die zu importierenden Sequenzen markiert sind. Ist
dies nicht der Fall, markieren Sie die jeweiligen Sequenzen durch Anklicken
des Sequenznamens im Verzeichnisbaum mit der linken Maustaste.
ƒ
Wählen Sie den zu der zu öffnenden Teil-Datenbank korrespondierenden
Datenbank-Ordner aus (Darstellung gelb hinterlegt).
ƒ
Beim anschließenden Öffnen der Datenbank (mittels des Knopfes openDB)
werden die markierten Sequenzen des ausgewählten Datenbank-Ordners an
27
27
die Datenbank übergeben. Dabei werden sie an die individuellen Datenfelder
der Teil-Datenbank angepasst, die Sequenznamen werden auf mögliche
Redundanz geprüft usw. Nicht markierte bzw. markierte Sequenzen anderer
Datenbank-Ordner werden nicht übergeben.
ƒ
Sollte eine gerade in die Teil-Datenbank übergebene Sequenz über ihre
gesamte Länge identisch zu einer bereits in der Teil-Datenbank enthaltenen
Sequenz sein, wird eine Referenz auf diese identische Sequenz angelegt
[roter Link „ID“ im Infofenster (Abb. 9-5)]. Sie haben nun Gelegenheit,
Sequenzinformationen von der identischen Sequenz mittels des Dialogs
„Sequenzinformationen übernehmen“ (Abb. 43, Kapitel 4.6.5.6) zu kopieren.
(Zum Thema „Identische Sequenz“ siehe auch Abschnitt 4.5.10.6).
ƒ
Im Anschluss an die Übergabe werden alle in die Teil-Datenbank
übernommenen Sequenzen aus dem Verzeichnisbaum des
Umgebungsfensters entfernt und im Dialog „Importierte Sequenzen“ (Abb. 7,
s. auch 4.5.7) des tree-Hauptfensters dargestellt.
Abb. 7: Darstellung importierter Sequenzen im Dialog „Importierte Sequenzen“. Um beispielsweise allen
von Ihnen importierten Sequenzen einen gemeinsamen Kommentar zuzufügen, drücken Sie die Taste „Alle
Ändern“. Die Funktionen des Dialogs werden in Kapitel 4.5.7 (Suchen und Finden) detailliert erläutert.
28
28
ƒ
Sie haben nun z.B. die Möglichkeit, mittels der Funktion Alle ändern (4.5.7.3)
allen Sequenzen eine gemeinsame Information zuzuordnen, um sie
anschließend schneller finden und analysieren zu können.
ƒ
Erst mit dem Speichern der Teil-Datenbank werden die Sequenzen dauerhaft
in der tree-Historie gespeichert.
ƒ
Verwerfen der Daten in der tree-Universitäts-Version führt dementsprechend
nicht zu Inkonsistenzen zwischen Teil-Datenbank und tree-Historie.
4.3.4
Der Knopf „Löschen“: Entfernen von Sequenzen aus dem
Umgebungsfenster
Sollten Sie feststellen, dass Sie versehentlich die falschen (z.B. schon zuvor
importierten) Sequenzen geladen haben, können Sie diese durch Betätigen der
Taste Löschen wieder entfernen. Zuvor müssen Sie die zu löschenden
Sequenzen jedoch markieren. Stellen Sie sicher, dass keine weiteren Sequenzen
markiert sind, wenn Sie die Löschen-Taste betätigen, da sämtliche markierten
Sequenzen entfernt werden.
Hinweis: Da die Sequenzdaten zu diesem Zeitpunkt in keiner Weise manipuliert worden
sind, und deshalb beim Löschen der Daten keine Informationen verloren gehen
können, ist der Löschvorgang durch keine weiteren Sicherheitsmaßnahmen
geschützt.
29
29
4.3.5
Die Taste „Ende“: tree beenden und temporäre Sequenzen verwerfen
Sollten Sie tree beenden, bevor Sie alle in das Umgebungsfenster importierten
Sequenzen an die entsprechenden Teil-Datenbanken übergeben haben, werden
die im Umgebungsfenster verbliebenen Sequenzen ebenfalls entfernt. Sie müssen
nach dem nächsten Programmstart die Sequenzen erneut importieren. Nach der
Übergabe an die Teil-Datenbanken (und Speichern derselben) sind die Daten
dauerhaft gesichert.
Das Programm können Sie auch vom Umgebungsfenster aus durch Betätigen der
Taste Ende (Abb. 4-4) oder des X-Symbols in der oberen rechten Ecke des
Fensters beenden.
Während es bei der tree-Universitäts-Version dem Anwender überlassen bleibt,
ob die vorgenommenen Änderungen gespeichert werden sollen (zum Verwerfen
der Änderungen drücken Sie die Taste Nein im entsprechenden Dialog) werden
beim Beenden der tree-Industrie-Version stets alle vorgenommenen
Änderungen gespeichert.
30
30
4.4
Arbeiten mit dem tree-Hauptfenster
4.4.1
Allgemeine Konzepte
4.4.1.1
Sequenzen auswählen und die aktuelle Sequenz
Für praktisch alle in tree durchzuführenden Analysen und Arbeitsschritte ist es
notwendig, entweder eine Sequenz (die aktuelle Sequenz), oder eine Vielzahl von
Sequenzen („markierte“ Sequenzen oder „ausgewählte“ Sequenzen) festzulegen,
für die der nächste Arbeitsschritt durchgeführt werden soll.
Um eine Sequenz z.B. in das multiple Alignment zu integrieren („Alignen einer
Sequenz“) ist dem Programm mitzuteilen, welche Sequenz alignt werden soll. Dies
geschieht, indem diese Sequenz als aktuell festgelegt wird. Die aktuelle
Sequenz wird stets im Infofenster (4.4.4) dargestellt, sodass sich der Anwender
jederzeit darüber informieren kann, welche Sequenz gerade aktuell ist. Zum
Festlegen der aktuellen Sequenz reicht es aus, lediglich eine beliebige Sequenz
im Übersichtsfenster (0), in einem phylogenetischen Baum oder im AlignmentEditor anzuklicken.
Die aktuelle Sequenz wird in den meisten Fenstern blau hinterlegt
dargestellt.
Für manche Arbeitsschritte, z.B. das Berechnen eines Stammbaums oder das
Exportieren vieler Sequenzen, genügt es nicht, lediglich eine Sequenz
auszuwählen.
tree bietet deshalb die Möglichkeit, beliebige Teilmengen der Sequenzen einer
Teil-Datenbank (die sogen. „markierten“ oder auch „ausgewählten“ Sequenzen)
für den oder die nächsten Arbeitsschritt(e) zusammenzufassen. Die
verschiedenen Möglichkeiten, Sequenzen und auch Filter der Auswahl z.B. durch
Anklicken hinzuzufügen (Sequenzen „markieren“), werden in den entsprechenden
Kapiteln erläutert (vgl. z.B. 4.4.3.1, 4.5.10.4 oder 4.6.1.1). Markierte Sequenzen
sind, z.B. im Übersichtsfenster, leicht an der roten Schriftfarbe sowie dem HakenSymbol (Abb. 11-3) zu erkennen. In der Knopfleiste des Hauptfensters wird stets
die aktuelle Anzahl ausgewählter Sequenzen dargestellt (Abb. 10-4).
31
31
4.4.1.2
Das tree-Owner-Prinzip und die Autorisierungs-Dialoge
(nur Industrie-Version)
Die Industrie-Version von tree unterscheidet zwischen einfachen Anwendern und
tree-Administratoren. Letztere haben Zugriff auf alle Daten und können die
Daten beliebiger User manipulieren oder auch löschen. Hiervon ausgenommen
sind allerdings die Original-nadicom-Daten, die während der Installation von tree
(oder bei entsprechenden Datenbank-Updates) angelegt wurden.
Die Befugnisse der „normalen“ Anwender sind in zweierlei Hinsicht beschränkt.
1.
Während verschiedene Datenmanipulationen (wie z.B. das Löschen von
Daten (wie Phylogenien oder Sequenzen) prinzipiell ausschließlich treeAdministratoren gestattet ist, sind andere Manipulationen jeweils genau
einem Anwender, dem so genannten „Owner“ erlaubt.
2.
Der Owner einer Sequenz oder einer Phylogenie ist derjenige Anwender, der
die Sequenz importiert bzw. den phylogenetischen Baum berechnet hat. Er
allein (von Administratoren abgesehen) hat die Möglichkeit, z.B. die Daten
oder die Basenabfolge der Sequenz zu manipulieren oder den Baum
umzubenennen.
Allerdings kann sich ein Anwender, um einen Arbeitsschritt durchzuführen, der die
Manipulation der Daten eines anderen Anwenders mit einbezieht, von diesem
Anwender oder einem tree-Administrator für eine genau definierte Manipulation
autorisieren lassen. Dies geschieht mit Hilfe der tree-Autorisierungs-Dialoge
(Abb. 8). Autorisierungs-Dialoge werden immer dann geöffnet, wenn ein
Anwender die Manipulation fremder Daten beabsichtigt.
Wird z.B. versucht, eine fremde Sequenz (der Inhalt des Datenfeldes OWNER
stimmt nicht mit der ID des aktuellen Nutzers überein) zu alignen, wird
automatisch der tree-Autorisierungs-Dialog geöffnet.
32
32
Abb. 8: Der Autorisierungs-Dialog. In der obersten Zeile wird der zu autorisierende Vorgang kurz beschrieben.
In Feld (1) ist die ID des autorisierenden Users (Owner) fest vorgegeben. In diesem Beispiel besitzt der User
„Admin“ die Ownerrechte. Der Owner muss für die Autorisierung das korrekte Passwort (2) eingeben. Steht der
Owner nicht zur Verfügung, kann alternativ die Autorisierung durch einen tree-Administrator vollzogen werden
[Taste (3)].
ƒ
In der ersten Zeile des Dialogs wird der autorisierende Nutzer darüber
informiert, welche Veränderungen beabsichtigt sind, also wozu er seine
Einwilligung geben soll. Im angenommenen Beispiel kann das Alignment nur
durchgeführt werden, wenn entweder der Owner der Sequenz sein Passwort
korrekt eingibt (2) oder aber ein Administrator den Vorgang erlaubt.
ƒ
Hierzu ist zunächst die Taste Administrator (3) zu betätigen. Im Anschluss
wird ein neuer Dialog geöffnet, in dem nun ein Administrator seine ID
(Username) sowie das zugehörige Passwort einzugeben hat. Der Vorgang
kann jederzeit abgebrochen werden (Taste Abbruch), was dem Fehlschlagen
der Autorisierung entspricht. Wird ein falsches Passwort eingegeben, führt
dies, ebenso wie fehlerhaftes Anmelden, dazu, dass die Anzahl der
fehlgeschlagenen Log-Ins des Nutzerkontos inkrementiert wird; nach drei
falschen Eingaben wird das Konto temporär gesperrt. Alle fehlgeschlagenen
Autorisierungen werden darüber hinaus protokolliert.
Hinweis: Versuchen Sie daher auf keinen Fall, die Autorisierung eines temporär
abwesenden Kollegen durch Raten des Passworts zu simulieren, auch wenn Sie
wissen, dass der Kollege den Vorgang autorisieren würde.
33
33
ƒ
Nach einer erfolgreichen Autorisierung wird der angestrebte Arbeitsschritt
ausgeführt. Damit erlischt allerdings die Gültigkeit der Autorisierung.
ƒ
Für eine wiederholte Ausführung der Manipulation ist dementsprechend eine
erneute Autorisierung notwendig. Um den Autorisierungs-Aufwand gering zu
halten, können fremde Sequenzen im Alignment-Editor zunächst beliebig
manipuliert werden. Um die Daten anschließend jedoch dauerhaft zu
übernehmen (Taste
der Hauptfenster-Knopfleiste), muss die Autorisierung
erfolgen.
Um vor möglichen Problemen bei der Übernahme der Veränderungen fremder
Daten zu warnen, wird der Nutzer stets, wenn er in einen der Modi „Align“ oder
„Edit“ des Alignment-Fensters (4.6.1.1) schaltet, an diese Einschränkung erinnert.
Die Warnhinweise können abgeschaltet werden, indem Sie den Menüpunkt
Einstellungen > Alignment: OWNER-Warnung bei Modus-Wechsel anzeigen
demarkieren.
4.4.1.3
Die Referenz-Datenbanken
Arbeitsschritte, bei denen zu einer Sequenz „ähnliche“ Sequenzen aus einer TeilDatenbank gefunden werden sollen, beginnen tree-intern häufig mit einer
heuristischen Datenbank-Suche. Dies dient einer schnelleren und effizienteren
Analyse. Unter einer Heuristik ist in diesem Fall ein Such-Algorithmus zu
verstehen, der bei vertretbarer Ungenauigkeit eine sehr schnelle Analyse auch
großer Datenmengen leistet. Die Ergebnisse einer solchen Heuristik sind zwar
nicht optimal in dem Sinne, dass garantiert wäre, alle Ähnlichkeiten (in der
richtigen Reihenfolge) zu identifizieren, gerade für hoch-ähnliche Sequenzen (wie
sie innerhalb einer tree-Teil-Datenbank ausschließlich vorhanden sein sollten),
sind die Ergebnisse jedoch hinreichend genau. Bei Analysen, die allerhöchste
Anforderungen an die Genauigkeit und Reproduzierbarkeit der Ergebnisse stellen,
dient die Heuristik lediglich als eine beschleunigender erster Schritt, um alle klar
unähnlichen Sequenzen bereits vor den rechenintensiven optimalen
Berechnungen ausschließen zu können. Methoden, die die heuristische, schnelle
Datenbanksuche verwenden, sind z.B. die „Schnelle Identifizierung“ (QI), das
34
34
„automatische Markieren ähnlicher Sequenzen“ oder die „Integration in das
multiple Alignment“ (alignen).
Wichtigstes Hilfsmittel der heuristischen Datenbank-Suche ist die sog. ReferenzDatenbank (Referenz-DB). Hierbei handelt es sich um eine Teilmenge der
Sequenzen einer Teil-Datenbank. Zu jeder Teil-Datenbank existiert eine
unabhängige Referenz-Datenbank, für Original-nadicom-Teil-Datenbanken (treeIndustrie-Version) existieren zwei Referenz-Datenbanken (vgl. unten). Zu
beachten ist, dass bei allen Analysen, die die heuristische Datenbank-Suche
nutzen, nur solche Sequenzen in die Berechnung einfließen können, die auch in
der Referenz-Datenbank vorhanden sind. Dieses Prinzip ermöglicht es dem
Anwender beispielsweise, Sequenzen in eine Teil-Datenbank zu integrieren und
anschließend Analysen durchzuführen, ohne die neu integrierten Sequenzen
zuvor endgültig verifiziert zu haben (Alignment, manuelle Sequenzkontrolle,
abschließende phylogenetische Zuordnung u.ä.).
Bei der tree-Industrie-Version ermöglicht es die Verwendung einer zweiten
(nadicom-) Referenz-DB, auch zu einem späteren Zeitpunkt reproduzierbare
Analysen durchzuführen. Diese produzieren, unabhängig von allen in der
Zwischenzeit importierten Sequenzen, stets dasselbe, ausschließlich auf
validierten nadicom-Daten basierende Ergebnis.
Die Aktualisierung der Referenz-Datenbanken ist unter 5.2.1 ausführlich erläutert.
Hinweis: Beachten Sie, dass Sie (Industrieversion: der tree-Administrator) eigene
importierte Sequenzen mittels des Befehls Referenz-Datenbank updaten (vgl.
5.2.1) der Referenz-Datenbank hinzufügen müssen, damit sie bei Referenz-DB
basierten Analysen einbezogen werden können.
35
35
Besonderheiten der Industrie-Version
Um den GMP-Anforderungen an exakte Reproduzierbarkeit von
Analyseergebnissen nachzukommen, wurden bei der tree-Industrie-Version zwei
getrennte Referenz-Datenbanken (DB) realisiert. Neben der bereits beschriebenen
(„allgemeinen“) Referenz-DB, die mit beliebigen Sequenzmengen aktualisiert
werden kann (und deren Verwendung in Abhängigkeit von der exportierten
Sequenzmenge dementsprechend in abweichenden Analyseergebnisse bestehen
kann) wurde eine weitere Referenz-DB („nadicom-Referenz-DB“) implementiert.
Diese enthält ausschließlich die validierten Sequenzen der Original-nadicom-TeilDatenbank.
Dementsprechend können Anwender und tree-Administratoren die nadicomReferenz-DB nicht aktualisieren. Eine Aktualisierung erfolgt nur nach einem
Update der Teil-Datenbank mit Original-nadicom-Daten (vgl. 5.3). Die nadicomReferenz-DB wird bei allen sicherheitsrelevanten Analysen automatisch an Stelle
der „allgemeinen“ Referenz-Datenbank verwendet: stets bei der Schnellen
Identifizierung (4.6.14) sowie der Integration in das multiple Alignment (4.6.2)
und fakultativ bei der Funktion Ähnliche Sequenzen automatisch auswählen
(4.5.10.4). Dies bedeutet, dass bei der Berechnung der Schnellen Identifizierung
keine proprietären Daten in das Ergebnis einfließen. Die Schnelle Identifizierung
wird stets ausschließlich gegen validierte nadicom-Sequenzen durchgeführt,
unabhängig von importierten proprietären Daten. Ebenso erfolgt die Integration in
das multiple Alignment ausschließlich auf Basis von Original-Sequenzen.
In Extremsituationen (z.B. wiederholtes Importieren von Sequenzen mit einer
neuartigen, im Original-Alignment nicht vorhandenen Insertion) kann dies dazu
führen, dass bestimmte Bereiche (der Insertions-Bereich) von Hand gegen die
zuvor importierten Sequenzen nach-alignt werden müssen, um ein optimales
Ergebnis zu erzielen (4.6.1.4). Die Wahrscheinlichkeit einer solchen ungünstigen
Situation ist jedoch äußerst gering. Ohne diese Beschränkung wären die
gesetzlichen Vorgaben exakter Reproduzierbarkeit von Analyseergebnissen nach
dem Import proprietärer Daten nicht immer einzuhalten.
Die allgemeine Referenz-DB findet bspw. jedoch auch bei der Industrie-Version
Anwendung, wenn nach der Erstellung einer neuen Teil-Datenbank (4.5.2) keine
nadicom-Referenz-DB zur Verfügung steht, aber auch, fakultativ, bei Funktionen
36
36
wie Ähnliche Sequenzen automatisch auswählen und somit insbesondere bei
der automatischen Auswahl von Sequenzmengen für phylogenetische
Rekonstruktionen, der aussagestärksten Analysemethode trees. Auch die interne
Überprüfung von phylogenetischen Ergebnissen basiert stets auf der Verwendung
der allgemeinen Referenz-DB.
4.4.2
Übersicht über das tree-Hauptfenster
Das tree-Hauptfenster ist in vier Bereiche unterteilt (vgl. Abb. 9).
ƒ
Im oberen Bereich befinden sich, analog zu gängigen WindowsAnwendungen, die Menüleiste (1) sowie eine allgemeine Knopfleiste (2)
(„Hauptfenster-Knopfleiste“). Die Tasten
bis
(Abb.
10) werden durchgängig dargestellt, mögliche weitere Elemente sowie die
zusätzliche, am rechten Fensterrand dargestellte Knopfleiste (8) werden stets
an die aktuellen Arbeiten angepasst.
ƒ
Die linke Seite des Hauptfensters ist in zwei permanent dargestellte Fenster
aufgeteilt: das „Übersichtsfenster“ (4) enthält, sortiert nach taxonomischen und
alphabetischen Kriterien, in Form eines Verzeichnisbaums alle Sequenzen
und Filter einer Teil-Datenbank. Im darunter liegenden „Infofenster“ (5) wird
der Inhalt der Datenfelder der aktuellen Sequenz bzw. des aktuellen Filters
dargestellt.
37
37
Abb. 9: Das tree-Hauptfenster: Arbeiten mit den Teil-Datenbanken
1:
2:
3:
4:
5:
6:
7:
8:
9:
ƒ
Menüleiste des tree-Hauptfensters
Allgemeine Knopfleiste des Hauptfensters
Knopfleiste mit Bedienelementen des Übersichtsfensters
Das Übersichtsfenster
Das Infofenster
Pfeiltasten zum Minimieren/Maximieren der einzelnen Fenster
Menü: Auswahl des Inhalts des Arbeitsfensters
Arbeitsfenster-spezifische Knopfleiste
Das Arbeitsfenster
Der eigentliche Arbeitsbereich nimmt den zentralen, rechten Bereich des
tree-Hauptfensters ein („Arbeitsfenster“) (9). Er dient der Darstellung
verschiedener Arbeitsumgebungen: wahlweise werden hier mittels des Menüs
(7) dargestellt:
à ausgewählte Sequenzen im Kontext des multiplen Alignments im
„Alignmentfenster“ bzw. „Alignment-Editor“ (Wahlschalter im Menü:
Alignment)
à zuvor berechnete Stammbäume im „Phylogeniefenster“ (Phylogenie)
à die Ergebnisse der Schnellen Identifizierung im „QI-Fenster“ (QuickIdent)
à tabellierte ausgewählte Sequenzdatensätze im „Exportfenster“ (Export)
à die Arbeitsprotokolle im „Logfenster“ (Log-File, nur Industrie-Version)
38
38
Die mit dem jeweiligen Arbeitsfensterinhalt assoziierten Menü- und
Knopfleistenfunktionen werden in Kapitel 4.6 beschrieben.
Die einzelnen Fenster können, durch Anklicken der Fensterrahmen mittels der
Maus und Verziehen der Rahmen (bei gedrückter Maustaste), hinsichtlich der
Größe beliebig variiert werden. Anklicken der Pfeil-Symbole (
) der
Fensterrahmen bewirkt das automatische Minimieren bzw. Expandieren der
einzelnen Fenster.
Abb. 10: Die allgemeine Knopfleiste des Hauptfensters
1:
2:
3:
4:
7:
8:
9:
10:
11:
12:
13:
4.4.3
Knopf „Neu“:
Knopf „Öffnen“:
Anlegen einer neuen, zunächst leeren (Teil-) Datenbank
Laden einer (nicht durch das Umgebungsfenster verwalteten) TeilDatenbank
Knopf „Speichern”: Speichern der aktuellen Teil-Datenbank
(variierende) Zahl: Anzahl ausgewählter („markierter“) Sequenzen
Knopf „Assistent”: Starten des tree-Assistenten
Knopf “Alignen”:
Alignen (der aktuellen Sequenz)
Knopf “Pfeil_rechts”: Sequenzen in das Arbeitsfenster übertragen
Knopf “Pfeil_links”: Veränderungen des Alignments übernehmen
Knopf “Edit”:
Starten des Dialogs „Sequenzinformationen“
Knopf “QI”:
Berechnung der „Schnellen Identifizierung“ (der aktuellen Sequenz)
Dropdown-Menü: Auswahl des Inhalts des Arbeitsfensters
Das Übersichtsfenster
Das Datei-Übersichtsfenster (Abb. 11) dient der übersichtlichen Darstellung aller in
der jeweiligen Teil-Datenbank vorhandenen Sequenzen und Filter sowie darüber
hinaus der schnellen Auswahl einzelner Datensätze oder auch ganzer
Sequenzgruppen. Die Namen der einzelnen Sequenzen und Filter werden im
Datei-Übersichtsfenster in einem Verzeichnisbaum dargestellt, der optisch z.B.
an den MS-Explorer® angelehnt ist. Wie im Explorer können einzelne Ordner
durch Anklicken der Knotenpunkte (
und
) geöffnet bzw. geschlossen werden.
Die Sortierung der Spezies erfolgt in Anlehnung an die taxonomische Nomenklatur
39
39
des NCBI. Dazu werden die Inhalte der Datenfelder ORGANISM und SOURCE
ausgelesen und als Sortiergrundlage genutzt. In Abhängigkeit von aktuellen
Eigenschaften der Datensätze werden deren Namen im Datei-Übersichtsfenster
farbig dargestellt. Ausgewählte („markierte“) Datensätze werden in roter
Schriftfarbe dargestellt, die aktuelle Sequenz wird blau hinterlegt. Bislang nicht
alignte Sequenzen (vgl. z.B. 6.1) werden mit blauer Schriftfarbe hervorgehoben.
Sequenzen, die von einem Typ-Stamm einer Art erhoben wurden, werden durch
Darstellung des „T“-Symbols (hinter dem Namen der Sequenz) hervorgehoben.
Dabei kann es in seltenen Fällen vorkommen, dass verschiedene, hinsichtlich des
sequenzierten Bereichs oder auch der Basenabfolge leicht voneinander
abweichende Sequenzen eines Stammes vorhanden sind. Letzteres wird
beispielsweise bedingt durch Sequenzpolymorphismen zwischen verschiedenen
16S/18S-Genen eines Genoms. Auch ist es möglich, dass mehr als ein Typstamm
für eine Art bei den Kultursammlungen hinterlegt ist (z.B. nach dem
Zusammenfassen zunächst vermeintlich getrennter Arten).
Sequenzen, deren Accession-Nummer darauf hindeutet, dass sie während der
Sequenzierung eines (kompletten) Genoms generiert wurden, werden durch ein
„G“-Symbol hervorgehoben. Solche Sequenzen sind von allerhöchster
Genauigkeit. In der Regel ist darüber hinaus eine Vielzahl von Informationen über
den entsprechenden Organismus verfügbar. Für Vergleiche zwischen Sequenzen
sollten daher die Genom-Sequenzen bevorzugt werden.
4.4.3.1
Auswahl von Datensätzen im Übersichtsfenster
Vorgehensweise:
ƒ
Zum Hinzufügen einzelner Sequenzen in die Auswahl („Markieren“) sind
deren Namen mit der linken Maustaste anzuklicken.
ƒ
Zum Demarkieren ist die rechte Maustaste zu benutzen.
ƒ
(De-)Markieren einzelner Datensätze führt stets auch dazu, dass diese den
Status „aktuelle Sequenz“ erhalten und deren Inhalt im Infofenster (4.4.4)
dargestellt wird.
40
40
ƒ
Neben der Möglichkeit einzelne Sequenzen auszuwählen, erlaubt es das
Datei-Übersichtsfenster auch, systematische Gruppen (also alle in einem
Ordner und dessen Unterordnern abgelegte Sequenzen) auf einmal
auszuwählen.
Wie für das Markieren einzelner Datensätze gilt auch hier:
Anklicken mit der rechten Maustaste entfernt den Inhalt des jeweiligen
Ordners sowie aller Unterordner aus der Auswahl, Anklicken mit der linken
Maustaste fügt zur Auswahl hinzu. Der Zustand der Ordner und Unterordner
(geöffnet oder geschlossen) ist hierbei irrelevant. Im Unterschied zum
Markieren einzelner Sequenzen hat das (De-)Markieren von Sequenzgruppen
keinen Einfluss auf den Status „aktuelle Sequenz“.
Abb. 11: Übersichtsfenster: Darstellung der Sequenzen und Filter einer Teil-DB
1:
Ordner „Filter“
enthält alle Filter der Teil-DB
2:
Ordner „Sequenzen“
enthält alle Sequenzen der Teil-DB
3:
ausgewählte Sequenz
roter Haken und rote Schriftfarbe (Ausnahme: siehe 4)
4:
nicht-alignte Sequenz
blaue Schriftfarbe (der rote Haken zeigt an, dass die Sequenz ausgewählt
wurde)
5:
die aktuelle Sequenz
blau hinterlegter Sequenzname
6:
das nadicom-Symbol
es handelt sich um eine Original-nadicom-Sequenz (tree-Industrie-Version)
41
41
4.4.3.2
Schnelles Öffnen und Schließen von Ordnern des Übersichtsfensters
Zur besseren Übersicht wurden Hilfsmittel für das schnelle Navigieren im
Verzeichnisbaum des Übersichtsfensters implementiert. Öffnen und Schließen von
vielen Ordnern sowie insbesondere das Darstellen von „ausgewählten
Sequenzen“ sowie dem „aktuellen Datensatz“ ist mittels eines einzigen
Knopfdrucks möglich.
ƒ
Um mehrere Ordner gleichzeitig zu expandieren oder zu komprimieren,
stehen die Funktionen Gruppieren und Alle zur Verfügung. Dabei wird jeweils
die höchste, z. Z. expandierte Ebene der Ordnerstruktur des DateiÜbersichtsfensters angesprochen. Durch mehrmaliges Drücken von Alle
können Sie somit schnell einen vollständig komprimierten Verzeichnisbaum
partiell oder vollständig expandieren oder aber einen vollständig expandierten
Baum mittels Gruppieren komprimieren.
ƒ
Beim Arbeiten mit tree ist es manchmal, bspw. nach dem Durchführen der
Funktion > Automatischen Auswahl ähnlicher Sequenzen, notwendig, eine
Übersicht über alle zu diesem Zeitpunkt ausgewählten Sequenzen zu
erhalten. Durch Drücken von Markierte werden alle Ordner des DateiÜbersichtsfensters komprimiert, die keine ausgewählten Sequenzen
enthalten.
ƒ
Anklicken von Aktuelle führt dazu, dass ausschließlich der Ordner (und die
diesen Ordner enthaltenden Ordner) expandiert dargestellt werden, der die
aktuelle Sequenz enthält. Benötigt ein Anwender beispielsweise Kenntnis der
taxonomischen Position einer Spezies eines Stammbaums, kann er diese
Spezies durch Anklicken im Stammbaum auswählen (aktuelle Sequenz) und
anschließend durch Anklicken von Aktuelle gezielt im Datei-Übersichtsfenster
darstellen lassen.
Beim Arbeiten mit großen Datenbanken kann es notwendig sein, die Knöpfe Alle
bzw. Aktuelle wiederholt zu betätigen, bis alle anderen Ordner gruppiert
dargestellt werden.
42
42
Abb. 12: Knopfleiste mit Bedienelementen des Übersichtsfensters
4.4.3.3
Taste „Gruppieren“
terminale (geöffnete) Ordner werden geschlossen
Taste „Alle“
terminale (geschlossene) Ordner werden geöffnet
Taste „Aktuelle“
Fokussieren auf die aktuelle Sequenz
Taste „Markierte“
Fokussieren auf die ausgewählten Sequenzen
Manipulation der Position einer Sequenz im Übersichtsfenster
Um die Position einer Sequenz im Übersichtsfenster zu verändern, können Sie,
z.B. mit Hilfe des Dialogs „Sequenzinformationen“ (Knopf
), die Inhalte der
Datenfelder ORGANISM und SOURCE anpassen. Beim Einsortieren in den
Verzeichnisbaum werden diese Felder (in dieser Reihenfolge) ausgelesen. Im
Anschluss an eine durchgeführte phylogenetische Analyse können Sie, was
schneller und einfacher ist, auch die Inhalte der Datenfelder einer
Referenzsequenz übernehmen. Lesen Sie dazu den Abschnitt 4.6.5.6.
Tipp:
Um sich mit dem Sortier-Prinzip vertraut zu machen, studieren Sie doch ein paar
Einträge von nadicom-Referenzsequenzen sowie deren Umsetzung im
Verzeichnisbaum.
43
43
4.4.3.4
Darstellung importierter Sequenzen
Die Darstellung der vom Anwender importierten Sequenzen richtet sich ebenfalls
nach den gerade beschriebenen Kriterien. Sequenzen, die beispielsweise im
GenBank-Format eingelesen wurden, verfügen sofort über die entsprechenden
Informationen in den Datenfeldern SOURCE und ORGANISM. In der Regel
handelt es sich bei diesen Sequenzen um Sequenzen aus öffentlichen
Datenbanken, die vom Anwender zu Referenzzwecken importiert wurden. Sie
werden dementsprechend, wie oben beschrieben, gemäß ihrer Taxonomie in die
Ordner des Übersichtsfensters verteilt.
ƒ
Im Gegensatz dazu verfügen Sequenzen, die im FASTA-Format oder direkt
vom Sequenzierer (ABI-Format) importiert wurden, noch nicht über
taxonomische Inhalte. In der Regel handelt es sich bei Sequenzen dieser
Formate um vom User erhobene Daten, die mittels tree analysiert werden
sollen.
ƒ
Sequenzen der Formate „FASTA“ und „ABI“ werden dementsprechend in
einem separaten Ordner („importiert“) direkt unterhalb des Ordners
„Sequenzen“ eingefügt (vgl. Abb. 13).
ƒ
Nach der Analyse können die Sequenzen, wie oben beschrieben, in die
taxonomisch korrekten Ordner einsortiert werden.
ƒ
Alternativ können importierte Sequenzen natürlich auch, bspw. aus Gründen
der Übersichtlichkeit, dauerhaft im Ordner „importiert“ belassen werden.
ƒ
Hier haben Sie die Möglichkeit, die importierten Sequenzen nach dem ImportDatum zu ordnen, anstelle der alphabetischen Reihenfolge der
Sequenznamen.
ƒ
Selektieren Sie dazu im Menü Einstellungen > Übersichtsfenster:
importierte Sequenzen nach Datum sortieren (vgl. Abb. 13-2)
ƒ
Durch Abwählen des Eintrags können Sie jederzeit zur alternativen
Darstellungsweise zurückkehren (Abb. 13-1).
44
44
Abb. 13: Darstellung importierter Sequenzen: Importierte Sequenzen des FASTA- oder ABI-Formats werden
im Ordner „importiert“ direkt unterhalb des Ordners „Sequenzen“ dargestellt. ABI-Sequenzen werden dabei unter
„Isolat“ abgelegt. Durch Selektieren des Eintrags „Übersichtsfenster: importierte Sequenzen nach Datum
sortieren“ im Menü „Einstellungen“ können Sie importierte Sequenzen anstelle der alphabetischen Sortierung (1)
nach dem Importdatum sortieren (2).
4.4.4
Das Infofenster
Zahlreiche Befehle und Funktionen werden zu einem Zeitpunkt gezielt nur auf eine
Sequenz/einen Datensatz angewendet, bspw. die automatische Schnelle
Identifizierung (vgl. 4.6.14) oder das Editieren von Datensätzen mittels des
Dialogs „Sequenzinformationen“ (4.5.8). Durch Bestimmen einer Sequenz als
aktuelle Sequenz wird festgelegt, auf welchen Datensatz der jeweilige Befehl sich
bezieht. Die aktuelle Sequenz/Filter (der aktuelle Datensatz) wird dabei stets im
Infofenster (Abb. 9-5) dargestellt. Der Inhalt der Datenfelder kann im Infofenster
nicht verändert werden.
Um Veränderungen an einem Datensatz vorzunehmen, wählen Sie diesen
durch Anklicken (z.B. im Datei-Übersichtsfenster) als aktuelle Sequenz aus.
Öffnen Sie danach den Dialog „Sequenzinformationen“ mit der Taste
(4.5.8). Werden im Infofenster die Informationen einer Sequenz angezeigt, werden
stets alle Datenfelder der aktuellen Teil-Datenbank dargestellt, auch wenn die
Datenfelder der aktuellen Sequenz möglicherweise leer sein sollten. Handelt es
sich beim dargestellten aktuellen Datensatz hingegen um einen Filter, so werden
die filterspezifischen Datenfelder dargestellt.
45
45
Um eine den individuellen Vorlieben angepasste Darstellung, insbesondere auch
längerer Daten, zu ermöglichen, kann der Anwender durch Auswahl des
Menüpunktes Einstellungen > Infofenster Zeilenumbruch die Darstellung
anpassen. Ist der Menüpunkt selektiert, wird die Darstellung aller Daten an die
Breite des Infofensters angepasst. Ist er nicht selektiert, werden keine
Zeilenumbrüche in den einzelnen Daten vorgenommen. Der Anwender kann die
Daten dann mittels der horizontalen Scrollleiste sichtbar machen. Beide
Darstellungsformen sind ansonsten absolut gleichwertig, die Auswahl unterliegt
allein den jeweiligen Vorzügen des Anwenders.
Von besonderer Funktionalität sind die in blauer Schriftfarbe dargestellten
Datenfeldnamen ACCESSION und SOURCE und TYPE-STRAIN.
ƒ
Anklicken der Namen (also beispielsweise des Wortes ACCESSION, nicht
etwa der Textfelder) führt zum Öffnen eines Web-Browsers und darin, soweit
vorhanden, zur Darstellung der zum Inhalt des jeweiligen Datenfeldes
korrespondierenden Informationen beim National Center for Biotechnology
Information (NCBI).
ƒ
Anklicken des Schriftzugs ACCESSION öffnet dabei das Entrez-NucleotideTool des NCBI, während Sie mittels SOURCE direkt den Tax Browser des
NCBI öffnen. Auf diese Weise können Sie schnell einen Einstieg zu den
verschiedenen zusätzlichen Informationen gewinnen, die für öffentlich
verfügbare Sequenzen im WWW abrufbar sind.
ƒ
Anklicken des Schriftzugs TYPE-STRAIN öffnet den Dialog „Type Strain
Informationen“. Handelt es sich bei der ausgewählten Sequenz um einen TypStamm (bzw. sind entsprechende Informationen im Datenfeld vorhanden)
werden Kontaktdaten der jeweiligen Kultursammlungen dargestellt. Die
Internetseiten der wichtigsten Kultursammlungen (z.B. DSMZ, ATCC) sind mit
tree verlinkt. Klicken Sie auf die in blauer Schriftfarbe dargestellten Akronyme,
um die entsprechende Seite der Kultursammlung zu öffnen. Häufig können
hier neben weiteren Informationen zu den Stämmen auch Kulturen erworben
werden. Je nach technischer Realisierung der Internetpräsenz der
Kultursammlungen wird direkt die detaillierte Beschreibung des ausgewählten
Stamms oder eine Seite mit entsprechender Suchmaske geöffnet.
46
46
Abb. 14: Dialog „Type Strain Informationen“. Akronyme in blauer Schriftfarbe öffnen die entsprechende
Internet-Seite der jeweiligen Kultursammlung in einem Web-Browser.
Manche Sequenzen sind durch Eigenschaften charakterisiert, die im Infofenster
durch funktionale Symbole dargestellt werden. Die jeweiligen Eigenschaften
werden in den entsprechenden Kapiteln ausführlich erläutert.
ƒ
Sequenzen, für die eine Schnelle Identifizierung (QI) berechnet wurde, sind
durch das blaue „QI“-Symbol gekennzeichnet. Anklicken des Symbols bewirkt
die Darstellung der Ergebnisse der Schnellen Identifizierung im QI-Fenster.
ƒ
Sequenzen, die als identisch zu einer anderen Sequenz identifiziert wurden,
verfügen über das rote „I“-Symbol im Infofenster. Anklicken des Symbols
bewirkt die Auswahl der zugeordneten identischen Sequenz als „aktuelle
Sequenz“.
ƒ
Sequenzen, deren Accession-Nummer darauf hindeutet, dass sie während der
Sequenzierung eines (kompletten) Genoms generiert wurden, sind im
Infofenster mit dem roten „G“-Symbol markiert. Anklicken des Symbols öffnet
(wie die Datenfelder „ACCESSION“ und „SOURCE“) eine korrespondierende
Seite des National Center for Biotechnology Information (NCBI), wo in der
Regel eine Vielzahl von Informationen über den entsprechenden Organismus
verfügbar sind.
47
47
Abb. 15: Durch Anklicken des "G"-Symbols öffnen Sie in einem Browser die zugeordnete "Genome Project"Seite des "National Center for Biotechnology Information"(NCBI) der "National Institutes of Health"(USA). Hier
finden Sie eine Vielzahl von Informationen und weiterführenden Links.
48
48
4.5
Allgemeine Funktionen des tree-Hauptfensters
4.5.1
Öffnen einer Teil-Datenbank
Generell können Sie tree-Teil-Datenbanken über das tree-Umgebungsfenster
öffnen, wie unter 4.3.3 beschrieben wurde. Darüber hinaus ist es möglich, eine
Teil-Datenbank mittels des Menüpunkts Datei > Öffnen (Taste
in der
Knopfleiste) direkt aus dem Hauptfenster heraus zu öffnen. Wie beim Öffnen
mittels des Umgebungsfensters müssen zunächst die Daten der aktuell geöffneten
Teil-Datenbank gespeichert werden.
Nutzer der tree-Universitäts-Version können die Änderungen allerdings
verwerfen (Drücken der Taste Nein bei der Abfrage Änderungen speichern).
Möchten Sie zunächst die Arbeiten an der aktuellen Datenbank fortsetzen,
drücken Sie die Taste Abbrechen.
Wurde der Vorgang nicht abgebrochen, haben Sie nun folgende Möglichkeit:
ƒ
Wählen Sie die zu öffnende Datei (Suffix „.tre“) mittels des Datei-AuswahlDialogs aus.
ƒ
Bestätigen Sie die Auswahl mit OK. Die Datei wird nun geöffnet.
ƒ
Sollte es zu Problemen beim Einlesen der Datei kommen, z.B., da anstelle
einer tree-Datei eine Datei anderen Formats ausgewählt wurde, wird der
Vorgang abgebrochen und die bisher geöffnete Teil-Datenbank erneut
geladen.
4.5.2
Anlegen einer neuen tree-Teil-Datenbank
Die mit tree gelieferten Teil-Datenbanken sind ausschließlich für die Analyse von
16S-/18S-rDNA-Sequenzen geeignet. Sollten Sie alternative Genmarker (bspw.
ITS-Regionen, nifH, pmoA oder nirK) für phylogenetische Analysen oder
Diversitätsstudien bevorzugen, können Sie Ihre Sequenzen trotzdem in tree
bearbeiten. Es ist nun allerdings notwendig, für jeden Sequenztyp eine eigene
(Teil-)Datenbank anzulegen.
49
49
ƒ
Benutzen Sie dazu den Menüpunkt Datei > Neue Datei anlegen (Taste
in
der Knopfleiste).
Analog dem Öffnen einer Datei muss zunächst die aktuelle tree-Datei
geschlossen werden, weshalb zunächst die Sicherheitsabfrage Daten speichern
erscheint.
ƒ
Im Anschluss wird eine neue, leere tree-Datenbank initiiert.
Die Datenbank verfügt zu diesem Zeitpunkt weder über Sequenz- oder Filterdaten
noch über Phylogenien oder ein multiples Alignment. Auch die für diverse
Analysen benötigte Referenz-Datenbank (vgl. 4.4.1.3) wurde noch nicht angelegt.
ƒ
Legen Sie nun zunächst fest, in welchem Ordner und unter welchem Namen
die neue Teil-Datenbank gespeichert werden soll. Dazu wird ein DateiAuswahl-Dialog geöffnet. Im Anschluss ist tree für die Arbeit mit der neuen
Teil-Datenbank bereit.
Beachten Sie hierbei, dass keine Leerzeichen in der Benennung der TeilDatenbanken auftreten dürfen!
Eine schnelle und effektive Methode, eine neue Datenbank mit Informationen zu
füllen, ist in Abschnitt 6.2 beschrieben. Lesen Sie diesen Abschnitt sorgfältig
durch, bevor Sie fortfahren. Selbstverständlich können Sie auch eine andere,
individuelle Abfolge von Arbeitsschritten anwenden, um die Datenbank in
betriebsbereiten Zustand zu versetzen.
4.5.3
Sicherungskopien von Teil-Datenbanken anlegen
Die tree-Teil-Datenbanken sollten, wie alle Computerdaten, in regelmäßigen
Abständen gesichert werden („Backup“). Dieser Vorgang sollte automatisiert
(Festplattenbackup) oder manuell durch einen (tree-) Administrator außerhalb der
tree-Oberfläche durchgeführt werden.
Darüber hinaus bietet tree die Möglichkeit, Sicherungskopien einzelner TeilDatenbanken zu erstellen. Dies kann insbesondere dann sinnvoll sein, wenn
größere bevorstehende Arbeiten an einer Teil-Datenbank (z.B. Integration
ungewöhnlicher Sequenzen in das multiple Alignment mit manuellen
Alignmentveränderungen) durchgeführt werden sollen. Durch anschließendes
50
50
Wiedereinspielen der Sicherungskopie (vgl. 5.4) können sämtliche seit der
Erstellung der Kopie vorgenommenen Arbeitsschritte rückgängig gemacht werden.
Alternativ können Arbeiten auch direkt in der Sicherungskopie vorgenommen
werden. Die (von tree automatisch verwaltete) Original-Teil-Datenbank bleibt
davon komplett unberührt.
Hinweis: Insbesondere für Nutzer der tree-Industrie-Version gilt: Informieren Sie sich
zunächst bei Ihrem tree-Administrator über die Sicherheitspolitik ihres
Unternehmens, bevor Sie mit Datenbankkopien anstelle der Original-tree-TeilDatenbanken arbeiten.
Die automatische Zuordnung von Sequenzen zu Teil-Datenbanken (4.3.2) erfolgt
z.B. stets nur mit den von tree automatisch verwalteten Original-Teil-Datenbanken.
Um mit einer Datenbankkopie zu arbeiten, müssen Sie diese zunächst, wie in
4.3.3 bzw. 4.5.1 beschrieben, öffnen.
Um Sicherungskopien anzulegen, wählen Sie folgendes:
ƒ
Menüpunkt Datei > Sicherungskopie speichern unter. Im Anschluss wird
ein Datei-Auswahl-Dialog geöffnet.
ƒ
Legen Sie nun das Zielverzeichnis sowie den gewünschten Namen der
Sicherungskopie fest.
ƒ
tree wird Sie nun danach fragen, ob Sie ebenfalls die Referenz-Datenbank
(vgl. 4.4.1.3) kopieren wollen.
Für eine reine Sicherungskopie ist dies nicht notwendig, da die Daten der
Referenz-Datenbank jederzeit aus den Daten der tree-Teil-Datenbank
rekonstruiert werden können und somit nicht gesondert gesichert zu werden
brauchen.
ƒ
Beabsichtigen Sie jedoch, mit der Kopie zu arbeiten (vgl. oben) wählen Sie Ja.
Andernfalls legen Sie keine Kopie der Referenz-Datenbank an. Wenn Sie
noch nicht sicher sind, ob Sie mit der Datenbankkopie arbeiten werden,
benötigen Sie ebenfalls keine Kopie der Referenz-Datenbank: bei Bedarf kann
die Referenz-Datenbank jederzeit (Industrie-Version: durch einen treeAdministrator) neu angelegt werden (Menü Administration > ReferenzDatenbank updaten).
ƒ
Im Anschluss an die Erstellung der Teil-Datenbankkopie (und ggf. der Kopie
51
51
der Referenz-Datenbank) werden Sie über den Erfolg des Vorgangs
unterrichtet.
ƒ
Sie haben nun die Möglichkeit, alle der Teil-Datenbank zugeordneten ABIDateien ebenfalls zu kopieren.
Bei diesen handelt es sich bereits um Kopien der Original-ABI-Dateien, die in tree
importiert worden sind. Diese Dateien werden von tree getrennt von TeilDatenbanken in einem eigenen Ordner verwaltet. Für die Darstellung der den
ABI-Sequenzen zugeordneten Elektropherogrammen ist der Zugriff auf diese
Daten notwendig. Die Sicherung der ABI-Dateien ist nur notwendig, um die Datei
gegen Datenverlust, z.B. in Folge von Hardware-Defekten, zu schützen. I.d.R.
sollten bereits hinreichende Sicherungsmechanismen durch Ihren (tree-)
Administrator getroffen worden sein.
Abb. 16: Erstellen einer Teil-Datenbank-Kopie.
ƒ
Wenn Sie nur selten Sicherungskopien anlegen, können Sie die ABI-Dateien
ebenfalls kopieren.
ƒ
Drücken Sie hierzu die Taste Ja. In dem nun geöffneten Auswahl-Dialog
haben Sie die Möglichkeit, einen Ordner auszuwählen oder neu anzulegen, in
dem die zugeordneten ABI-Dateien gespeichert werden.
ƒ
Um größere ungenutzte Datenmengen auf ihrem Computer zu verhindern,
drücken Sie die Taste Nein. Der Kopiervorgang wurde nun erfolgreich
abgeschlossen.
52
52
4.5.4
Änderungen speichern
Sie können während der Arbeit mit tree jederzeit, außer während einer laufenden
Berechnung, die vorgenommenen Änderungen sichern.
ƒ
Wählen Sie dazu die Taste Speichern (
) der Hauptfenster-Knopfleiste
bzw. den Menüpunkt Datei > Speichern.
Nutzern der tree-Universitäts-Version ist es möglich, Änderungen zu verwerfen
Hierzu schließen Sie das Programm oder öffnen Sie eine andere Teil-Datenbank,
ohne zu speichern.
Bei der tree-Industrie-Version ist dies nicht möglich. Sie sollten die Funktion
Speichern in regelmäßigen Abständen nutzen, um den Verlust von
durchgeführten Arbeiten im Falle eines Systemabsturzes zu minimieren.
4.5.5
Sequenzen importieren
Zusätzlich zum Importieren mittels des Umgebungsfensters (vgl. Kapitel 4.3,
insbesondere 4.3.2) haben Sie die Möglichkeit, Sequenzen direkt vom treeHauptfenster aus in eine Teil-Datenbank zu importieren.
Es wird empfohlen, diesen Schritt nur unter bestimmten, nachfolgend diskutierten
Bedingungen auszuführen.
ƒ
Im Allgemeinen ist es vorzuziehen, die Sequenzen mittels des
Umgebungsfensters zu importieren. Die dort vorgenommene automatische
Zuordnung der Sequenzen zu der passenden Teil-Datenbank gewährleistet,
dass Sequenzen nicht in falsche Teil-Datenbanken importiert werden können,
was die korrekte phylogenetische Zuordnung unmöglich machen würde.
53
53
Allerdings gibt es Umstände, die das direkte Importieren erforderlich machen
können:
ƒ
Die automatische Zuordnung des Umgebungsfensters verhindert, dass
Sequenzen in Teil-Datenbanken importiert werden können, die dem
Umgebungsfenster nicht bekannt sind. Das sind alle durch Sie manuell
angelegten Teil-Datenbanken, z.B. nicht-16S-Datenbanken oder auch Kopien
von Teil-Datenbanken. Um Sequenzen in diese Teil-Datenbanken zu
importieren, ist es notwendig, die automatische Zuordnung des
Umgebungsfensters zu umgehen und die Sequenzen direkt zu importieren.
ƒ
Ein anderer Grund, die Sequenzen mittels des Hauptfensters zu importieren,
könnte sein, dass das automatische Sortieren des Umgebungsfensters
keine eindeutige Zuordnung vornehmen konnte. In diesem Fall wird eine
Sequenz im Ordner „keine Zuordnung“ abgelegt, kann von dort jedoch nicht
an eine Teil-Datenbank übergeben werden. In der Regel deutet eine solche
nicht durchgeführte Zuordnung allerdings eher darauf hin, dass es sich bei der
analysierten Sequenz entweder nicht um 16S rDNA handelt, oder aber dass
die Sequenz tatsächlich keiner der auf Ihrem System vorhandenen TeilDatenbanken zugehört. In diesem Fall ist das Erzwingen des Importierens in
eine Datenbank kontraproduktiv und sollte auf keinen Fall durchgeführt
werden.
ƒ
Um die jeweilige Datenbank vor möglichen Folgeschäden zu bewahren, wird
auch während des direkten Imports eine schnelle Sequenzanalyse
durchgeführt. Nicht-16S-Sequenzen werden bei diesem Kontrollschritt mit
großer Wahrscheinlichkeit erkannt und vom Import ausgeschlossen. Die
Sicherheitskriterien sind jedoch niedriger als beim Importieren mittels des
Umgebungsfensters, da bei letzterem alle Sequenzen ausgefiltert werden, die
nicht als passend erkannt werden, während hier nur solche Sequenzen
ausgefiltert werden, die als nicht-passend erkannt werden.
In jedem Fall setzt das direkte Importieren von Sequenzen in eine Teil-Datenbank
voraus, dass der Anwender Kenntnisse, zumindest jedoch Vermutungen, über die
phylogenetische Stellung der analysierten Sequenz hat (bspw. durch eine extern
ausgeführte BLAST-Analyse).
54
54
Vorgehen beim direkten Import:
ƒ
Wie beim Umgebungsfenster können Sie Sequenzen der Formate EMBL,
GenBank und FASTA (Menüpunkt Datei > Sequenzen importieren) sowie
ABI (Menüpunkt Datei >ABI-Datei Import) importieren.
ƒ
Nach Auswahl des entsprechenden Menüpunktes bzw. der Tasten
bzw.
der Knopfleiste des Hauptfensters wird ein Datei-Auswahl-Dialog
geöffnet.
ƒ
Wählen Sie die zu lesende Datei aus.
ƒ
Beim Importieren mittels des Menüpunkts Import wird das Format der Datei
(EMBL, GenBank oder FASTA) automatisch erkannt. In einer Datei können
beliebig viele Sequenzen im gleichen Format abgelegt sein.
ƒ
Können einzelne Sequenzen nicht korrekt gelesen werden, versucht tree, den
Import bei der nächsten korrekt formatierten Sequenz fortzusetzen. In
seltenen Fällen kann jedoch aufgrund einzelner falsch formatierter Sequenzen
der gesamte Import-Vorgang scheitern (vgl. auch 4.3.2).
ƒ
Im Gegensatz zu den gerade beschriebenen Datei-Formaten lässt es das ABIFormat nicht zu, dass mehr als eine Sequenz während eines Schritts
importiert wird.
ƒ
Während des Importierens wird die Orientierung der Sequenz überprüft. Sollte
die Sequenz verkehrt orientiert sein (bspw. ABI-Sequenzen, die mit „revers“Primern sequenziert wurden) wird sie automatisch revers-komplementiert und
der Anwender darüber informiert.
ƒ
Während des Importvorgangs wird der Anwender über den Verlauf informiert,
da stets der Name der gerade importierten Sequenz dargestellt wird.
ƒ
Sollte eine gerade importierte Sequenz über ihre gesamte Länge identisch zu
einer bereits in der Teil-Datenbank enthaltenen Sequenz sein, haben Sie nun
Gelegenheit, Sequenzinformationen von der identischen Sequenz mittels des
Dialogs „Sequenzinformationen übernehmen“ (Abb. 44, Kapitel 4.6.5.6) zu
kopieren. Darüber hinaus wird eine Referenz auf diese identische Sequenz
angelegt [roter Link „ID“ im Infofenster (Abb. 9-5)]. (Zum Thema „Identische
Sequenz siehe auch Abschnitt 4.5.10.6).
ƒ
Im Anschluss an den Importvorgang werden alle eingelesenen Sequenzen im
„Importierte Sequenzen“-Dialog dargestellt.
55
55
ƒ
Sie haben nun z.B. die Möglichkeit, mittels der Funktion Alle ändern allen aus
einer Datei eingelesenen Sequenzen eine gemeinsame Information
zuzuordnen, um sie anschließend schneller zu finden und analysieren zu
können (vgl. Kapitel „Suchen und Finden“).
4.5.6
tree beenden
Mittels des Menüpunktes Datei > Beenden verlassen Sie das Programm.
Alternativ können Sie tree durch Betätigen der Taste Ende (Abb. 4-4) des treeUmgebungsfensters schließen.
Bei der tree-Industrie-Version können Sie das Programm erst verlassen, wenn
alle Änderungen an der aktuellen Teil-Datenbank gespeichert wurden. Bestätigen
Sie dazu den Abfrage-Dialog. Nutzer der tree-Universitäts-Version können die
Änderungen an ihren Daten hingegen auch verwerfen.
56
56
4.5.7
Suchen und Finden
4.5.7.1
Übersicht
tree bietet die Möglichkeit, sowohl die nadicom-Referenz-Daten wie auch
proprietäre Datensätze nach beliebigen Inhalten zu durchsuchen.
ƒ
Über den Menüpunkt Bearbeiten > Suchen und Finden öffnen Sie den
gleichnamigen Dialog (vgl. Abb. 17).
ƒ
Der „Suchen und Finden“-Dialog erlaubt das Durchsuchen beliebiger
Datenfelder nach beliebigen Begriffen, aber auch das direkte Auflisten bspw.
aller importierten bzw. zurzeit markierten Sequenzen.
Ergebnisse verschiedener Suchen lassen sich, wie weiter unten detailliert
beschrieben, kombinieren. So können durch Suchkombinationen z.B. alle
Sequenzen aufgelistet werden, die durch die Anwender in einem bestimmten Jahr
importiert wurden und darüber hinaus in einem bestimmten Habitat nachgewiesen
wurden.
4.5.7.2
Suchen durchführen und Suchen kombinieren
ƒ
Legen Sie zunächst mittels des Auswahlfeldes Suchfeld auswählen (Abb.
17-1) das zu durchsuchende Datenfeld fest.
ƒ
Anschließend geben Sie den gewünschten Suchbegriff im Textfeld
Suchbegriff eingeben ein. Um eine möglichst einfache Handhabbarkeit zu
erreichen, wurde darauf verzichtet, Beschreibungssyntaxen wie bspw.
„Regular Expressions“ zuzulassen. Auch das Verwenden von Platzhaltern
(?,*) ist nicht möglich, aber auch nicht notwendig. Geben Sie stattdessen
lediglich den Suchbegriff oder ein Teilwort desselben ein. Es werden alle
Datenbankeinträge ausgegeben, deren „Suchfeld“ das Suchwort exakt enthält.
Achtung:
Die Suche verläuft „case-sensitive“, d.h. Groß-/Kleinschreibung von Suchwort
und durchsuchtem Feld müssen exakt übereinstimmen. Enthält Datensatz A
z.B. im Suchfeld ORGANISMUS den Begriff „Rhizobium“, Datensatz B den
Begriff „Bradhyrhizobium“, so wird mit Suchwort „Rhizobium“ lediglich
Datensatz A, mit „rhizobium“ Datensatz B und mit „hizobi“ beide Datensätze
gefunden.
57
57
Abb. 17: Der Dialog „Suchen und Finden“: Im Beispiel wurden die Inhalte des Datenfelds „SOURCE“ (1) nach
dem Text „rhizobi“ (2) durchsucht. Die gefundenen Ergebnisse werden darunter (5) dargestellt.
1:
das „Suchfeld“
Wählen Sie hier aus dem Dropdown-Menü das zu durchsuchende Datenfeld.
2:
der „Suchbegriff“
Geben sie die zu suchende Buchstabenkombination an.
3:
Suchfunktionen
Die der Suche entsprechenden Datensätze („Sequenzen“) können dargestellt
(„Suchen“), der aktuellen Suche hinzugefügt („Hinzufügen“) oder damit kombiniert
(„Beibehalten“) werden. Auswahl des Wahlschalters „Suche negieren“ kehrt die Suche
um. Die restlichen Knöpfe „Markierte suchen“ bis „Importierte beibehalten“ arbeiten
unabhängig von dem aktuellen Suchbegriff/Suchfeld.
4:
Selektieren
Durch Selektieren/Abwählen einzelner Sequenzen können Sie die Auswahl der
gefundenen Sequenzen weiter einschränken.
5:
Ergebnisfenster
Hier werden die gefundenen Datensätze („Sequenzen“) dargestellt.
6:
Knopfleiste
Die gefundenen Sequenzen können markiert, demarkiert oder gemeinsam editiert
(„Ändern“) werden. Die Knöpfe auf der linken Seite wirken sich dabei jeweils nur auf die
selektierte Sequenzen (4) aus.
7-9 Verändern
Dieser Teil des Suchbereichs wird nach Betätigen einer „Ändern“-Taste dargestellt.
Wählen Sie zunächst das zu editierende Datenfeld (7) aus, geben Sie den neuen Text
ein (8) und legen Sie fest, ob der bisherige Feldinhalt mit dem Text überschrieben (9),
„Überschreiben“ oder erweitert „Anhängen“, werden soll. Verlassen des Dialogs
(„schließen“) ohne Betätigen dieser Tasten resultiert in keinen Änderungen.
58
58
ƒ
Das Feld Suche negieren [logisches NICHT] ermöglicht die exakte
Umkehrung der Suchergebnisse. Alle Datensätze, die nicht der Suche
entsprechen, werden aufgelistet. Möchten Sie z.B. alle z. Z. nicht
ausgewählten (unmarkierten) Sequenzen auflisten lassen, markieren Sie das
Kontrollkästchen Suche negieren und drücken anschließend die Taste
Markierte suchen.
ƒ
Die acht Knöpfe im mittleren Bereich (Abb. 17-3) des „Suchen und Finden“Dialogs ermöglichen das Formulieren neuer Suchanfragen, bei denen die
bisherige Ergebnisliste gelöscht wird (‚Suchen’, ‚Markierte suchen’,
‚Importierte suchen’) sowie das Kombinieren von Suchanfragen [‚Hinzufügen’
(logisches ODER), ‚Beibehalten’ (logisches UND)].
ƒ
Nach Betätigung eines der Knöpfe wird die Ergebnisliste (Abb. 17-5) im
Dialogfenster dargestellt. Bei der Suche mittels Suchfeld werden neben dem
Sequenznamen auch die Einträge des jeweiligen Suchfeldes dargestellt.
Jeweils links des Sequenznamens befindet sich ein markierbares
Kontrollkästchen. Dieses ermöglicht eine manuelle Selektion einer Teilmenge
der gefundenen, aufgelisteten Datensätze.
Hinweis: Sequenzen, deren Kontrollkästchen markiert ist (Haken), werden nachfolgend (im
Gegensatz zu der in diesem Handbuch sonst verwendeten Bedeutung des
Wortes) als „selektiert“ bezeichnet.
4.5.7.3
Gefundene Sequenzen manipulieren
Die sechs Tasten unterhalb der Ergebnisliste (Abb. 17-6) ermöglichen es,
entweder die selektierten oder aber alle gefundenen Sequenzen zu markieren, zu
demarkieren oder die Inhalte ihrer Datenfelder zu verändern. Die
Markierungen/Demarkierungen werden sofort übernommen, was z.B. an der
farbigen Darstellung der Sequenznamen im Übersichtsfenster überprüft werden
kann.
Wählen Sie folgendes Vorgehen, um die Inhalte eines Datenfelds der gefundenen
(selektierten) Sequenzen zu ändern:
59
59
ƒ
Drücken Sie den entsprechenden Knopf (
ƒ
Wählen Sie das zu verändernde Feld aus der dargestellten Liste (Abb. 17-7)
ƒ
Geben Sie dann den neuen Feldinhalt in das Feld (Abb. 17-8) ein. Sie haben
oder
)
die Möglichkeit, den bislang vorhandenen Feldinhalt zu überschreiben (Knopf
), oder den eingegeben Text an den bisherigen Inhalt anzuhängen
(Knopf
), wobei dieser dann erhalten bleibt.
Beachten Sie, dass die Änderungen für alle selektierten bzw. gefundenen
Sequenzen vorgenommen werden, für die Sie Owner-Rechte besitzen, bei der
tree-Universitäts-Version also für alle selektierten bzw. gefundenen Sequenzen.
Um dem Anwender der Industrie-Version darüber hinaus die Möglichkeit zu
geben, auch fremde Datensätze im Zuge einer Suche zu verändern, kann im
Anschluss an die Betätigung des Knopfes (
) oder (
) eine
Autorisierung durch einen tree-Administrator erfolgen.
Wird die Autorisierung durch Eingabe von Administrator-ID und zugehörigem
Passwort durchgeführt, werden alle gelisteten (selektierten) Sequenzen verändert.
Lediglich Inhalte von Standardfeldern nadicom-eigener Sequenzen sind
geschützt und können deshalb nicht geändert werden.
4.5.8
Datensätze verändern mit dem Dialog „Sequenzinformationen“
4.5.8.1
Übersicht
Das Infofenster (Abb. 9-5) dient, ebenso wie das Exportfenster (Abb. 48),
ausschließlich der Darstellung von Sequenz-assoziierten Informationen, nicht
jedoch der Manipulation dieser Daten.
Um den Inhalt eines Datensatzes zu verändern, gibt es folgende Möglichkeiten:
ƒ
der Dialog „Sequenzinformationen übernehmen“ (4.6.5.6) im Anschluss an
eine phylogenetische Berechnung
ƒ
die o. g. Sequenzmanipulation mittels des „Suchen und Finden“-Dialogs
60
60
ƒ
der Dialog „Sequenzinformationen“, das gebräuchlichstes Verfahren für die
Anpassung von Datensätzen (Abb. 18).
à Um diesen zu nutzen, ist die zu editierende Sequenz als aktuelle Sequenz
auszuwählen.
à Durch Drücken der Edit-Taste der Hauptfenster-Knopfleiste (
) wird die
aktuelle Sequenz im Edit-Dialog dargestellt.
à Alternativ können Sie nach der Festlegung der Sequenz auch den
Menüpunkt Bearbeiten >Aktuelle Sequenz/Filter editieren nutzen.
Bei der tree-Industrie-Version gilt folgende Einschränkung:
Ist der aktuellen Sequenz ein anderer Nutzer als „Owner“ zugeordnet und verfügt der
aktuelle Nutzer nicht über Administratoren-Rechte, kann der Dialog erst nach Autorisierung
(4.4.1.2) durch den Owner oder einen Administrator geöffnet werden. Darüber hinaus
können nadicom-eigene Referenzdaten nicht angepasst werden. Die Inhalte von
Standardfeldern nadicom-eigener Sequenzen sind deshalb nicht editierbar.
4.5.8.2
Arbeiten mit dem Dialog „Sequenzinformationen“
Wird der Dialog „Sequenzinformationen“ zur Bearbeitung der Informationen einer
Sequenz genutzt, werden stets alle Datenfelder der aktuellen Teil-Datenbank
dargestellt, auch wenn die Datenfelder der aktuellen Sequenz möglicherweise leer
sein sollten. Handelt es sich beim zu ändernden aktuellen Datensatz hingegen um
einen Filter, so werden filterspezifische Datenfelder dargestellt.
ƒ
Um die Inhalte der einzelnen Datenfelder zu ändern, bringen Sie den Cursor
mittels der Maus in das jeweilige Feld und bearbeiten Sie den dargestellten
Text.
ƒ
Nach Bestätigung mit OK werden die abgeänderten Daten übernommen und,
bei der tree-Industrie-Version, dies im Log-File protokolliert.
ƒ
Zum Verwerfen der Änderungen drücken Sie die Taste Abbrechen.
61
61
Abb. 18: Der Dialog „Sequenzinformationen“ (Edit-Dialog) dient dem Verändern einzelner Datensätze. Die im
Beispiel dargestellte Sequenz ist eine Original-nadicom-Sequenz (Feld „OWNER“), weshalb die ursprünglich
vorhandenen Datenfelder nicht bearbeitet werden können (grau hinterlegt). Änderungen können durch Drücken
der Taste “Abbruch“ verworfen werden. Einzelne Datensätze können mit „PDF“ als PDF exportiert bzw. gedruckt
(„Drucken“) werden. Dabei werden nicht mit „OK“ übernommene Änderungen nicht berücksichtigt.
4.5.8.3
Änderung des Namens eines Datensatzes
Der Name eines Datensatzes sollte nur begründet geändert werden. Da er als
„unique identifier“ (Schlüssel-Datenfeld) genutzt wird, dient er als alleiniges
Unterscheidungsmerkmal für die tree-interne Repräsentation der Datensätze.
Darüber hinaus können andere Nutzer trees verunsichert oder getäuscht werden,
wenn Sequenzen häufig umbenannt werden. Deshalb wird bei Veränderungen des
Sequenznamens im Dialog „Sequenzinformationen“ (wie auch im Dialog
„Sequenzinformationen übernehmen“, Abb. 43) eine Sicherheitsabfrage
durchgeführt.
Folgende Sonderzeichen sind in Sequenznamen nicht zugelassen und werden,
sollten Sie dennoch eingegeben werden, automatisch durch „ähnliche“ Zeichen
ersetzt:
( ) ; : , \ `.
62
62
Sollte die Änderung des Namens notwendig sein, bestätigen Sie die
entsprechende Abfrage. Im Anschluss wird nicht nur der Sequenzname
verändert, sondern es werden alle Phylogenien, Schnellen Identifizierungen sowie
die Historie an die Veränderung angepasst. Dies bedeutet, dass das Verändern
eines Sequenznamens Einfluss auf die (Darstellung der) Ergebnisse lange zuvor
durchgeführter Berechnungen haben kann. Alle Anpassungen von Phylogenien
und Ergebnissen Schneller Identifizierungen werden deshalb bei der IndustrieVersion protokolliert. Während der Anpassung der Historie wird neben dem neuen
Namen auch der ursprüngliche, beim Import der Sequenz vergebene Name
weiterhin gespeichert und dient so bspw. auch weiterhin als Suchkriterium der
tree-Historie (vgl. 4.3.1). Bei mehrmaligem Anpassen eines Namens werden
allerdings lediglich der ursprüngliche sowie der gerade aktuelle Name in der
Historie gesichert.
4.5.9
Anlegen und Administrieren von Datenfeldern
Um neue Datenfelder zu erzeugen, alte Felder zu kopieren, umzubenennen oder
zu löschen, betätigen Sie die Taste Admin (
) der Hauptfenster-Knopfleiste.
Der DB-Felder-Administrations-Dialog wird geöffnet.
Bei der tree-Industrie-Version ist das Entfernen und Umbenennen von
Datenfeldern ausschließlich Administratoren vorbehalten. Darüber hinaus sind bei
beiden Versionen Original-Datenfelder (also solche, die bereits in der
unbearbeiteten Original-Teil-Datenbank vorhanden sind) prinzipiell geschützt.
Hinweis: Beachten Sie, dass sich die Operationen auf alle Sequenzen der aktuell
geöffneten Teil-DB auswirken. Entfernen eines Datenfeldes bewirkt das
unwiderrufliche Löschen der Inhalte dieses Feldes aller Sequenzen der Teil-DB.
63
63
Abb. 19: Administration von Datenfeldern. Um Felder zu löschen, umzubenennen oder zu kopieren, wählen
Sie zunächst das entsprechende Feld aus der Auswahlliste (oben). Betätigen der Tasten „Umbenennen“, „Neues
Feld“ und „Kopieren“ führt zur Erweiterung des Dialogs (links).
ƒ
Um ein neues Datenfeld zu erzeugen, drücken Sie den Knopf Neues Feld
des DB-Admin-Dialogs und geben Sie den gewünschten Namen des neuen
Feldes im entsprechenden Texteingabefeld ein (Abb. 19, links).
ƒ
Um Datenfelder umzubenennen, zu löschen oder zu kopieren (der Inhalt
des Datenfeldes wird in ein neu anzulegendes Feld überschrieben, das alte
Feld bleibt unberührt),
ƒ
wählen Sie zunächst das gewünschte Feld aus der Felderliste am oberen
Rand des Dialogs aus und drücken Sie anschließend die jeweilige Taste.
ƒ
Beim Kopieren und Umbenennen werden Sie anschließend, wie schon beim
Anlegen eines neuen Datenfeldes, aufgefordert, den neuen Namen
einzugeben. Hierbei sind die Sonderzeichen (:) und (;) nicht zugelassen und
werden, sollten Sie dennoch eingegeben werden, automatisch durch das
Zeichen (_) ersetzt.
ƒ
Drücken Sie nach Eingabe des Namens die Taste Übernehmen, um die
Ausführung zu starten. Die Änderungen werden sofort anhand der Feldliste
des DB-Admin-Dialogs sichtbar.
ƒ
Nach Beendigung aller Administrationsaufgaben verlassen Sie den Dialog
(Taste Schließen). Die Änderungen werden nun auch außerhalb des DBAdmin-Dialogs übernommen, und sind somit z.B. im Infofenster sicht- und
überprüfbar.
64
64
4.5.10
Funktionen des Hauptfenster-Menüs „Bearbeiten“
4.5.10.1
Schnelle Manipulation der Sequenzauswahl
Viele Berechnungen, wie z.B. die Erstellung phylogenetischer Stammbäume,
werden in tree nicht auf den gesamten Datenbestand einer Teil-Datenbank
angewendet, sondern auf die sog. „ausgewählten“ oder „markierten“ Sequenzen.
Die Auswahl von Sequenzen kann sowohl automatisch („Ähnliche Sequenzen
automatisch auswählen“, 4.5.10.4) als auch durch Anklicken von Sequenznamen
in verschiedenen Kontexten erfolgen.
Das Bearbeiten-Menü bietet einige zusätzliche Möglichkeiten für die schnelle
Bearbeitung der aktuellen Auswahl.
ƒ Menüpunkt Bearbeiten > Auswahl revertieren
Alle bislang markierten (ausgewählten) Sequenzen werden demarkiert, alle
bislang nicht markierten Sequenzen hingegen markiert.
ƒ Menüpunkt Bearbeiten > Alle nicht alignten Sequenzen auswählen
Alle Sequenzen, die bislang nicht in das multiple Alignment der aktuellen TeilDatenbank integriert worden sind, werden der Auswahl hinzugefügt.
ƒ Menüpunkt Bearbeiten > Auswahl leeren
Entfernen aller Sequenzen und Filter aus der Auswahl.
Durch Kombination dieser sowie anderer Auswahlfunktionen können Sie schnell
und effizient Sequenz-Teilmengen für die nächste Analyse bestimmen.
4.5.10.2
Sequenzen und Filter kopieren
Um Sequenzen und Filter bearbeiten zu können, deren Owner (IndustrieVersion) Sie nicht sind, und generell um Datensätze zu ändern, ohne dabei die
Originaldaten zu manipulieren, können Sie diese kopieren.
Vorgehensweise:
ƒ Wählen Sie den Menüpunkt Bearbeiten >Aktuelle Sequenz/Filter kopieren.
ƒ Im nun dargestellten Dialog geben Sie den gewünschten Namen der neuen
Sequenz / des neuen Filters ein.
ƒ Das entsprechende Texteingabefeld wird zunächst mit dem Namen der
Originalsequenz sowie dem Zusatz „_copy“ initialisiert, kann jedoch beliebig
verändert werden.
ƒ Im Anschluss an die Bestätigung des neuen Namens wird die neue Sequenz
bzw. der neue Filter erzeugt und im Übersichtsfenster dargestellt.
65
65
ƒ Des Weiteren öffnet sich der Dialog „Sequenzinformationen“ (vgl. 4.5.8), in dem
Sie weitere Manipulationen an der Kopie vornehmen können. Die bei dem
Kopiervorgang erzeugte Sequenz hat als Owner denjenigen Nutzer, der die
Kopie angelegt hat. Während dies für die tree-Universitäts-Version ohne
Belang ist, versetzt es alle Nutzer der Industrie-Version in die Lage, beliebige
Manipulationen an beliebigen Daten vorzunehmen, wobei nur die Kopien, nicht
etwa die Originaldaten manipuliert werden können.
Hinweis: Dies steht nicht im Widerspruch zum tree-Owner-Prinzip. Sinn des Owner-Prinzips
ist es nicht, proprietäre Daten vor dem (lesenden) Zugriff anderer angemeldeter
Nutzer zu schützen, sondern lediglich zu verhindern, dass Datensätze eines
Nutzers durch einen anderen manipuliert werden, sodass ein Nutzer keine
Kontrolle über die Authentizität der eigenen Daten hätte.
4.5.10.3
Sequenzen und Filter entfernen
Um eine oder mehrere Sequenzen zu entfernen, wählen Sie den Menüpunkt
Bearbeiten >Alle ausgewählten Sequenzen/Filter entfernen. Dieser Vorgang
ist bei der tree-Industrie-Version, wie alle Arbeitsschritte, bei denen
Analyseergebnisse oder ganze Datensätze dauerhaft gelöscht werden,
ausschließlich den tree-Administratoren vorbehalten. Anwender ohne
Administrator-Rechte können den Vorgang jedoch durch einen Administrator
autorisieren lassen (vgl. 4.4.1.2).
66
66
Abb. 20: Sicherheitsabfrage beim Löschen von Sequenzen. Beachten Sie, dass alle ausgewählten
Sequenzen unwiderruflich entfernt werden.
Achtung: Beachten Sie, dass der Vorgang unwiderruflich ist. Überprüfen Sie vor dem
endgültigen Löschen genau, dass sich nicht versehentlich falsche Sequenzen in
der Auswahl befinden! Es werden alle zu diesem Zeitpunkt ausgewählten
proprietären Sequenzen gelöscht.
nadicom-Original-Sequenzen sind bei der tree-Industrie-Version prinzipiell vom
Löschen ausgenommen. Sollten sich nadicom-Sequenzen in der Auswahl
befinden, werden Sie darüber informiert, der Vorgang wird abgebrochen.
4.5.10.4
Ähnliche Sequenzen automatisch auswählen
Sowohl für die Überprüfung von Sequenzdaten wie auch der Korrektheit der
Integration in das multiple Alignment, aber auch für die Berechnung
phylogenetischer Bäume ist es notwendig, bereits vor der endgültigen Zuordnung
einer Sequenz („Identifikation“) eine Auswahl „ähnlicher“ Sequenzen zu treffen.
tree ermöglicht eine automatisierte Auswahl mit Hilfe der Funktion Ähnliche
Sequenzen automatisch auswählen. Grundlage der Festlegung „ähnlicher“
Sequenzen ist die Suche mittels des Suchalgorithmus’ BLAST (Basic Local
Alignment Search Tool)1 gegen eine Referenz-Datenbank (vgl. 4.4.1.3), der
1
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. Biol.
215:403-410.
Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST and PSIBLAST: a new generation of protein database search programs." Nucleic Acids Res. 25:3389-3402.
67
67
unabhängig vom multiplen Alignment der Teil-Datenbank arbeitet. Die
automatische Auswahl „ähnlicher Sequenzen“ kann deshalb zu jedem Zeitpunkt
der Bearbeitung durchgeführt werden.
1. Vor Beginn der automatischen Auswahl ist es notwendig, die Sequenz als
aktuelle Sequenz festzulegen, für die die Berechnung durchgeführt werden
soll.
2. Durch Anklicken von Alignment >Ähnliche Sequenzen automatisch
auswählen öffnen Sie den Dialog Ähnliche markieren (vgl. Abb. 21). Hier
haben Sie folgende Optionen:
à „Anzahl“ bezeichnet die Anzahl zu markierender, nahe verwandter
Sequenzen. Die Anzahl ist intern auf maximal 100 Sequenzen beschränkt.
Eingabe größerer Zahlen resultiert in der Auswahl von 100 Sequenzen.
à Durch Markieren des Feldes „Outgroup“ erfolgt zusätzlich die automatische
Auswahl von wenigen „unähnlichen“ Sequenzen. Dies ist nur für ein
anschließende phylogenetische Verrechnung von Relevanz (vgl. 4.6.5.2).
à Markieren des Feldes „Alle anderen demarkieren“ bewirkt das Entfernen
aller Sequenzen aus der Auswahl, bevor die Suche ähnlicher Sequenzen
durchgeführt wird. Dies ist hilfreich, wenn ausschließlich ähnliche
Sequenzen dargestellt bzw. phylogenetisch verrechnet werden sollen.
à Das Feld „Markierung streuen“ resultiert in einer größeren
phylogenetischen Breite der gefundenen Auswahl. Sollen z.B. 30
Sequenzen ausgewählt werden („Anzahl“ = 30) und wird „Markierung
streuen“ markiert, werden nicht die 30 ähnlichsten Sequenzen ausgewählt,
sondern zunächst die 15 ähnlichsten Sequenzen. Bei der Auswahl der
weiteren 15 Sequenzen wird abwechselnd jeweils eine „nächstähnliche“
Sequenz übersprungen und ausgewählt. Insgesamt resultiert dies in einer
breiteren Streuung der tatsächlichen Auswahl, was insbesondere für
phylogenetische Berechnungen sinnvoll ist.
à Mittels des Feldes „BLAST Resultate anzeigen“ können Sie die Ergebnisse
der schnellen Suche visualisieren und bei Bedarf mittels des MS-Notepads®
auch beliebig speichern.
à Durch das Feld „nur nadicom-Sequenzen markieren“ (nur IndustrieVersion) kann festgelegt werden, ob ausschließlich Original-Referenzsequenzen der Teil-Datenbank ausgewählt werden sollen (Verwendung der
68
68
nadicom-Referenz-DB), oder ob die Analyse alle Sequenzen der
allgemeinen Referenz-Datenbank umfassen soll (zu Referenz-Datenbank
vgl. 4.4.1.3) und somit auch proprietäre, zuvor importierte Sequenzen.
3. Im Anschluss an die Auswahl drücken Sie OK. Die Berechnung resultiert in der
Auswahl der gefundenen Sequenzen (rote Darstellung im Übersichtsfenster).
4. Um die ausgewählten Sequenzen z.B. im Alignmenteditor anzuzeigen, stellen
Sie mittels des Auswahl-Menüs (Abb. 9-7) das Alignmentfenster dar und
drücken Sie ( ). Alle nicht länger ausgewählten Sequenzen werden hierbei
aus dem Editor entfernt.
Abb. 21: Automatisches Auswählen ähnlicher Sequenzen: Die Anzahl ist auf maximal 100 Sequenzen
beschränkt. Die Funktion „Nur nadicom-Sequenzen markieren“ ist ausschließlich der tree-Industrie-Version
vorbehalten.
4.5.10.5
Sequenzen revers-komplementieren
Unter besonderen Umständen kann es sinnvoll sein, eine Sequenz in ihr
(molekulares) Gegenstück umzuschreiben (Revertieren und Komplementieren).
Beim Importieren von Sequenzen überprüft tree bereits automatisch die
Orientierung von Sequenzen und nimmt, falls erforderlich, eine Umorientierung
vor. Lediglich, wenn eine Sequenz nur sehr mangelhaft alignbar ist, kann es
sinnvoll sein, sie umzuschreiben und manuell zu überprüfen, ob so bessere
Ergebnisse erzielbar sind.
Achtung: Revers-komplementieren zerstört das bestehende Alignment der entsprechenden
Sequenz.
69
69
Um eine Sequenz in ihr Gegenstück umzuschreiben, drücken Sie Alignment >
Aktuelle Sequenz revers-/komplementieren. Für Routineanalysen ist die
Ausführung dieser Funktion nicht notwendig.
4.5.10.6
Identische Sequenz
Stellt tree während des Importierens von Sequenzen fest, dass diese über ihre
gesamte Länge zu einer oder mehreren bereits in der Teil-Datenbank enthaltenen
Sequenzen identisch ist, wird eine Referenz auf diese identische Sequenz [rote
Buchstaben „ID“ im Infofenster (Abb. 9-5)] gelegt.
Durch Anklicken dieses Links „ID“ wird die referenzierte, bereits zuvor in der
Datenbank befindliche identische Sequenz als aktuelle Sequenz im Infofenster
(Abb. 9-5) dargestellt. In den allermeisten Fällen ist es überflüssig, für eine neu
importierte, als „identisch“ identifizierte Sequenz, phylogenetische Berechnungen
oder die Schnelle Identifizierung durchzuführen. Beachten Sie aber, dass eine
Sequenz, insbesondere eine relativ kurze Sequenz, theoretisch über ihren
gesamten Bereich identisch zu mehreren, ihrerseits voneinander abweichenden
Sequenzen sein kann.
Die Kenntnis der Identitätsbeziehung kann insbesondere dann von Interesse sein,
wenn Sie regelmäßig ähnliche Proben untersuchen und z.B. am Auftreten oder
Fehlen bestimmter Arten oder Stämme interessiert sind. Eine weitere Analyse ist
bei positiver Übereinstimmung dann überflüssig.
Um eine manuelle Überprüfung einer möglichen Identitätsbeziehung einer
Sequenz anzustoßen, wählen Sie im Menü Bearbeiten die Funktion Aktuelle
Sequenz auf Identität mit anderen Sequenzen testen.
Beachten Sie: Es wird lediglich überprüft, ob die analysierte Sequenz in einer anderen
Sequenz enthalten ist. Die umgekehrte Beziehung wird nicht untersucht.
70
70
4.6
Die Inhalte des Arbeitsfensters des tree-Hauptfensters oder:
Analyseschwerpunkte
4.6.1
Alignments I: der tree-Alignment-Editor
Nachfolgend wird folgendes besprochen:
ƒ
die Handhabung des multiplen Alignments
ƒ
das Einfügen proprietärer Sequenzen in das bestehende multiple Alignment
(Sequenzen „alignen“)
ƒ
die optionale manuelle Korrektur von Alignments und Sequenzen mittels des
tree-Alignment-Editors.
Jede der tree-Teil-Datenbanken enthält eine große Anzahl repräsentativer 16S
bzw. 18S-Sequenzen. Wenngleich alle diese Sequenzen während der Evolution
durch Ableitung aus einer gemeinsamen Vorläufersequenz entstanden sind,
unterscheiden sich die Sequenzen einzelner Divisionen (z.B. Alphaproteobacteria
und Planctomycetes) in vielen Bereichen stark. Aber auch innerhalb niedriger
taxonomischer Ordnungen verfügen manche Sequenzen über charakteristische
Bereiche, die nicht oder nur in abgewandelter Form bei anderen Sequenzen
auftreten. Die Schwierigkeit jeden Alignments besteht nun darin, homologe
Bereiche zu erkennen und einander zuzuordnen und dabei nicht-homologe
Bereiche zu trennen.
Alle nadicom-Sequenzen einer Teil-Datenbank sind bereits innerhalb jeweils eines
multiplen, globalen Alignments angeordnet. Diese Zuordnung der
Referenzsequenzen zueinander ist fixiert und kann durch den Anwender nicht
manipuliert werden. Wird während des Alignments von Anwender-eigenen
Sequenzen das Einfügen weiterer Gaps notwendig (z.B. aufgrund neuer,
einzigartiger Insertionen der neuen Sequenz), so werden diese Gaps stets in alle
Sequenzen des multiplen Alignments eingefügt; an der Zuordnung der einzelnen
Basen der bereits alignten Sequenzen zueinander ändert sich nichts.
71
71
4.6.1.1
Das Alignmentfenster
Der Alignment-Editor kann im Arbeitsbereich, wie unter 4.4.2 kurz beschrieben,
visualisiert werden. Beim Programmstart wird automatisch der Alignment-Editor
dargestellt. Allerdings werden zunächst keine Sequenzen, sondern ein leeres
Fenster gezeigt (vgl. Abb. 9-9). Der Wechsel zwischen Alignment-Editor und
anderen Arbeitsbereichsinhalten kann jederzeit mittels des Auswahlmenüs (Abb.
9-7) erfolgen.
Anzeigen der Sequenzen im Alignment-Editor:
ƒ
Auswählen der gewünschten Sequenzen (vgl. 4.4.1.1), was in der Darstellung
der Sequenznamen (im Übersichtsfenster, 0) in roter Schriftfarbe resultiert.
ƒ
Durch Betätigen von ( ) werden die markierten Sequenzen in den AlignmentEditor überführt. Die Reihenfolge, in der die Sequenzen im Editor dargestellt
werden, korrespondiert dabei zunächst zur taxonomischen Ordnung innerhalb
des Übersichtfensters.
ƒ
Entfernen von Sequenzen aus dem Editorfenster erfolgt durch Demarkieren
der jeweiligen Sequenz (z.B. im Übersichtsfenster oder auch direkt im Editor)
und erneutes Drücken der Taste (
). Analog können dem Editor durch
Markieren und Drücken von ( ) weitere Sequenzen hinzugefügt werden.
Diese werden unterhalb der bereits dargestellten Sequenzen eingefügt.
Im Editor sind die Sequenzen jeweils übereinander dargestellt. Zu jeder Spezies
gehören zwei Felder: Das linke Feld („Namensfeld“) enthält Informationen zur
Identität der Sequenz (z.B. Name des Datenbankeintrags) und dient dem
Auswählen/Selektieren aber auch dem vertikalen Verschieben einer Sequenz
innerhalb des Alignment-Editors.
Im Menüpunkt Einstellungen > Alignment: Name statt Artname anzeigen
haben Sie die Möglichkeit, die Anzeige anzupassen. Markieren dieses
Kontrollkästchens resultiert in einer Beschriftung der Namensfelder mit dem Inhalt
des Datenbank-Feldes „SOURCE“, also i.d.R. mit dem taxonomischen Namen.
Das rechte, ungleich größere Feld („Sequenzfeld“) enthält die eigentliche
Sequenz (Basenabfolge). Es dient der manuellen Überprüfung des Alignments.
72
72
Alignments proprietärer Daten können hier korrigiert, die Sequenzen selbst editiert
werden. In diesem Bereich erfolgt auch die Darstellung von
Elektropherogrammen.
Sind Sequenzen mit einem Elektropherogramm assoziiert (also nach Importieren
von Sequenzen im ABI-Format), werden die Elektropherogramme automatisch
oberhalb der Basenabfolge der jeweiligen Sequenz dargestellt. Die einzelnen
Peaks bleiben dabei stets nach jedem Align-Vorgang mit den korrespondierenden
Basen assoziiert, werden also oberhalb davon dargestellt.
Die Reihenfolge der Sequenz im Editor kann beliebig verändert werden.
ƒ
Klicken Sie dazu mit der Maus in das Namensfeld der zu verschiebenden
Sequenz und schieben Sie dieses (bei gedrücktem Mausknopf, „Drag&Drop“)
nach oben oder unten bis zur gewünschten Position. Wird zunächst nur das
Namensfeld verschoben dargestellt, so erfolgt nach Loslassen des
Mausknopfes die endgültige Anordnung von Namens- und Sequenzfeld.
4.6.1.2
Manuelle Alignmentkorrekturen
Der Alignment-Editor dient dem manuellen Editieren des multiplen Alignments,
auch die Sequenzen selbst können hier editiert werden. Das automatische Alignen
eigener Daten wird direkt unterhalb dieses Abschnitts unter 4.6.2 dargestellt.
Alle im Folgenden beschriebenen Modifikationen von Sequenzen werden erst
dann dauerhaft übernommen, wenn sie mittels des Buttons (
) bzw. des
Menüpunkts Alignment > Manuelle Änderungen des Alignments übernehmen
vom Sequenzeditor auf die zugehörigen Sequenzen übertragen werden. Bis zu
diesem Moment wurden Veränderungen lediglich auf die Darstellung der
Sequenzen im Editor, nicht jedoch auf den permanent gespeicherten Sequenzen
selbst angewendet.
Haben Sie also eine Modifikation vorgenommen und wollen diese z.B. für eine
anschließende phylogenetische Verrechnung übernehmen, ist es notwendig,
zunächst die Taste (
) zu betätigen. Damit werden die Veränderungen,
späteres Speichern der Teil-Datenbank vorausgesetzt, dauerhaft übernommen.
Diese Vorsichtsmaßnahme dient dem Verwerfen von manuellen
Alignmentkorrekturen.
73
73
Um eine vorgenommene Veränderung zu löschen, entfernen Sie die modifizierte
Sequenz aus dem Alignment-Editor durch Demarkieren und Drücken von (
Hinweis: Alignmentkorrekturen werden erst durch Betätigung von (
).
) dauerhaft auf die
Sequenz übernommen und können dann nicht mehr verworfen werden.
Im Gegensatz zu manuellen Alignmentkorrekturen werden alle durch tree
automatisch durchgeführten Änderungen des Alignments (Alignen von Sequenzen
usw.) direkt auf die Sequenz und nicht ausschließlich auf deren Darstellung
angewendet.
4.6.1.3
Modi des Alignment-Editors
Da der Alignment-Editor die Manipulation von Primärdaten zulässt, wurden drei
verschiedene Modi konzipiert, die durch Anklicken der Knöpfe (
(
), (
) und
) gewechselt werden können.
Ein roter Rahmen um den jeweiligen Knopf zeigt den aktuellen Modus an (vgl.
Abb. 22 links).
74
74
Abb. 22: Die Knopfleiste des Alignment-Editors
Links:
1: „Abgesicherten Modus“ Keine manuellen Änderungen mittels (2) und (3) möglich
2: „Alignment-Modus“
Sequenzalignments können manuell korrigiert werden
3: „Edit-Modus“
Basen können manuell korrigiert werden
4: Taste „PDF“
Ausgabe des dargestellten Alignments in das PDF-Format
5: Taste „Drucken“
Drucken des aktuellen Alignmentausschnitts
6: Taste „Markieren“
Alle im Alignmenteditor dargestellten Sequenzen zur Auswahl hinzufügen
7: Taste „Demarkieren“
Alle im Alignmenteditor dargestellten Sequenzen aus der Auswahl entfernen
8: Taste „2S“
2 Sequenzen des multiplen Alignments gegeneinander vergleichen
9,10 Tasten „Cut“
Anfangs- bzw. Endbereich der aktuellen Sequenz entfernen
Rechts:
1: Die absolute Alignmentposition zählt alle Positionen des multiplen Alignments bis zur angeklickten Base
2: Die relative Alignmentposition zählt alle Positionen der angeklickten Sequenz bis zur angeklickten Base
Manipulationen können allerdings stets nur auf nutzereigenen Daten durchgeführt
werden. Sequenzen der Original-nadicom-Teil-Datenbanken (Referenzsequenzen)
sind nicht manipulierbar. Des Weiteren muss ein Anwender über Ownerrechte
verfügen, um Korrekturen einer Sequenz dauerhaft übernehmen zu können.
Verfügt ein Anwender weder über Administrator- noch über Ownerrechte kann er
sich für anstehende Datenmanipulationen autorisieren lassen. Um den
Autorisierungs-Aufwand gering zu halten, können auch „fremde“ Sequenzen im
75
75
Alignment-Editor zunächst beliebig manipuliert werden. Um die Daten
anschließend jedoch dauerhaft zu übernehmen [Taste (
)der Hauptfenster-
Knopfleiste], muss die Autorisierung erfolgen.
Um vor möglichen Problemen bei der Übernahme der Veränderungen zu warnen,
wird der Nutzer stets, wenn er in einen der Modi „Align“ oder „Edit“ des
Alignmentfensters schaltet, an diese Einschränkung erinnert. Die Warnhinweise
können abgeschaltet werden, indem der Menüpunkt Einstellungen >
Alignment:OWNER-Warnung bei Modus-Wechsel anzeigen demarkiert wird
(zum Owner-Prinzip siehe 4.4.1.2).
Im Abgesicherten Modus (
) können die Alignments und Sequenzen lediglich
verglichen, nicht jedoch manipuliert werden. Dieser Modus ist per default
eingestellt und sollte nicht ohne Grund verlassen werden. Unter Umständen kann
jedoch die manuelle Korrektur des automatischen Alignments notwendig sein.
4.6.1.4
Der Align-Modus
In diesem Fall ist zunächst in den Align-Modus (
) zu wechseln. In diesem
Modus können Alignments (also die Positionen der Basen), nicht jedoch die
einzelnen Basen einer Sequenz selbst verändert werden.
Das bedeutet, dass Basen zwar horizontal verschoben, nicht jedoch editiert werden
können. Gaps werden entfernt bzw. eingefügt, indem der Cursor mittels der Maus direkt
vor (stromabwärts) die zu verschiebenden Basen der zu korrigierenden Sequenz gebracht
wird und anschließend eine Maustaste gedrückt wird. Bei gedrückter Maustaste können
die jeweiligen Basen nun nach rechts oder links verschoben werden.
76
76
Abb. 23: Arbeiten im Align-Modus
1: Sequenz vor manueller Korrektur (Pfeil gibt die Cursorposition an).
2: Sequenz nach Alignmentkorrektur mit linker Maustaste: nur der ausgewählte Sequenzblock wird verschoben.
3: Sequenz nach Alignmentkorrektur mit rechter Maustaste: der gesamte Bereich stromaufwärts der
Cursorposition wird verschoben.
Verschieben mit der linken Maustaste
Dies wirkt sich jeweils auf den Block von Basen direkt oberhalb des
Mauszeigers aus.
Dieser wird im multiplen Alignment an die gewünschte Position verschoben. Stößt der
Basenblock dabei auf weitere Basen, werden diese als Teil des Blocks ebenfalls
verschoben. Stößt der aktuelle Block beim Verschieben nach links auf weitere Basen, so
wird das Verschieben erst fortgesetzt, wenn der Mauszeiger sich stromabwärts (unterhalb)
der blockierenden Basen befindet.
Verschieben mit der rechten Maustaste
Diese Funktion wirkt sich stets auf alle Basen und Gaps einer Sequenz
oberhalb des Cursors aus.
Statt einzelner Blöcke im Alignment wird somit der gesamte stromaufwärts gelegene
Sequenzbereich verschoben. Verschieben nach rechts führt dabei dazu, dass die
Positionen, an denen die verschobenen Basen zuvor lokalisiert waren, durch Gaps
77
77
aufgefüllt werden. Im Gegenzug werden am Ende des Alignments Gaps entfernt.
Verschieben nach links erfolgt dementsprechend durch Entfernen von Gaps am Anfang
des Alignments. Verschieben mit der rechten Maustaste ist deshalb immer nur dann
möglich, wenn genug Gaps zum Entfernen zu Verfügung stehen. Der Anwender sollte sich
immer vor Augen führen, dass nicht nur der gerade sichtbare Bereich des Alignments,
sondern alle stromaufwärts (rechts) gelegenen Bereiche der Sequenz verschoben werden.
[vgl. Abb. 23, 1-3 (Beispiel: Arbeiten im Align-Modus)].
Werden Sequenzen, denen Elektropherogramme zugeordnet sind, manuell alignt,
erfolgt die Aktualisierung der Elektropherogramm-Darstellung aus
Effizienzgründen erst nach dem Loslassen der Maustaste.
Wenn Sie jedoch eine zeitgleiche Aktualisierung bevorzugen, markieren Sie den
Menüpunkt Einstellungen > Alignment: Elektropherogramme stets
aktualisieren. Die Elektropherogramme werden nun nach jedem Verschieben von
Basen (nach jeder Mausbewegung) aktualisiert. Allerdings bedingt die erhöhte
Rechenleistung ein langsameres Bearbeiten von Sequenzen mit
Elektropherogrammen.
Hinweis: Manuelle Korrekturen des Alignments können i.d.R. auch nach der dauerhaften
Übernahme mittels (
) sehr schnell rückgängig gemacht werden, indem die
manipulierte Sequenz durch den „automatischen Aligner“ von tree (vgl. 4.6.2) neu
alignt wird.
4.6.1.5
Der Edit-Modus
Im dritten Modus des Alignment-Editors, dem Edit-Modus, werden Basen und
Gaps nicht verschoben, sondern überschrieben. Somit werden Primärdaten
modifiziert, was i.d.R. nur dann erforderlich ist, wenn Sequenzierdaten im Kontext
ähnlicher Sequenzen kontrolliert und korrigiert werden sollen.
Um eine ungewünschte Verfälschung von Daten zu verhindern, werden alle
Veränderungen von Primärdaten nicht direkt im Sequenzfenster, sondern in einem
separaten Dialog durchgeführt.
Die Handhabung erfolgt analog dem Align-Modus:
78
78
ƒ
Durch Ziehen der Maus (linke Maustaste) werden die zu editierenden Basen
zunächst markiert (rot hervorgehoben).
ƒ
Loslassen der Maustaste öffnet den „Edit-Sequence-Dialog“ (vgl. Abb. 24). Im
Kontext des Dialogs wird der markierte Sequenzbereich dargestellt und kann
nun verändert werden. Dabei können einzelne Charaktere, aber auch der
gesamte Abschnitt überschrieben oder modifiziert werden. Das globale
Alignment der editierten Sequenz außerhalb des editierten Bereichs ist von
den Veränderungen nicht betroffen, da Entfernen von Basen (oder Gaps) stets
durch Anhängen von Gaps an den editierten Bereich ausgeglichen wird,
sodass insgesamt kein Hinzufügen oder Entfernen von Positionen aus der
Basenabfolge möglich ist.
Sollen zusätzliche Basen in eine Sequenz hinzugefügt werden, können lediglich
bereits bestehende Gaps überschrieben werden. Sind keine Gaps an der
gewünschten Position vorhanden, müssen sie zunächst im Align-Modus angelegt
werden.
Abb. 24: Arbeiten im Edit-Modus:
1:
Das Edit-Fenster wurde nach dem Selektieren des zu bearbeitenden Bereichs geöffnet.
2:
Die rot hinterlegten Elektropherogramm-Bilder sind zum Löschen vorgesehen [Entfernen der Basen durch
Eingabe des Leerzeichens (Space-Taste)]. Um nur die Basen zu entfernen, die Bilder jedoch zunächst zu
konservieren, überschreiben Sie die Basen mit dem „-“-Zeichen.
3:
Editiert wird nicht die aktuelle Sequenz (blau hinterlegt) sondern die Sequenz, in die „geklickt“ wurde.
4:
Die in roter Farbe dargestellten Basen sind für das Editieren ausgewählt worden.
5:
Der dem Edit-Modus zugeordnete Knopf wurde ausgewählt.
79
79
Zum Navigieren innerhalb des „Edit-Sequence-Dialogs“ können neben der Maus
auch die Pfeil-Tasten des Keyboards genutzt werden.
Die eingegebenen Zeichen werden direkt bei der Eingabe überprüft. Folgende
Zeichen sind zugelassen:
A, a‚ C‚ c‚ G‚ g ‚T‚ t ‚ N ‚ n, ., - sowie die Leertaste (Entfernen von Basen/Gaps
bzw. Löschen von Elektropherogramm-Teilbildern).
Beim Editieren von Filtern wird dabei das Zeichen ‚.’ (Punkt) als MaskierungsSymbol akzeptiert, während die Eingabe während des Editierens von Sequenzen
als Gap (‚-’) interpretiert wird. Andere Zeichen (bspw. des IUPAC-Codes) werden
nicht akzeptiert. Mittels des OK-Knopfes können die Veränderungen in den
Alignment-Editor übernommen werden. Mit Abbruch werden sie verworfen.
Wie für den Alignment-Modus gilt, dass Veränderungen der Sequenzdarstellung
im Alignment-Editor erst dann dauerhaft wirksam werden (und z.B. als
Grundlage für Baumberechnungen genutzt werden können), wenn mittels des
Buttons (
4.6.1.6
) die Veränderungen übernommen werden.
Entfernen von Sequenzrändern
Die gegenwärtige Sequenziertechnik bedingt, dass die Qualität von im Labor
erhobenen Sequenzen an den Rändern der Sequenzen schwächer wird. Gerade
Sequenzen im ABI-Format, die durch einen einzigen Sequenziergang erzielt
werden, weisen deshalb häufig einen großen, randständigen Sequenzbereich
unzureichender Qualität auf. Das Entfernen großer Sequenzabschnitte im EditModus ist zeitaufwendig. Um Sequenzränder effizienter zu entfernen, nutzen Sie
die „Cut“-Tasten (
)und (
) (Abb. 22).
Vorgehen:
ƒ
Stellen Sie zunächst die zu bearbeitende Sequenz im Alignmenteditor dar und
definieren Sie sie als „aktuelle Sequenz“.
ƒ
Legen Sie nun den zu entfernenden Randbereich fest, indem Sie die letzte
(Sequenzanfang abschneiden) bzw. die erste (Sequenzende) zu entfernende
Base anklicken. Die Position der Base wird nun in den Positionsfeldern
80
80
dargestellt. Sie können die Position auch durch Anklicken jeder anderen
dargestellten Sequenz festlegen.
ƒ
Drücken Sie anschließend die Taste (
der ausgewählten Base oder (
), um den Sequenzbereich oberhalb
), um den Bereich unterhalb der
ausgewählten Base zu entfernen. Beachten Sie, dass sich der Befehl auf die
aktuelle Sequenz bezieht, unabhängig davon, in welcher Sequenz die
Positionsauswahl erfolgte
ƒ
Der zu entfernende Bereich wird nun rot hinterlegt dargestellt. Überprüfen Sie
Korrektheit und bestätigen Sie danach die Sicherheitsabfrage.
ƒ
Der Sequenzrand wird zunächst lediglich in der Darstellung der Sequenz
entfernt. Um die Änderung dauerhaft zu übernehmen, ist es notwendig, sie
mittels der Taste (
) zu sichern. Dementsprechend können die
Änderungen verworfen werden, indem Sie die trunkierte Sequenz aus dem
Alignment-Editor entfernen, ohne die Änderungen zu übernehmen.
Abb. 25: Entfernen von Sequenzrändern
Oben: Vor dem Löschen ist eine Sicherheitsabfrage zu bestätigen. Die zu entfernenden Basen werden rot hinterlegt.
Unten: Die Sicherheitsabfrage wurde bestätigt. Zum endgültigen Übernehmen der Änderung ist jedoch noch das
Betätigen der Taste (
) notwendig.
81
81
Es ist wichtig, mehrdeutige Sequenzbereiche schlechter Qualität zu
entfernen, bevor die entsprechende Sequenz in das multiple Alignment
integriert wird. Solche Bereiche sind häufig durch stark verbreiterte Peaks
charakterisiert, die das automatische Basecalling erschweren. Die deshalb häufig
auftretenden „Pseudobasen“ werden aber während des Alignens wie reale
Insertionen gewertet, was im Einfügen zusätzlicher Positionen in das multiple
Alignment und letztlich in einem sehr unübersichtlichen Alignment resultiert.
4.6.1.7
Hinzufügen und Entfernen von Positionen des multiplen Alignments
Nach längerem Arbeiten mit einer Teil-Datenbank, häufigem Importieren und
Alignen von Sequenzen, manuellen Alignmentkorrekturen und insbesondere nach
dem Entfernen von Sequenzen mangelnder Qualität aus der Datenbank können
im multiplen Alignment Positionen vorhanden sein, an denen keine der in der
Datenbank (noch) vorhandenen Sequenzen oder Filter Basen aufweist. Diese
Positionen enthalten dementsprechend keine phylogenetischen Informationen und
können als überflüssig betrachtet werden. Zwar hat das Vorhandensein einzelner
nicht-informativer Positionen keinen Einfluss auf die tree-Analysen, das häufige
Auftreten jedoch „vergrößert“ das multiple Alignment stark, es wird dadurch
unübersichtlich.
ƒ
Um nicht-informative Positionen zu entfernen, wählen Sie im AdministrationsMenü den Eintrag Alignment > Gemeinsame Gaps entfernen und bestätigen
Sie die Sicherheitsabfrage. In der tree-Industrie-Version ist dieser Schritt
tree-Administratoren vorbehalten.
ƒ
Die entfernten Positionen werden anschließend dargestellt, und, in der treeIndustrie-Version, protokolliert. Der Schritt kann somit, theoretisch, durch
Einfügen von Gaps (s.u.) an den protokollierten Positionen wieder rückgängig
gemacht werden.
Hinweis: Der tree-Administrator sollte die Bereinigung des Alignments regelmäßig
durchführen. Dabei sollte sichergestellt sein, dass alle Sequenzen der Teil-DB
aligned sind.
82
82
Die dem Entfernen von gemeinsamen Gaps entgegen gesetzte Funktion ist das
Einfügen (leerer) Positionen in das multiple Alignment einer Teil-Datenbank. Hier
wird in allen Sequenzen und Filtern der Datenbank an der vom Anwender (treeIndustrie-Version: Admin) spezifizierten Alignmentposition ein Gap eingefügt.
Wie oben beschrieben, beeinflussen solche nicht-informativen Positionen die
Analyseergebnisse nicht.
ƒ
Das Einfügen von Positionen ist dann notwendig, wenn im Zuge manueller
Alignmentkorrekturen Basen verschiedener Sequenzen, die bislang an der
selben Position des Alignments standen, auf zwei unterschiedliche Positionen
verteilt werden sollen. Der Vorgang wird nur erfahrenen Anwendern
empfohlen.
ƒ
Wählen Sie in einer beliebigen, im Alignment dargestellten Sequenz durch
Anklicken mit der Maus die Position aus, hinter der die neue Alignmentposition
eingefügt werden soll.
ƒ
Wählen Sie anschließend den Eintrag Alignment: Neue Position einfügen
des Administrationsmenüs.
4.6.2
Alignments II: automatische Integration in das multiple Alignment
4.6.2.1
Alignen einer oder mehrerer Sequenzen
Importierte Sequenzen sind zunächst nicht alignt, die Basen folgen on Block, ohne
ordnende Gaps, aufeinander. (Allerdings können auch bereits alignte Sequenzen
importiert werden, vgl. Kurzanleitungen für die Erstellung von Teil-Datenbanken).
Während des Importierens wird lediglich überprüft, ob die Sequenzen zur
jeweiligen Datenbank „passen“ (z.B. ob es sich tatsächlich um 16S/18S
Sequenzen handelt), und ob die Sequenzen korrekt orientiert sind (oder reverskomplementiert werden müssen, vgl. 4.3.2).
Ein erster Schritt bei der Identifikation einer importierten Sequenz besteht deshalb
im Alignen der Sequenz, d.h. die Sequenz wird in das bestehende multiple
Alignment der jeweiligen Datenbank integriert.
ƒ Dazu wird die zu alignende Sequenz als aktuelle Sequenz selektiert
(Darstellung der Sequenz im Infofenster).
ƒ Anschließend wird die automatische Alignmentberechnung mittels des
83
83
Knopfes Align (
) der Hauptfenster-Knopfleiste oder des Menüpunkts
Alignment > Aktuelle Sequenz alignen gestartet.
Aufgrund der Rechenintensität kann dieser Schritt in Abhängigkeit von der
Rechnerumgebung einige Sekunden in Anspruch nehmen.
ƒ Wurden mehrere Sequenzen auf einmal importiert, können alle gemeinsam in
einem Schritt in das multiple Alignment integriert werden. Dabei werden die
Sequenzen allerdings nicht parallel, sondern sequenziell abgearbeitet. Die
Rechenzeit steigt somit linear zur Anzahl der verrechneten Sequenzen.
ƒ Wählen Sie die Sequenzen zunächst aus und starten Sie anschließend das
gemeinsame Alignment (Alignment > Alle ausgewählten Sequenzen
alignen).
Hinweis: Achten Sie bei dem „Alignen aller ausgewählten Sequenzen“ darauf, dass sich
keine weiteren, bereits alignten Sequenzen in der Auswahl befinden. Andere
Sequenzen können zunächst, z.B. mittels des Menüpunkts Bearbeiten >
Auswahl leeren, aus der Auswahl entfernt werden.
Abb. 26: Automatisches Alignment: Die importierte, zunächst nicht-alignte Sequenz vor und nach dem
automatischen Alignen.
84
84
4.6.2.2
Alignmentkontrolle
Insbesondere nach der Verrechnung von kurzen oder ungewöhnlichen Sequenzen
(wie z.B. Sequenzen mit mehreren einzigartigen Insertionen oder Sequenzen
schlechter Qualität) kann es notwendig sein, das automatische Alignment zu
überprüfen und gegebenenfalls kurze Bereiche mittels der oben beschriebenen
Funktionen „Edit-Modus“ und „Align-Modus“ manuell zu korrigieren. Die im
Programm implementierten Alignment-Parameter sind für vollständige, qualitativ
hochwertige Sequenzen optimiert und deshalb für „unsaubere“ Sequenzen (bspw.
manche Randbereiche von ABI-Sequenzen) nicht immer optimal.
Hinweis: Bei Alignments handelt es sich stets nur um Hypothesen über Jahrmillionen
zurückliegende Evolutionsereignisse, deren Qualität stets von der Korrektheit der
benutzten Evolutionsmodelle abhängt. Das perfekte Alignment (im Sinne einer
exakten Übereinstimmung mit der tatsächlichen Evolutionsfolge) gibt es nicht.
85
85
4.6.3
Weitere Funktionen des Alignment-Menüs
4.6.3.1
Alignment oder Alignmentausschnitt als PDF exportieren
ƒ Durch Auswählen des Menüpunkts Alignment >PDF-File erzeugen bzw.
Betätigen der Taste (
) (Abb. 22) der Alignment-spezifischen rechten
Knopfleiste öffnen Sie den Dialog „Alignment als PDF sichern“ (Abb. 27).
ƒ Wahlweise können Sie die zurzeit im Alignment-Editor dargestellten Sequenzen
über ihre gesamte Länge (default) oder nur den aktuell sichtbaren
Ausschnitt des Alignmentfensters exportieren.
Beim Exportieren des „gesamten“ multiplen Alignments muss allerdings
berücksichtigt werden, dass, in Abhängigkeit von dem gewählten Zoomfaktor und
der Blatthöhe, nur eine bestimmte Anzahl von Sequenzen ausgegeben werden
kann. Je größer der Zoomfaktor, desto weniger Sequenzen werden exportiert.
Dabei spielt die aktuelle Scrollposition des Alignmenteditors keine Rolle: die
Sequenzen werden entsprechend ihrer Anordnung von oben nach unten
ausgegeben. Im Gegensatz dazu wird bei Ausgabe des aktuellen Ausschnitts
genau der Bereich des Alignments exportiert, der z. Z. auf dem Bildschirm sichtbar
ist.
Hinweis: Die Wahl eines kleinen Zoomfaktors hat übrigens keinen Einfluss auf die
Auflösung des resultierenden PDF, da Sequenzen wie Graphen als Vektorgraphik
ausgegeben werden, und somit im PDF-Viewer ohne Qualitätsverlust beliebig
vergrößert werden können. Um also eine große Anzahl von Sequenzen zu
exportieren, wählen Sie einen entsprechend kleinen Zoomfaktor.
86
86
Abb. 27: Ausgabe im PDF-Format. Sie können den aktuell dargestellten Alignmentausschnitt sowie auch die im
Alignmenteditor dargestellten Sequenzen in voller Länge exportieren. Dargestellt ist die Auswahl eines
Vergrößerungsfaktors.
ƒ Im Anschluss an die Bestätigung mittels OK-Knopf wird ein Datei-AuswahlDialog geöffnet, der es ermöglicht, ein Verzeichnis sowie einen Namen für das
zu erstellende PDF festzulegen.
ƒ In der tree-Industrie-Version haben Sie darüber hinaus die Möglichkeit, das
zu erstellende PDF im Anschluss mit einem Passwort gegen unbefugten
Zugriff zu verschlüsseln. Soll das PDF nicht verschlüsselt werden, drücken Sie
bei der entsprechenden Abfrage Abbrechen oder OK, ohne ein Passwort
einzugeben. Wenn Sie ein Passwort vergeben, kann das PDF nur nach
Eingabe dieses Passworts geöffnet werden.
Abb. 28: Verschlüsselung eines PDF-Dokuments. Im Anschluss haben Nutzer der tree-Industrie-Version die
Möglichkeit, das PDF-Dokument zu verschlüsseln und vor unbefugtem Zugriff zu sichern.
87
87
Während der Erstellung des PDF werden Sie über die Fortschritte des Vorgangs
informiert. Sie können die Erstellung des PDF jederzeit vorzeitig abbrechen. In
diesem Fall wird ein Dokument mit den bereits exportierten Seiten erzeugt. Im
Anschluss an die Erstellung wird das neu generierte PDF im auf dem jeweiligen
Rechner zugeordneten PDF-Reader (also z.B. Adobe® Reader®) geöffnet und
kann somit direkt manuell überprüft werden.
Abb. 29: Während des Erzeugens des PDF-Dokuments wird der Nutzer über die Dauer informiert.
Exportieren von Elektropherogrammen nimmt mehr Zeit in Anspruch als das Exportieren von „einfachen“
Sequenzdaten. Im Beispiel wurden 6 von 34 Seiten erstellt.
4.6.3.2
Alignmentausschnitt drucken
ƒ Durch Auswählen des Menüpunkts Alignment > Alignmentausschnitt
drucken bzw. Betätigen der Taste (
) der Alignment-spezifischen rechten
Knopfleiste öffnen Sie den Dialog „Alignmentausschnitt drucken“ (vgl. auch
Abb. 27).
ƒ Mittels des Zoomfaktors können Sie den auszudruckenden Bereich vergrößern
oder verkleinern. Beachten Sie jedoch, dass eine Vergrößerung über die
aktuelle Papiergröße Ihres Druckers hinaus zu Informationsverlust führen kann.
Im Gegensatz zur Erzeugung eines PDF können Sie lediglich den z. Z.
dargestellten Bereich des Alignments drucken. Sollten Sie das multiple Alignment
über seine gesamte Länge ausdrucken wollen, erzeugen Sie zuvor ein PDF und
nutzen Sie die Druck-Funktionalität Ihres PDF-Readers.
88
88
4.6.3.3
Dargestellte Sequenzen zur Auswahl hinzufügen /aus Auswahl entfernen
Mittels der Menüpunkte
ƒ Alignment > Dargestellte Sequenzen zur Auswahl hinzufügen
[Knopf (
) der rechten Toolbar, Abb. 22] bzw.
ƒ Alignment > Dargestellte Sequenzen aus Auswahl entfernen
[Knopf (
) der rechten Toolbar, Abb. 22]
können Sie sämtliche z. Z. im Alignmenteditor dargestellten Sequenzen markieren
bzw. demarkieren. Der Erfolg des Vorgangs wird sofort, z.B. anhand der
Schriftfarbe der Sequenznamen, sichtbar.
4.6.3.4
Multiples Alignment zweier Sequenzen vergleichen
Der Menüpunkt Alignment >Multiples Alignment zweier Sequenzen
vergleichen [Knopf (
) in der rechten Toolbar] ermöglicht die direkte
Gegenüberstellung und die Hervorhebung der Unterschiede zweier Sequenzen.
ƒ Wählen Sie zunächst eine Sequenz als aktuelle Sequenz aus. Diese muss
nicht im Alignmenteditor dargestellt sein. Wenn sie es ist, wird der
Sequenzname im Namensfeld des Alignmenteditors blau hinterlegt.
ƒ Anschließend klicken Sie das Namensfeld der zu vergleichenden zweiten
Sequenz im Alignmenteditor an. Es ist offensichtlich, dass diese Sequenz dazu
im Editor dargestellt werden muss. Beide Sequenzen werden nun in einem
Texteditor (MS-Notepad) vergleichend dargestellt.
Hinweis: Für eine korrekte Darstellung achten Sie darauf, dass der Editor den Zeichensatz
„Courier“, oder einen anderen „Monospaced-Font“ verwendet.
Sollten die einzelnen Zeilen im Texteditor unterschiedlich lang sein, wählen Sie im
Notepad-Menü Format >Schriftart und dann den Zeichensatz „Courier“ oder
„Courier new“. Diese Einstellung sollte in der Regel nur einmal notwendig sein.
Im Texteditor wird die Basenabfolge der zuerst ausgewählten Sequenz in einer
Zeile, darunter (in der jeweils nächsten Zeile) die abweichenden Positionen (bzw.
das Symbol ’.’) der zweiten Sequenz dargestellt. Abweichende Positionen werden
89
89
darüber hinaus durch ein ’*’-Symbol in der jeweils dritten Zeile hervorgehoben.
Diese Darstellung ermöglicht das schnelle Auffinden aller Unterschiede zweier
mehr oder weniger ähnlicher Sequenzen. Da hier lediglich ein Ausschnitt aus dem
multiplen Alignment der aktuellen Teil-DB dargestellt wird, ist es notwendig, dass
beide zu vergleichenden Sequenzen in dieses multiple Alignment integriert sind.
Die Darstellung ist deshalb auf „alignte“ Sequenzen beschränkt.
Achtung: Sollte auf Ihrem Windows-System kein MS-Editor® (Notepad) installiert sein, kann
der Sequenzvergleich nicht dargestellt werden.
4.6.3.5
Paarweises Alignment zweier Sequenzen (berechnen und) vergleichen
Im Unterschied zur gerade beschriebenen vergleichenden Darstellung zweier
Sequenzen im Kontext des multiplen Alignments werden die zu vergleichenden
Sequenzen nach Auswahl des Menüpunkts Alignment >Paarweises Alignment
zweier Sequenzen (berechnen und) vergleichen nicht nur vergleichend
gegenübergestellt. Stattdessen wird zunächst ein paarweises Alignment dieser
Sequenzen berechnet, welches anschließend, wie für das multiple Alignment
beschrieben, aufgearbeitet wird, sodass die Unterschiede der verglichenen
Sequenzen hervorgehoben werden. Aus diesem Grunde ist es auch nicht
notwendig, dass beide (oder auch nur eine) Sequenz(en) in das multiple
Alignment integriert („alignt“) sind. Während bei der vergleichenden Darstellung
des multiplen Alignments sämtliche Alignmentpositionen, also auch solche, an
denen beide Vergleichssequenzen nur Gaps aufweisen, ausgegeben werden,
werden beim paarweisen Alignment ausschließlich Positionen des paarweisen
Alignments dargestellt, an denen zumindest eine der beiden Sequenzen eine
Base aufweist.
90
90
Abb. 30: Vergleich zweier Sequenzen des multiplen Alignments mittels der Taste „2S“. Während die obere
Sequenz komplett dargestellt wird, werden die Basen der unteren Sequenz nur dann ausgegeben, wenn Sie von
der oberen Sequenz abweichen. Es handelt sich hierbei um einen Ausschnitt aus dem multiplen Alignment, nicht
etwa um ein paarweises Alignment.
Hinweis: Die Berechnung dient lediglich der Gegenüberstellung zweier Sequenzen und
kann deshalb innerhalb trees nicht gespeichert werden. Zwar können Sie das
erzeugte Text-Dokument unter beliebigem Namen speichern, allerdings kann die
Analyse natürlich auch jederzeit wiederholt werden.
4.6.4
Phylogenie I: das Phylogenie-Fenster
4.6.4.1
Darstellung von Phylogenien
Um phylogenetische Bäume anzuzeigen, stellen Sie zunächst mittels des
Auswahlmenüs (Abb. 9-7) das Phylogenie-Fenster dar. Neben der eigentlichen
Darstellungsfläche für Stammbäume werden Phylogenie-spezifische Elemente
(Abb. 32, 11-13) in die Knopfleiste des Arbeitsbereichs eingebunden. Darüber
hinaus verfügt das Phylogenie-Fenster über eine eigene Knopfleiste (vgl. Abb.
32) an der rechten Seite.
91
91
Abb. 31: Das Phylogenie-Fenster mit der Phylogenie-spezifischen rechten Knopfleiste (vgl. Abb. 32). Der im
Beispiel dargestellte Baum enthält mehrere Gruppen. Die „Outgroup“ und die „unwichtige Gruppe“ werden
komprimiert dargestellt, um das Augenmerk des Betrachters auf die „wichtigen Gruppen“ zu lenken. Diese
werden expandiert dargestellt und farblich hervorgehoben. Mittels „Labeln“ in farbiger Hinterlegung („Wichtige
Gruppe“) können Sachverhalte weiter hervorgehoben werden. Definieren von Gruppen erfolgt im Gruppier-Modus
(rot hinterlegter Knopf der Knopfleiste).
Die meisten Funktionen der Knopfleiste sind ebenfalls über das Hauptmenü
Phylogenie >... auszuführen. Sie werden nachfolgend ausführlich erläutert.
ƒ
Nach der ersten Auswahl der Darstellung „Phylogenie“ (Abb. 9-7) wird der
erste Baum der Teil-Datenbank dargestellt. Mittels des Auswahlmenüs (Abb.
32-11) in der oberen Knopfleiste werden die darzustellenden Bäume
ausgewählt. Die Bäume sind in der Reihenfolge ihrer Erstellung angeordnet.
ƒ
Nach Erweitern des Auswahlmenüs durch Anklicken der Textfläche oder der
92
92
Pfeiltaste des Menüs können Sie durch (wiederholte) Eingabe eines
Anfangsbuchstabens zu allen Bäumen „springen“, deren Namen mit diesem
Buchstaben beginnt.
ƒ
Nach Auswahl eines Baums wird dieser dauerhaft, auch nach Darstellung von
Alignment oder Exporttabellen, in dem Phylogenie-Fenster dargestellt, bis
mittels des Auswahlmenüs ein anderer Baum selektiert oder ein neuer
Stammbaum berechnet wird.
ƒ
Die Knöpfe (
) und (
) (Abb. 32) ermöglichen das proportionale
Verkleinern oder Vergrößern horizontaler Äste („Zoomen“) des Stammbaums
und somit eine detailliertere Auflösung oder auch eine übersichtlichere
Darstellung. Da die Länge der horizontalen Äste zur phylogenetischen Distanz
korrespondiert, werden die Maßstäbe der Stammbäume ebenfalls angepasst.
Zoomen bezieht sich stets auf die Darstellung aller Stammbäume.
93
93
Die rechte, Phylogenie-spezifische Knopfleiste umfassen neben Knöpfen für
das Drucken von Stammbäumen bzw. die Erstellung von PDF-Dokumenten
sieben alternative Arbeits-Modi:
ƒ
„Auswahl“ (1)
ƒ
„Namen ändern“ (2)
ƒ
„Äste drehen“ (3)
ƒ
„Wurzel definieren“ (5)
ƒ
„Gruppier-Modus“ (6)
ƒ
„Gruppen expandieren“ (7)
ƒ
„Gruppen komprimieren“ (8)
sowie die Einmal-Operationen
ƒ
„Baum ordnen“ (4)
ƒ
„Daten übernehmen“ (9).
ƒ
(10) zeigt die Tasten „Drucken“ und „PDF“
11
12 13
Abb. 32: Die Phylogenie-spezifische rechte Knopfleiste (oben) und darunter die
Phylogenie-spezifischen Elemente der oberen Knopfleiste zum Auswählen des
darzustellenden Baums (11) sowie zum Zoomen (12 und 13).
Alternativ können die einzelnen Funktionen auch über das Phylogenie-Menü
erreicht werden. Der jeweils aktuelle Modus wird durch einen roten Rahmen um
den zugehörigen Knopf angezeigt. Kurzbeschreibungen der jeweiligen Funktionen
werden dargestellt, wenn der Mauszeiger für ein oder zwei Sekunden, ohne den
Mausknopf zu drücken, über einem Knopf gehalten wird.
Im Baum sind (analog zum Übersichtsfenster) die Namen von ausgewählten
Sequenzen stets rot, alle anderen Namen schwarz dargestellt. Die aktuelle
Sequenz ist blau hinterlegt.
94
94
4.6.4.2
Auswahl-Modus: Sequenzen im Baum markieren, demarkieren und die
aktuelle Sequenz festlegen
Der Auswahlmodus (per default eingestellt) ermöglicht es, Sequenzen durch
Anklicken auszuwählen oder aus der Auswahl zu entfernen.
ƒ
Durch Anklicken des Sequenznamens oder des zugehörigen Astes mit der
linken Maustaste wird die Sequenz der Auswahl hinzugefügt und gleichzeitig
als aktuelle Sequenz selektiert.
ƒ
Mit der rechten Maustaste können Sequenzen aus der Auswahl entfernt und
gleichzeitig als aktuelle Sequenz selektiert werden.
ƒ
Anklicken (mit den entsprechenden Tasten) von internen Ästen (Äste, zu
denen mehrere Sequenzen gehören), führt zum Markieren/Demarkieren aller
zugehörigen Sequenzen, ändert aber nicht die aktuelle Sequenz.
Um also Informationen zu einer Sequenz zu erhalten, ist diese direkt anzuklicken.
Die gewünschten Informationen werden dann im Infofenster (Abb. 9-5) dargestellt.
Das Auswählen von Sequenzen in phylogenetischen Bäumen ist z.B. gleichwertig
mit dem Auswählen von Sequenzen im Übersichtsfenster.
4.6.4.3
Modus „Namen ändern“: Ändern von Gruppennamen und Texten an den
Ästen von Stammbäumen („Beschriftung“)
Prinzipiell sind in tree zwei Wege implementiert, um die Texte an den Ästen eines
Baums zu verändern.
1.
Einerseits können „global“ drei beliebige Datenfelder ausgewählt werden,
deren Inhalte an allen Ästen aller Bäume dargestellt werden sollen. Diese
Einstellung kann jederzeit geändert werden.
Um die Asttexte global festzulegen, wählen Sie ein darzustellendes Datenfeld
im Menü Einstellungen >Bäume: Astbeschriftung wählen. Im anschließend
dargestellten Dialog haben Sie die Möglichkeit, ein, zwei oder drei Datenfelder
[in beliebiger Reihenfolge (Abb. 33-1)] auszuwählen. Der Inhalt des
Datenfeldes SOURCE wird dabei kursiv geschrieben.
Das Textfeld Trennzeichen festlegen (Abb. 33-2) erlaubt die Eingabe
beliebiger Zeichen(folgen), die zwischen den Inhalten der einzelnen
Datenfelder dargestellt werden sollen. Markieren des Feldes Type Strain
kennzeichnen (Abb. 33-3) bewirkt, dass Sequenzen von Typstämmen oder
Sequenzen aus Genomprojekten (vgl. 4.4.3) durch Darstellung der Symbole T
bzw. G gekennzeichnet werden.
95
95
Abb. 33: Dialog: Astbeschriftung ändern. In Feld (1) haben Sie die Möglichkeit, ein, zwei oder drei
Datenfelder in beliebiger Reihenfolge auszuwählen. Das Textfeld Trennzeichen festlegen (2) erlaubt die
Eingabe beliebiger Zeichen(folgen), die zwischen den Inhalten der einzelnen Datenfelder dargestellt werden
sollen. Markieren des Feldes Type Strain kennzeichnen (3) bewirkt, dass Sequenzen von Typstämmen oder
Sequenzen aus Genomprojekten durch Darstellung der Symbole T bzw. G gekennzeichnet werden.
2.
Darüber hinaus gibt es die Möglichkeit, individuell die Beschriftung einzelner
Äste („lokal“) anzupassen. Dadurch wird die globale Beschriftung
überschrieben.
à
Wählen Sie dazu den Modus Beschriftung ändern durch Klicken auf
(
) aus. Der Knopf wird nun rot umrahmt dargestellt. Nun können Sie
die Texte der einzelnen Äste (Spezies) aber auch die Namen zuvor
definierter Gruppen (vgl. 4.6.4.6) ändern.
à
Durch Anklicken von Gruppen-Ästen oder Astbeschriftungen öffnen Sie
einen Dialog, der zur Eingabe eines neuen Textes auffordert. Während es
bei Sequenzen ausreicht, den aktuellen Text anzuklicken, ist es für das
Umbenennen von Gruppen notwendig, den Gruppen-Ast (rot
hervorgehoben) anzuklicken.
à
Im Dialog wird zunächst die aktuelle individuelle Beschriftung dargestellt.
Wurde für einen Ast bislang kein lokaler Text vergeben, wird per Default
der Name der zugeordneten Sequenz angezeigt.
Beachten Sie: Die Änderung bezieht sich ausschließlich auf den aktuellen Baum. Bei der
Umbenennung wird nur die Beschriftung des ausgewählten Astes, nicht etwa der
Name der korrespondierenden Sequenz geändert. Zum Umbenennen von
Sequenzen siehe 4.5.8.3.
96
96
Bei Gruppen wurde der Name während der Gruppen-Definition vom Anwender
eingegeben. Das Ändern von Gruppennamen ist unwiderruflich und führt zur
Umbenennung der Gruppe. Um die Gruppeneigenschaft einer Menge von
Sequenzen zu entfernen („Löschen“ einer Gruppe), geben Sie einen leeren
Gruppennamen („“ oder „ “) ein.
Es ist möglich, die globale Astbeschriftung und den individuellen (lokalen) Text
eines Astes miteinander zu kombinieren. Fügen Sie hierzu im Textfeld des
Dialogs vor dem eigentlichen lokalen Text ein führendes „+“ ein (vgl. Abb. 34).
Abb. 34: Ast-Beschriftungen
1: Per default werden die Sequenznamen an den Ästen der phylogenetischen Bäume dargestellt.
2: Mittels der Funktion Einstellungen > Bäume: Astbeschriftung wählen können die Inhalte beliebiger
Datenfelder als Beschriftung verwendet werden.
3 und 4: lokale Texte, im Beispiel „oxidiert Methan“, überschreiben den globalen Text (unten) oder können durch
ein führendes „+“-Zeichen, diesem vorangestellt werden (darüber).
97
97
Um einen lokalen Text wieder zu entfernen, öffnen Sie durch Anklicken des
Namens den Namens-Dialog und löschen Sie diesen (überschreiben mit „“
oder „ “).
4.6.4.4
Modus „Wurzel definieren“: aktuellen Baum neu wurzeln
Bei der ersten Darstellung eines neu berechneten Baums versucht tree
automatisch, den Baum korrekt zu „wurzeln“, d.h. eine sinnvolle Outgroup für die
korrekte Darstellung der Phylogenie anhand der Astlängen des Baums zu finden.
Insbesondere bei distanzbasierten Algorithmen (Neighbor, UPGMA) ist diese
Wurzelung zu überprüfen, da es aus theoretischen Aspekten nicht möglich ist, die
korrekte Wurzel mittels dieser Algorithmen zu berechnen. Eine korrekte
Wurzelung ist jedoch notwendig für die korrekte Interpretation der gesamten
Topologie eines Baums.
Wurde mittels der automatischen Sequenzauswahl (Alignment >Ähnliche
Sequenzen automatisch suchen) eine Outgroup definiert, überprüft tree, ob
diese Sequenzen automatisch als Outgroup des neu berechneten Baums
verwendet wurden. Ist dies nicht der Fall, wird der Anwender darüber informiert.
Der Anwender sollte direkt nach der Berechnung die zuvor als Outgroup
gewählten Sequenzen identifizieren und, so nicht automatisch erfolgt, mittels
(
ƒ
) als Wurzel der aktuellen Phylogenie definieren.
Aktivieren Sie dazu den Modus „Wurzel definieren“ [Knopf (
)] und
wählen Sie mittels Mausklick eine einzelne Sequenz oder eine Gruppe von
Sequenzen (die „Outgroup“) als Wurzel des Baums.
Als Resultat sehen Sie einen anscheinend komplett anders angeordneten
Baum. Tatsächlich ist jedoch die Topologie des Baums nur bezüglich der
Outgroup geändert worden.
Dies ist möglich, da a priori bekannt ist, dass alle anderen verrechneten
Sequenzen näher miteinander verwandt sind als mit der Outgroup. Für eine
einheitliche und übersichtliche Darstellung können Sie im Anschluss die Taste
(
) betätigen. Sollte die bekannte Outgroup nicht automatisch als Wurzel
98
98
erkannt worden sein, empfiehlt sich u. U. eine manuelle Überprüfung des multiplen
Alignments der von tree automatisch als Wurzel verwendeten Sequenz(en), da ein
schlechtes Alignment die starke Abweichung der Sequenzen erklären würde. Ein
solches schlechtes Alignment würde sich nach dem korrekten Wurzeln
insbesondere in auffällig langen Ästen der betroffenen Sequenzen bemerkbar
machen.
Bei Teil-Datenbanken, in denen verschiedene phylogenetische Linien
(„Divisionen“) enthalten sind (z.B. die Teil-Datenbank „Deep branching Group“) ist
es nicht ungewöhnlich, dass die vordefinierte Outgroup bei phylogenetischen
Berechnungen nicht automatisch als alleinige Wurzel genutzt wird, wenn
Sequenzen verschiedener Divisionen verrechnet wurden. Dies resultiert daraus,
dass zwar die Sequenzen der einzelnen Divisionen jeweils monophyletisch
hinsichtlich der Outgroup-Sequenzen sind, nicht jedoch Sequenzen verschiedener
Divisionen. Sie können die Outgroup-Sequenzen jedoch trotzdem manuell als
Wurzel des Baums definieren, um die Beziehung der anderen verrechneten
Sequenzen zueinander zu klären.
Abb. 35: Ändern der Baum-Topologie. Das gemeinsame Verzweigen der blau hinterlegten Gruppe sowie der
„weiteren Gruppe“ (2) wird erst nach Wurzeln des Baums mit der korrekten Outgroup sichtbar.
99
99
4.6.4.5
Die Modi „Äste drehen“ und „Baum ordnen“ : Ändern der Baum-Topologie
Im Anschluss an das Überprüfen der Wurzel kann optional die graphische
Aufarbeitung des Stammbaums erfolgen. Hierbei sind die Möglichkeiten auf
solche Manipulationen beschränkt, die nicht zur Verfälschung der Ergebnisse
führen können.
Mittels (
) kann der Baum (nach der Wurzelung oder zu jedem anderen
Zeitpunkt) in eine optisch ansprechende Form gebracht werden. Die Wurzel wird
dabei zuunterst dargestellt. Innerhalb des Baums werden an allen Verzweigungen
(„innere Knoten“) diejenigen Äste zu oberst dargestellt, die die am stärksten
abweichenden Sequenzen dieser Verzweigung enthalten. Insgesamt entsteht so
eine geordnete und übersichtliche Darstellung.
Für eine bessere Organisation des Baums (z.B. die vergleichende Darstellung
verschiedener Sequenzgruppen) kann es sinnvoll sein, einzelne Äste manuell zu
drehen. Dazu wählen Sie den Modus „Äste drehen“ (
), Abb. 32, und klicken
anschließend auf die jeweiligen Äste.
Hinweis: Wenngleich hierdurch Sequenzen optisch voneinander getrennt werden, hat auch
diese Manipulation der Darstellung, genauso wie das „Ordnen des Baums“, keinen
Einfluss auf die Information des Stammbaums.
4.6.4.6
Gruppier-Modus: Definieren, komprimieren und expandieren von
Sequenzgruppen
Um, insbesondere in größeren Stammbäumen, eine gute Übersichtlichkeit zu
gewährleisten, aber auch, um zusammengehörige Sequenzen für die
Interpretation der Ergebnisse optisch zusammenzufassen, können Sie diese
Sequenzen „gruppieren“.
In Gruppen zusammengefasste Sequenzen können komprimiert dargestellt
werden: anstatt der einzelnen Sequenzen wird lediglich ein repräsentatives
Rechteck mit dem Gruppennamen dargestellt. Dadurch ist es möglich, auch große
Stammbäume übersichtlich zu visualisieren. Alternativ können Gruppen auch
expandiert dargestellt werden: Die Sequenzen werden (wie nicht gruppierte
Sequenzen) angezeigt, allerdings zeigt ein farbig hinterlegtes Rechteck die
100
100
Zugehörigkeit zu einer gemeinsamen Gruppe an. Dies erlaubt das Hervorheben
phylogenetischer Gruppen oder wichtiger Aspekte des aktuellen Stammbaums.
Durch Anklicken von (
) wählen Sie den „Gruppier-Modus“. Dieser dient
sowohl dem Definieren wie auch dem Verändern der Darstellung (Expandieren
bzw. Komprimieren) von Sequenzgruppen.
ƒ
Definieren von Gruppen
Nach Auswahl des Modus können Sie beliebige innere Äste durch Anklicken
auswählen. Nachdem Sie mittels eines Dialogs den Gruppennamen
eingegeben haben, wird die neue Sequenzgruppe komprimiert dargestellt. Die
vertikale Ausdehnung des anstelle der individuellen Sequenzen dargestellten
Rechtecks korrespondiert dabei zur Anzahl der dadurch symbolisierten
Sequenzen. Für eine leichtere spätere Auswahl wird der jeweilige Ast einer
Gruppe, unabhängig davon, ob sie komprimiert oder expandiert wurde, rot
dargestellt. Gruppen können beliebig geschachtelt werden.
ƒ
Darstellung der Gruppen ändern
Durch erneutes Anklicken des nun rot dargestellten Astes (im Gruppier-Modus)
kann die Darstellung der Gruppe (komprimiert oder expandiert) geändert
werden. Sind mehrere Gruppen ineinander geschachtelt, können innere
Gruppen nur dargestellt werden, wenn auch die umfassenden Gruppen
expandiert sind [vgl. Abb. 35 (Wurzeln].
ƒ
Gruppen-Hintergrundfarben ändern
Wird eine Gruppe expandiert dargestellt, werden alle Sequenzen dieser
Gruppe durch ein farbiges Rechteck zusammengefasst. Die Hintergrundfarbe
wird dabei zunächst automatisch von tree vergeben, bei geschachtelten
Gruppen nimmt die Intensität der Gruppenfarbe von außen nach innen zu.
Jede Gruppenfarbe kann vom Anwender aber auch individuell gesetzt werden.
1. Im Gruppiermodus (
) klicken Sie dazu den jeweiligen roten
dargestellten Gruppenast bei gleichzeitigem Drücken der Strg-Taste an.
Ein Farbauswahl-Dialog erscheint (Abb. 37).
101
101
Abb. 36: Gruppenäste werden bei expandierten (blaue Gruppe) und komprimiert dargestellten Gruppen rot
hervorgehoben.
2. Wählen Sie die Farbe Ihrer Wahl und bestätigen Sie mit OK. Die
Hintergrundfarbe wird nun angepasst. Die Änderung der Hintergrundfarbe
ist sowohl bei komprimierten wie auch bei expandierten Gruppen möglich,
die Änderungen werden allerdings nur bei expandiert dargestellten
Gruppen sichtbar.
Abb. 37: Farben definieren. Gruppen- und Label-Hintergrundfarben können frei definiert oder auch aus
Standardfarben (Auswahl der Darstellung „Muster“) ausgewählt werden.
102
102
ƒ
Gruppennamen und Beschriftungen als Label darstellen:
Für eine besonders prägnante, aussagekräftige Darstellung (Publikation,
Bericht) kann es sinnvoll sein, zusammengehörige Sequenzen farbig zu
hinterlegen (Gruppieren, s.o.) und darüber hinaus den Gruppennamen oder
einen beliebigen Text daneben darzustellen.
à
Durch Anklicken des Gruppenastes [im Gruppier-Modus (
)] bei
gleichzeitigem Drücken der Alt-Taste wird der Gruppenname in einem
separaten Namensfeld (mit der Hintergrundfarbe der Gruppe) dargestellt.
Das Feld kann jederzeit durch Anklicken und Ziehen bei gedrücktem
Mausknopf beliebig positioniert werden.
à
Durch Anklicken des Gruppen-Labels bei gleichzeitigem Drücken der
Alt-Taste wird das Feld wieder entfernt.
à
Anklicken des Labels bei gleichzeitigem Drücken der Strg-Taste öffnet
den Dialog „Gruppen-Label ändern“ (vgl. Abb. 38). Hier können die
Beschriftung des Labels geändert (der Gruppenname bleibt hiervon
unberührt) sowie die Farbe des Feldes und die Schriftgröße angepasst
werden (vgl. Abb. 39).
Abb. 38: Ändern von Labeln. Anklicken eines Labels bei gedrückter Strg-Taste öffnet den dargestellten Dialog.
Nun kann folgendes geändert werden:
1: der Text des Labels
2: die Schriftgröße des Textes (siehe Abb. 39)
3: die Hintergrundfarbe. Drücken von (3) öffnet den Farbauswahldialog (Abb. 37).
Hinweis: Während das Erzeugen der Gruppen-Label ausschließlich im „Gruppier-Modus“
möglich ist, kann das Bearbeiten, Verschieben und Löschen auch in allen anderen
Modi durchgeführt werden.
103
103
Abb. 39: Die Schriftgröße des Labels wurde heraufgesetzt.
Beim Schließen einer Teil-Datenbank gehen alle Gruppen-Label verloren. Sie
sollten deshalb nur direkt vor dem Exportieren eines Baums als PDF bzw.
Drucken eines Baums erzeugt werden.
104
104
4.6.4.7
Modi „Alle Gruppen komprimieren bzw. expandieren“: vereinfachtes
Komprimieren und Expandieren von Gruppen
Insbesondere in größeren Bäumen kann eine Vielzahl von Gruppen definiert
worden sein. Die Modi „Alle Gruppen expandieren“ (
komprimieren“ (
) und „Alle Gruppen
) ermöglichen das schnelle Expandieren bzw. Komprimieren
aller definierten Gruppen eines Teilbaums oder Astes.
Durch Anklicken eines Astes werden alle Gruppen unterhalb dieses Astes
expandiert bzw. komprimiert, alle anderen Gruppen bleiben davon unberührt.
ƒ
Um z.B. alle Gruppen eines Baums zu expandieren, schalten Sie in den Modus
Expandieren (
) und klicken Sie den gemeinsamen Ast (von der Wurzel
kommend) an. Alle definierten Gruppen werden nun expandiert dargestellt,
lediglich die Wurzelgruppe muss gegebenenfalls separat expandiert werden.
4.6.4.8
Verschieben und Ändern des Maßstabs
In allen Modi kann der Maßstab durch Anklicken und (bei gedrücktem Mausknopf)
Ziehen an beliebige Positionen innerhalb der Darstellungsfläche verschoben
werden („Drag&Drop“).
Durch Anklicken des Maßstabs bei gleichzeitigem Drücken der Alt-Taste wird
der Dialog „Maßstab ändern“ geöffnet. Er ermöglicht das individuelle Anpassen
des Maßstabs an den jeweiligen Baum. Nach Angabe einer neuen Distanz (Zahl
zwischen 0,1 und 100) wird die Länge des Maßstabs entsprechend angepasst
dargestellt. Durch Anpassen und Verschieben können auch einzelne Astlängen
aus dem Baum „ausgelesen“ werden.
105
105
4.6.5
Phylogenie II: Berechnung phylogenetischer Bäume
4.6.5.1
Einführung
Die Berechnung phylogenetischer Stammbäume ist zentraler Bestandteil der
Analysemethoden trees. Der Anwender kann zwischen den Distanz-basierten
Algorithmen Neighbour Joining und UPGMA sowie der positionsspezifischen
Berechnungsmethode „Maximum Likelihood“ wählen. Alle Algorithmen sind mit
beliebigen Filtern und allen implementierten Evolutionsmodellen kombinierbar.
Diese Parameter haben natürlich Einfluss auf die Berechnungsergebnisse, was zu
leicht abweichenden Berechnungsresultaten führt. Im Zweifel sollten die
Ergebnisse verschiedener Berechnungen miteinander verglichen werden, um die
Belastbarkeit einer Topologie zu überprüfen.
4.6.5.2
Sequenzauswahl
Das Vorgehen bei der phylogenetischen Verrechnung einer größeren Anzahl von
Sequenzen unterscheidet sich nicht wesentlich von demjenigen bei der
Identifikation (phylogenetischen Zuordnung) einer einzelnen Sequenz. In beiden
Fällen ist zunächst eine Auswahl der in die Verrechnung einzubeziehenden
Sequenzen zu treffen.
Für die Identifikation einzelner Sequenzen empfiehlt sich hierbei die schnelle
Methode der automatischen Sequenzauswahl (Alignment > Ähnliche
Sequenzen automatisch markieren; vgl. 4.5.10.4).
Hinweis: Beachten Sie, dass nur solche Sequenzen in der zu berechnenden Phylogenie
berücksichtigt werden, die sich während der Berechnung in der Auswahl befinden
(„markiert“ sind). Alle anderen Sequenzen haben keinen direkten Einfluss auf die
Analyse.
Oft wird es allerdings im Interesse des Anwenders liegen, weitere Sequenzen oder
taxonomische Gruppen als Referenzen manuell in die Berechnung einzubeziehen.
106
106
Die Auswahl von Referenzsequenzen kann einen Einfluss auf das Ergebnis einer
phylogenetischen Berechnung haben. Insbesondere, wenn die phylogenetischen
Relationen einer größeren Anzahl von Sequenzen rekonstruiert werden sollen,
kann es notwendig sein, mehr als einen Baum mit leicht abweichenden
Referenzsequenzen zu berechnen. Für die bloße Identifikation unbekannter
Organismen/Umweltsequenzen ist hingegen die automatisch Sequenzauswahl in
aller Regel völlig hinreichend.
Eine besondere Bedeutung kommt allerdings in beiden Fällen dem Definieren der
so genannten „Outgroup“ zu. Manche phylogenetische Algorithmen können den
exakten Ursprung der verrechneten Sequenzen nicht eindeutig bestimmen. Es ist
deshalb notwendig, diese dem Algorithmus anhaftenden „Schwäche“ durch
zusätzliche Informationen zu kompensieren. In die Berechnung einer Phylogenie /
Identifikation eines Organismus sollten deshalb, zusätzlich zu den eigentlich
relevanten Referenzsequenzen, stets eine oder wenige (2-5) Sequenzen
einbezogen werden, von denen klar ist, das alle anderen Sequenzen näher
miteinander verwandt sind (und im Baum dementsprechend miteinander
gruppieren) als mit den Mitgliedern dieser Outgroup. Man spricht in diesem Fall
auch von „Monophylie“ der anderen Sequenzen hinsichtlich der Outgroup. Im
Anschluss an die Baumberechnung dient die Outgroup der Wurzelung des
Baumes. Die Methode der automatischen Sequenzauswahl erlaubt das
automatische Definieren einer Outgroup für Original-nadicom-Datenbanken
(Festlegung der endgültigen Topologie, vgl. 4.6.4.4).
4.6.5.3
Auswahl des phylogenetischen Algorithmus
Im Anschluss an die Sequenzauswahl kann eine manuelle Überprüfung des
Alignments erfolgen, um zu gewährleisten, dass nur Sequenzen vergleichbarer
Länge miteinander verrechnet werden. Insbesondere sollte ausgeschlossen sein,
dass kürzere, sich nur partiell überlappende proprietäre Daten miteinander
verrechnet werden. Alternativ kann diese Überprüfung während der
Baumberechnung automatisiert durchgeführt werden (vgl. unten:
“Bereichsauswahl“).
107
107
Für die sich anschließende phylogenetische Rekonstruktion wählen Sie die
gewünschte Berechnungsmethode im Menü „Phylogenie“. Im Anschluss an die
Berechnung wird der berechnete Baum automatisch im Arbeitsbereich dargestellt.
tree bietet drei verschiedene Algorithmen der Stammbaumrekonstruktion:
ƒ
Neighbour (Joining) und
ƒ
UPGMA sind exakt reproduzierbare, distanzbasierte Algorithmen; die
resultierenden Phylogenien basieren auf den jeweiligen (gemittelten)
phylogenetischen Distanzen der verrechneten Sequenzen.
ƒ
Die (Maximum) Likelihood-Methode berechnet positionsspezifische Bäume,
bei denen zunächst phylogenetische Rekonstruktionen individuell für jede
verrechnete Alignmentposition durchgeführt und anschließend miteinander
verrechnet werden.
Zum Starten einer Berechnung wählen Sie im Phylogenie-Menü der treeMenüleiste (Abb. 9-1) den gewünschten Algorithmus (z.B. Phylogenie > NJTree).
108
108
4.6.5.4
Auswahl phylogenetischer Parameter
Im Anschluss erscheint der „Modell & Filter Dialog“ (Abb. 40).
Abb. 40: Der „Modell & Filter Dialog“.
1: Auswahl des gewünschten Evolutionsmodells. Für die Verrechnung sehr ähnlicher Sequenzen (Identifikation)
kann auf ein Modell verzichtet werden (Auswahl: kein Modell).
2: Auswahl des Filters. Wenn keine eigenen Filter definiert wurden, kann der Filter „Alle_Positionen“ verwendet
werden. Hier werden keine Basen maskiert. Der „QI-Filter“ maskiert alle Basen, an denen nadicom-eigene
Sequenzen keine Basen aufweisen.
3: Mittels der Bereichsabgrenzung definieren Sie den Teil des multiplen Alignments, der in die phylogenetische
Berechnung einfließen soll. Basen außerhalb des gewählten Bereichs werden, unabhängig vom gewählten Filter,
diskriminiert.
Hier können individuell Parameter ausgewählt oder die Default-Werte
übernommen werden. Von der Default-Einstellung abweichende
Evolutionsmodelle sollten insbesondere für den Vergleich der Ergebnisse
verschiedener Algorithmen und verschiedener Parameter genutzt werden. Die
Wahl des Filters hängt von der jeweiligen Fragestellung ab.
Während Filter für die Verrechnung stark voneinander abweichender Sequenzen
(verschiedener taxonomischer Gruppen) sinnvoll sind, kann und sollte für die
Zuordnung einzelner Sequenzen („Identifizierung“) i.d.R. darauf verzichtet werden
(Auswahl: Filter „Alle_Positionen“, vgl. Kapitel 7).
109
109
Die Bereichsauswahl (Abb. 40-3) ist insbesondere dann von Bedeutung, wenn
Sequenzen in die Berechnung einbezogen werden, die hinsichtlich ihrer Länge
stark von den nadicom-Referenzsequenzen abweichen (z.B. aufgrund einer
Sequenzierung mit nur einem Primer o.ä.). Ist dies nicht der Fall, kann auch der
gesamte Alignmentbereich (default) für die Verrechnung genutzt werden.
Generell empfiehlt es sich jedoch, den Knopf Bereich detektieren (Abb. 40-3) zu
betätigen. Dies führt zur automatischen Überprüfung aller ausgewählten
Sequenzen. Der für die Berechnung verwendete Sequenzausschnitt wird auf den
Bereich des multiplen Alignments beschränkt, für den Sequenzinformationen
(Basen oder interne Gaps) für alle ausgewählten Sequenzen vorliegen. Somit
werden alle Positionen ausgeschlossen, die vor der ersten Base bzw. nach der
letzten Base der jeweils kürzesten Sequenz(en) liegen.
Mittels dieser Funktion ist auch eine schnelle Überprüfung der Sequenzlängen
möglich. Falls die ermittelten Werte deutlich von den Default-Werten (gesamte
Alignment-Länge) unter Berücksichtigung von den bei allen Sequenzen
vorhandene Start- und End-Gaps abweichen, sollten Sie überprüfen, ob die hierfür
ursächlichen, verkürzten Sequenzen für die Berechnung notwendig sind oder ob
sie durch ähnliche, aber längere Sequenzen substituiert werden können.
Hinweis: Eine starke Einschränkung des der Berechnung zugrunde liegenden Bereichs
kann zum Verlust wichtiger phylogenetischer Informationen führen. Es steht im
Ermessen des jeweiligen Anwenders, die Auswahl des zur Berechnung
heranzuziehenden Alignmentbereichs anhand des Alignmenteditors selbst
vorzunehmen und so einen Kompromiss zwischen Homogenität der Datensätze
und Informationserhalt zu erzielen. Vergleichen Sie dazu im Alignmenteditor die
Anfangs- und Endbereiche der ausgewählten Sequenzen und geben Sie
passende Werte manuell im „Modell & Filter Dialog“ ein.
Nach Bestätigung der Auswahl mit OK findet die Berechnung der Phylogenie statt.
110
110
4.6.5.5
Baumbenennung und Kommentierung
Nach Fertigstellung der phylogenetischen Berechnung erscheint das Fenster
„Baumberechnung“ (Abb. 41). Der Anwender kann nun einen Namen für den
Stammbaum vergeben sowie einen individuellen Kommentar verfassen. Der
automatisch erstellte Kommentartext beschreibt alle zuvor ausgewählten
Parameter und ermöglicht so eine spätere Überprüfung und Reproduktion des
Stammbaums. Er wird anschließend, um den individuellen Kommentar ergänzt,
gemeinsam mit dem Baum gespeichert.
Nach Bestätigung von Namen und Kommentar mit OK wird der berechnete Baum
im Phylogenie-Fenster (Abb. 31) dargestellt.
Abb. 41: Nach Eingabe eines Namens sowie (optional) eines Zusatzkommentars wird der
neu berechnete Baum gesichert und im Phylogenie-Fenster dargestellt.
Achtung: Während der Berechnung sollten keine anderen Arbeiten mit tree durchgeführt
werden.
4.6.5.6
Die Taste „Daten übernehmen“
Im Anschluss an eine phylogenetische Zuordnung eines unbekannten Organismus
bzw. einer Umweltsequenz sollen die Ergebnisse häufig im entsprechenden
Datensatz eingetragen werden. Um das aufwendige manuelle Eingeben von
Daten zu vereinfachen, bietet tree die Möglichkeit, Feldinhalte von anderen
Sequenzen zu übernehmen. Um die Übernahme unpassender Daten zu
vermeiden, ist die Methode auf „verwandte“ Sequenzen beschränkt. Deshalb, und
111
111
als zusätzliche Kontrolle, wird bei diesem Schritt das Ergebnis der
phylogenetischen Zuordnung überprüft:
tree verfügt über einen vom multiplen Alignment unabhängigen VerifikationsAlgorithmus, der es erlaubt, die phylogenetische Positionierung einer Sequenz zu
anderen Sequenzen zu überprüfen. Die gesamte Topologie eines gegebenen
Baums kann auf diese Weise nicht verifiziert werden. Die Überprüfungsmethode
ist unabhängig vom multiplen Alignment, von der aktuellen Sequenzauswahl sowie
von komplexeren Evolutionsmodellen, verwendeten Filtern usw. Sie kommt
dementsprechend zum Einsatz, um das Risiko typischer Anwenderfehler, bspw.
während manueller Alignmentkorrekturen oder während der Auswahl der
Referenzsequenzen, die eine falsche „Identifikation“ zur Folge haben können,
aufzudecken. In Phylogenie-Rekonstruktionen unerfahrener Anwender wird
empfohlen, diese Überprüfung auch dann durchzuführen, wenn keine Datenfelder
anderer Datensätze übernommen werden sollen.
Alternativ wird der Dialog „Sequenzinformationen übernehmen“ auch geöffnet,
wenn beim Importieren von Sequenzen eine neue Sequenz über ihre gesamte
Länge mit einer schon in der Teil-DB enthaltenen Sequenzen übereinstimmt.
Abb. 42: Die Überprüfung der berechneten phylogenetischen Position verlief erfolgreich. Im Anschluss
wird der Dialog „Sequenzinformationen übernehmen“ geöffnet.
Vorgehensweise:
1. Wählen Sie zunächst im Auswahl-Modus (4.6.4.2) die Sequenz als aktuelle
Sequenz aus, deren phylogenetische Zuordnung überprüft und/oder deren
Datensatz überarbeitet werden soll. Die mit dieser Sequenz assoziierten
Informationen werden nun im Infofenster dargestellt, der Sequenzname wird im
112
112
Stammbaum blau hinterlegt.
2. Klicken Sie anschließend auf (
) (Abb. 32). Sie befinden sich immer noch
im Auswahl-Modus (oder in jedem anderen zuvor festgelegten Modus),
lediglich für die nächste Auswahl ist dieser Modus aufgehoben.
3. Wählen Sie nun durch Anklicken eine Sequenz aus, die in der zu
überprüfenden Phylogenie gemeinsam mit der ausgewählten Sequenz
gruppiert („nahe verwandt ist“, vgl. z.B. Sequenz U69637 und AF206603 in
Abb. 31).
4. Die interne Überprüfung dauert maximal einige Sekunden. Anschließend wird
das Ergebnis der Überprüfung dargestellt.
Dabei sind drei Resultate möglich: Die Hypothese, dass beide Sequenzen sehr
nah verwandt sind, ist belastbar, bedingt belastbar oder nicht belastbar.
In den beiden ersten Fällen wird anschließend der Dialog
„Sequenzinformationen übernehmen“ geöffnet (Abb. 43).
ƒ
Sie können nun Sequenzinformationen der ausgewählten Referenzsequenz
auf die aktuelle neu verrechnete Sequenz übertragen.
ƒ
Klicken Sie dazu einfach auf den jeweiligen Knopf Übernehmen.
Insbesondere die Übernahme des Inhalts des Feldes „ORGANISM“ ist sinnvoll,
um die Sequenz im Übersichtsfenster innerhalb der entsprechenden
taxonomischen Gruppe darzustellen (vgl. 4.4.3.3).
ƒ
Editieren Sie gegebenenfalls die übernommenen Daten und bestätigen Sie mit
OK.
ƒ
Zum Verwerfen der Änderungen drücken Sie Abbruch.
Hinweis: Beachten Sie allerdings, dass ein gemeinsames Verzweigen zweier Sequenzen in
einem Stammbaum auch bei positiver Überprüfung nicht immer hinreicht, um auf
die Gleichheit von Gattung oder gar Art zu schließen. Vergewissern Sie sich
deshalb stets vor Übernahme von Datenfeldern wie „SOURCE“ oder
„ORGANISM“ durch zusätzliche Analysen, bspw. die Durchführung einer
Schnellen Identifizierung (vgl. 4.6.14) oder die Berechnung weiterer
Stammbäume. Insbesondere die %-Identität zweier Sequenzen ist ein
wesentliches Charakteristikum für die (Phylogenie-gestützte) Zuordnung zu
gleichen Arten oder Gruppen.
113
113
Abb. 43: Der Dialog „Sequenzinformationen übernehmen“. Nach erfolgreicher Überprüfung der
„Verwandtschaft“ der ausgewählten Sequenzen können Datenfeld-Inhalte von der linken Sequenz auf die rechte
übertragen werden.
1: Datenfelder
2: Übernehmbare (aber nicht editierbare) Datenfelder der Referenzsequenz.
3: Zum Übernehmen der Inhalte des linken Datenfeldes in das rechte drücken Sie die entsprechende Taste.
4: Nach der Übernahme können die Texte weiter editiert werden.
Hinweis: In der tree-Industrie-Version ist die Übernahme von Daten, wie alle anderen
Datenmanipulationen, nur dem Owner der jeweils zu ändernden Sequenz oder
einem tree-Administrator gestattet.
114
114
4.6.6
Phylogenie III: Baumadministration und -ausgabe
4.6.6.1
Der Baum-Administrations-Dialog
Der Dialog „Baum-Administration“ (Abb. 44) ist nicht über die Phylogeniespezifische Knopfleiste, sondern ausschließlich über den Menüpunkt Phylogenie
> Baum-Administration zu öffnen. Der Dialog erlaubt die spätere Änderung von
Baumnamen bzw. -kommentaren, das Löschen von Bäumen (Industrie-Version:
nur tree-Administratoren) sowie das Kopieren von Bäumen (bspw. um
Gruppierungen und Manipulationen der Topologie nicht im Originalbaum
vorzunehmen).
Vorgehensweise:
1. Mittels des Auswahlmenüs des Dialogs wählen Sie zunächst den zu
editierenden Stammbaum aus.
2. Sie haben nun folgende Möglichkeiten:
ƒ
Nach anschließendem Wählen der Info-Taste werden die assoziierten
Informationen (Baumname, -kommentar und -Owner) dargestellt. Diese
Informationen sind allen Anwendern zugänglich.
ƒ
Die Taste Löschen führt zum unwiderruflichen Entfernen des
ausgewählten Baums, was in der Industrie-Version jedoch ausschließlich
tree-Administratoren vorbehalten ist.
ƒ
Die Tasten Umbenennen und Kommentar ändern können durch Owner
und tree-Administratoren betätigt werden.
ƒ
die Taste Kopieren kann von allen Anwendern genutzt werden.
3. Nach Betätigung der Taste Umbenennen, Kommentar ändern oder Kopieren
wird ein Eingabefeld erzeugt.
ƒ
Geben Sie hier den neuen Namen / neuen Kommentar ein.
ƒ
Um die Änderungen zu übernehmen, drücken Sie die Taste Übernehmen.
4. Drücken der Taste OK schließt den Dialog, wobei nicht zuvor übernommene
Änderungen verloren gehen.
115
115
Abb. 44: Der Dialog „Baum-Administration“.
Wählen Sie zunächst aus der Liste (oben) den zu bearbeitenden Baum aus. Anschließend starten Sie die
gewünschte Operation durch Betätigen der entsprechenden Taste. Bei den Operationen „Umbenennen“,
„Kommentar ändern“ und „Kopieren“ wird anschließend das untere Eingabefeld dargestellt. Vor dem Schließen
des Dialogs (OK) müssen Sie den Knopf „Übernehmen“ betätigen, um die Änderungen vorzunehmen.
4.6.6.2
Baum oder Baumausschnitt als PDF exportieren
1. Durch Auswählen des Menüpunkts Phylogenie > PDF-File erzeugen bzw.
Betätigen der Taste (
) (Abb. 32) der Phylogenie-spezifischen rechten
Knopfleiste öffnen Sie den Dialog „PDF erzeugen“.
2. Wahlweise können Sie den z. Z. im Phylogenie-Fenster dargestellten
Stammbaum komplett (default) oder nur den aktuell sichtbaren Ausschnitt des
Baums exportieren.
Beim Exportieren des gesamten Baums muss allerdings berücksichtigt werden, dass, in
Abhängigkeit von dem gewählten Zoomfaktor ein Teil des Baums verloren gehen kann, da
alle tree-PDF-Dokumente im Format DIN A4 erzeugt werden. Dabei spielt die aktuelle
Scrollposition des Phylogeniefensters keine Rolle. Auch bei Ausgabe des aktuellen
Ausschnitts kann bei großem Zoomfaktor der exportierte Ausschnitt kleiner als der aktuell
dargestellte Bereich sein.
116
116
Hinweis: Die Wahl eines kleinen Zoomfaktors hat keinen Einfluss auf die Auflösung des
resultierenden PDF, da die Phylogenie wie auch die Astnamen als Vektorgraphik
ausgegeben werden, und somit im PDF-Viewer ohne Qualitätsverluste beliebig
vergrößert werden können.
3. Im Anschluss an die Bestätigung mit OK wird ein Datei-Auswahl-Dialog
geöffnet, der es ermöglicht, ein Verzeichnis sowie einen Namen für das zu
erstellende PDF festzulegen.
4. In der tree-Industrie-Version haben Sie darüber hinaus die Möglichkeit, im
Anschluss dass zu erstellende PDF mit einem Passwort gegen unbefugten
Zugriff zu verschlüsseln. Soll das PDF nicht verschlüsselt werden, drücken Sie
bei der entsprechenden Abfrage Abbrechen oder auch OK, ohne ein
Passwort einzugeben. Wenn Sie ein Passwort vergeben, kann das PDF in
Zukunft nur nach Eingabe dieses Passworts geöffnet werden.
5. Nach seiner Fertigstellung wird das neu generierte PDF-Dokument im jeweils
zugeordneten PDF-Reader (also z.B. Adobe® Reader®) geöffnet und kann
somit direkt überprüft werden.
4.6.6.3
Bäume drucken
ƒ
Durch Auswählen des Menüpunkts Phylogenie > Aktuellen Baum drucken
bzw. Betätigen der Taste (
) (Abb. 32) öffnen Sie den Dialog „Baum
drucken“.
ƒ
Mittels des Zoomfaktors können Sie den auszudruckenden Bereich vergrößern
oder verkleinern.
Beachten Sie jedoch, dass eine Vergrößerung über die aktuelle Papiergröße Ihres
Druckers hinaus zu Informationsverlust führen kann.
ƒ
Wie bei der Erzeugung eines PDF-Dokuments können Sie festlegen, ob der
gesamte Baum oder lediglich der z. Z. dargestellte Ausschnitt gedruckt werden
soll (Markieren des Feldes Nur aktuellen Ausschnitt drucken).
117
117
4.6.6.4
Bäume im Newick-Format exportieren
Um einen Baum mit einem anderen Phylogenie-Programm zu bearbeiten, können
sie diesen in das Newick-Format exportieren. Stellen Sie dazu den zu
exportierenden Baum im Phylogenie-Fenster dar und wählen Sie den Menüpunkt
Phylogenie > Aktuellen Baum exportieren (Newick-Format). Der Inhalt des
Baums wird in einem neuen Fenster dargestellt. Markieren Sie die Information und
kopieren Sie diese (Drücken der Tasten „Strg“ + „C“) und fügen Sie sie in das
gewünschte Programm ein (Tasten „Strg“ + „V“).
118
118
4.6.7
Phylogenie IV: Phylogenien berechnen mit dem tree-Assistenten
Der tree-Assistent bietet insbesondere ungeübten Anwendern eine Hilfestellung,
um in wenigen Schritten die Zuordnung einer importierten Sequenz vorzunehmen.
Aber auch erfahrenen Anwender kann der Assistent bei der Vermeidung von
Routinefehlern nützlich sein.
Durch Anklicken des Knopfes (
) (Abb. 10) starten Sie den Assistenten.
Wenngleich der Assistent als solcher im Prinzip selbsterklärend arbeiten sollte,
werden hier noch einmal die wichtigsten Schritte der Arbeit mit dem Assistenten
vorgestellt, die den Nutzer von der importierten Rohsequenz zum fertigen
Stammbaum leiten.
Abb. 45: Der tree-Assistent ist interaktiv und erlaubt auch das Arbeiten beispielsweise im Alignmenteditor,
bevor die Baumberechnung endgültig angestoßen wird.
Die einzelnen Schritte können dabei wie folgt gegliedert werden:
ƒ
Auswahl (und ggf. Alignment) der zu verrechnenden Sequenz
ƒ
Auswahl weiterer, i.d.R. ähnlicher Sequenzen als Referenzen
ƒ
Überprüfung der Sequenzen
ƒ
Berechnung des phylogenetischen Baums
ƒ
Überprüfung des Baums
119
119
Vorgehen:
1. Nach dem Starten des Assistenten stellen Sie sicher, dass die Sequenz
ausgewählt ist, die Sie phylogenetisch zuordnen möchten. Sie wird dann im
Infofenster dargestellt. Wenn Sie mehrere Sequenzen gegeneinander
verrechnen wollen, können Sie diese später auswählen (Punkt 4).
2. Drücken Sie anschließend die OK-Taste des Assistenten. Das Programm
überprüft nun, ob die ausgewählte Sequenz bereits aligned wurde. Es
überprüft allerdings nicht die Qualität des Alignments. Ist die aktuelle Sequenz
noch nicht in das bestehende Alignment integriert worden, kann der Assistent
die Integration automatisch durchführen (vgl. 4.6.2.1).
3. Er gibt dem Nutzer anschließend Gelegenheit, die Qualität des automatischen
Alignments zu überprüfen und gegebenenfalls manuell zu korrigieren (vgl.
4.6.1.4). Es empfiehlt sich, problematische Sequenzen im Kontext möglichst
ähnlicher Referenzsequenzen zu überprüfen. Ähnliche Sequenzen müssen für
die anschließende phylogenetische Identifikation ohnehin ausgewählt werden.
4. Dies geschieht im nächsten Schritt entweder mittels der Funktion Ähnliche
Sequenzen automatisch markieren automatisch oder aber rein manuell. Für
die Erläuterung der einzelnen Felder des „Ähnliche markieren“-Dialogs
vergleichen Sie Punkt 4.5.10.4. Alternativ bzw. zusätzlich können weitere
Sequenzen manuell ausgewählt werden.
5. Nachdem die Sequenzauswahl beendet wurde, fahren Sie durch Wählen der
OK-Taste des Assistenten fort. Der tree-Assistent überprüft nun, ob alle
ausgewählten Sequenzen bereits aligned wurden.
6. Ist dies nicht der Fall, warnt der Assistent den Anwender. Dieser erhält nun die
Gelegenheit, nicht-alignte Sequenzen aus der Berechnung auszuschließen
oder durch tree automatisch alignen zu lassen. Müssen hierbei viele
Sequenzen aligned werden, steigt der benötigte Zeitbedarf proportional.
7. Nach dem Alignment bekommt der Anwender Gelegenheit, die Resultate des
automatischen Alignments zu überprüfen.
8. Im Anschluss kann ein phylogenetischer Algorithmus sowie entsprechende
phylogenetische Parameter ausgewählt werden. Hierzu ist es ratsam, zunächst
den entsprechenden Abschnitt des Handbuchs (4.6.5) gelesen zu haben. Im
Allgemeinen können jedoch die Default-Werte übernommen werden.
9. Als letzten Schritt startet der Assistent den internen Kontrollalgorithmus für die
Überprüfung der phylogenetischen Zuordnung. Der Anwender erhält
120
120
anschließend Gelegenheit, Daten von einem nahe verwandten Organismus zu
übernehmen (vgl. 4.6.5.6). Für die graphische Aufarbeitung des berechneten
Stammbaums sowie die Interpretation des Ergebnisses (vgl. auch 4.6.4.1 ff.).
4.6.8
Phylogenie V: Distanzmatrizen berechnen
Die Berechnung einer Distanzmatrix erinnert vom Ablauf der Arbeitsschritte an die
Berechnung phylogenetischer Bäume. Ebenso wie bei der Baumberechnung dient
das multiple Alignment als Berechnungsgrundlage.
Abb. 46: Der Modell & Filter Dialog“ für die Berechnung von Distanzmatrizen. Zusätzlich zu den in Abb. 40
erläuterten Berechnungsmodifikationen haben Sie die Möglichkeit, die Distanzmatrix im gebräuchlichen PhylipFormat [Selektieren von (1)] oder aber in einem für Menschen besser lesbaren Format [Abwählen von (1)] zu
erzeugen. Um die nicht korrigierten realen Distanzen auszugeben, wählen Sie „kein Modell“.
Vorgehensweise:
1. Legen Sie zunächst die Sequenzen fest, deren Distanzen ermittelt werden
sollen, indem Sie sie der Auswahl hinzufügen (Sequenzen „markieren“).
2. Anschließend wählen Sie den Menüpunkt Phylogenie > Distanz-Matrix
berechnen. Der „Modell & Filter-Dialog“ wird geöffnet.
3. Legen Sie die gewünschten Parameter, wie unter 4.6.5.4 beschrieben, fest.
121
121
Bislang nicht beschrieben wurde das Feld „Phylip-Format“. Markieren dieses
Feldes resultiert in der Ausgabe einer Distanzmatrix im Phylip-Format, einem
Distanz-Format, das von vielen Programmen und Downstream-AnalyseWerkzeugen interpretiert werden kann. Markieren Sie das Feld also, wenn Sie die
Distanz-Matrix für weitere Analysen außerhalb trees verwenden wollen. Für eine
für Menschen besser lesbare Distanzmatrix markieren Sie das Kontrollkästchen
nicht.
4. Im Anschluss an die Berechnung wird die Matrix im MS-Editor Notepad®
geöffnet. Sie können die Matrix nun beliebig speichern oder ausdrucken.
4.6.9
Phylogenie VI: Filter berechnen
Vorgehensweise:
1. Um eigene Filter (auf Grundlage aller Sequenzen einer Datenbank oder einer
Auswahl von Sequenzen) zu berechnen, wählen Sie Alignment > Neuen
Filter (für Auswahl) berechnen. Der neue Filter basiert stets nur auf den zu
diesem Zeitpunkt ausgewählten Sequenzen.
2. Um einen auf die gesamte Datenbank basierenden Filter zu berechnen,
wählen Sie alle Sequenzen aus (z.B. durch Anklicken des Ordners
„Sequenzen“ im Übersichtsfenster).
Achten Sie jedoch darauf, dass keine schlecht- oder nicht-alignten Sequenzen
ausgewählt werden, da diese die Gültigkeit des berechneten Filters negativ
beeinflussen. Sollten dennoch nicht-alignte Sequenzen ausgewählt sein, wird tree
Sie darüber informieren.
3. Filter-Parameter können über den Dialog „Filter berechnen“ (vgl. Abb. 47)
ausgewählt werden.
4. Im Anschluss an die Parametereingabe drücken Sie Berechnen.
5. Zum Beenden des Dialogs (nach oder ohne Filterberechnung) drücken Sie die
Taste Schließen. Filter sind i.d.R. für die Identifikation von einzelnen
Sequenzen nicht notwendig.
122
122
Parametereingabe :
ƒ
Die Felder Min Konsensus und Max Konsensus erlauben die Definition von
Filtern, die hochvariable oder auch hoch konservierte Bereiche des
Alignments maskieren.
Die Default-Einstellung (Min = 0, Max = 75) führt z.B. dazu, dass der berechnete
Filter alle Positionen des Alignments maskiert, an denen die höchstkonservierte
Base bei mehr als 75 % aller Sequenzen auftritt. Somit werden lediglich variable
und hochvariable Positionen für weitere Berechnungen zugelassen. Um
andererseits solche variablen Bereiche zu maskieren, könnten z.B. die
Einstellungen Min = 60, Max = 100 vorgenommen werden. Filter können im
Alignmenteditor wie Sequenzen dargestellt, kontrolliert und editiert, jedoch nicht
manuell aligned werden. Dies ermöglicht bspw. das gezielte Maskieren
bestimmter Bereiche des multiplen Alignments.
ƒ
Der Menüpunkt Positionen mit ‚Gaps’...(>=1) erlaubt die gesonderte
Behandlung von Gaps. Per default („maskieren“) werden alle Positionen,
unabhängig von ihrer Konserviertheit, maskiert, wenn mindestens eine
Sequenz der aktuellen Auswahl an dieser Position ein Gap aufweist. Diese
Einstellung resultiert i.d.R. im Ausschluss einer großen Menge Information.
ƒ
Die Einstellung Gaps wie Basen behandeln führt dazu, dass Basen und
Gaps bei der Berechnung der Konserviertheit gleichermaßen berücksichtigt
werden.
Problematisch ist diese Einstellung, wenn Filter für die Maskierung variabler
Bereiche berechnet werden sollen. Eine Position, an der lediglich wenige
Sequenzen eine Base aufweisen, wird nämlich von Filtern, die variable Bereiche
maskieren sollen (z.B. Min = 60, Max = 100) nicht maskiert, da die Majorität
(>60%) der Sequenzen ein Gap aufweist, was hier als „Konserviertheit“ gedeutet
wird. Der Parameter „Gaps wie Basen behandeln“ eignet sich eher für Filter, die
konservierte Bereiche maskieren sollen.
ƒ
Die Einstellung Gaps ignorieren resultiert in einem Ausschluss aller Gaps
aus der Berechnung der Konserviertheit. Eine Position des multiplen
Alignments wird, unabhängig von der Anzahl der Sequenzen, die an dieser
Position ein Gap aufweisen, maskiert, wenn der Anteil der häufigsten Base an
dieser Position nicht zwischen Min- und Max-Wert liegt.
ƒ
Die Einstellung Maskieren, wenn mehr als x % erlaubt die individuellste
Anpassung. Alle Positionen, an denen mehr als x % aller Sequenzen ein Gap
enthalten, werden maskiert, die restlichen Positionen werden unter Ignorieren
der Gaps ausgewertet. Nach Betätigung der Taste Berechnen erfolgt eine
123
123
Aufforderung, den x-Wert einzugeben. Anschließendes Betätigen der Taste
Übernehmen löst die Berechnung aus.
Abb. 47: Berechnung von Filtern. Der zu berechnende Filter wird alle Alignmentpositionen maskieren, an
denen mehr als 75% der ausgewählten Sequenzen die gleiche Base aufweisen, sowie alle Positionen, an denen
mehr als 50% der ausgewählten Sequenzen keine Base (Gaps) aufweisen.
Filterbenennung und Kommentierung:
Nach der Berechnung erscheint das Fenster „Filter-Beschreibung“. Der Anwender
kann nun einen Namen für den Filter vergeben sowie einen individuellen
Kommentar verfassen. Folgende Sonderzeichen sind nicht zugelassen und
werden, sollten Sie dennoch eingegeben werden, automatisch durch „ähnliche“
Zeichen ersetzt:
( ) ; : , \ ’ und das Leerzeichen.
Hinweis: Der automatisch erstellte Kommentartext kann an dieser Stelle nicht geändert
werden, da er alle zuvor ausgewählten Parameter enthält und so eine spätere
Bewertung des Filters ermöglicht. Eine Ergänzung des Kommentars um weitere
Informationen kann dagegen hilfreich sein. Insbesondere sind im
Standardkommentar keine Aussagen über die dem Filter zugrunde liegende
Sequenzauswahl getroffen.
124
124
4.6.10
Export von Sequenzen und assoziierten Sequenzinformationen
4.6.10.1
Das Exportfenster
Proprietäre Daten wie auch nadicom-Referenzsequenzen können sowohl in die
„klassischen“ Sequenz-Formate FASTA, EMBL und GenBank wie auch in durch
den Anwender frei definierbare Formate exportiert werden. Das Exportieren in
klassische Formate ist über die Knopfleiste des Arbeitsbereichs möglich, ohne in
die Export-Ansicht (Exportfenster) zu wechseln. Der Export in selbst definierte
Formate wird hingegen ausschließlich über das Exportfenster gesteuert.
Um das Exportfenster darzustellen,
ƒ
wählen Sie im Auswahlmenü (Abb. 9-7) der Hauptfenster-Knopfleiste den
Eintrag Export. Im Exportfenster werden bei der ersten Darstellung alle zu
diesem Zeitpunkt ausgewählten Sequenzen mit den jeweils assoziierten
Daten in Form einer Tabelle dargestellt.
ƒ
Um weitere Sequenzen in das Exportfenster zu transferieren, oder Sequenzen
daraus zu entfernen, markieren bzw. demarkieren Sie die Sequenzen (z.B. im
Übersichtfenster) und drücken Sie, analog der Darstellung der Sequenzen im
Alignmenteditor die Taste (
) der Hauptfensterknopfleiste. Wie beim
Alignmenteditor sind die im Exportfenster dargestellten Sequenzen bis zur
Betätigung der Taste (
) fixiert. Zwischenzeitliches Darstellen bspw. des
Phylogenie-Fensters verändert weder die Anzahl und Reihenfolge der im
Exportfenster dargestellten Sequenzen noch die Anordnung der einzelnen
Tabellenspalten.
Achtung: Sie können im Exportfenster keine Datenbankeinträge verändern! Nutzen Sie
dazu z.B. den Informationsdialog (4.5.8).
Die Exporttabelle ist wie folgt aufgebaut:
Zeilenweise sind untereinander die jeweiligen Datensätze dargestellt; die
einzelnen Spalten beinhalten jeweils ein Datenfeld der aktuellen Datenbank. Die
Spalten können durch Anklicken und Verziehen (Drag & Drop) der
Spaltenüberschrift horizontal vertauscht werden.
125
125
Ebenso ist die Spaltenbreite anpassbar.
ƒ
Führen Sie dazu den Cursor über die Grenzlinie zweier benachbarter
Spaltenüberschriften. Verändert sich der Cursor (Symbol: Ù), drücken Sie
eine Maustaste. Sie können nun die Spaltenbreite durch Bewegen der Maus
(Taste gedrückt halten) verändern. Das Anordnen der Spalten hat
insbesondere für den Export in „eigene Datenformate“ (vgl. nächsten
Abschnitt) große Bedeutung.
Abb. 48: Exportieren von Daten mittels der Exporttabelle
1:
Der kleine Pfeil zeigt an, dass die Datensätze entsprechend der Sequenznamen alphabetisch absteigend
sortiert dargestellt werden. Diese Reihenfolge entspricht der Reihenfolge des Exportierens.
2:
Zum Speichern der zu exportierenden Daten drücken Sie diese Taste.
3:
Zum Darstellen der zu exportierenden Daten im MS Notepad® drücken Sie diese Taste.
4:
Wie viele Datenfelder (in der dargestellten Reihenfolge von links nach rechts) sollen exportiert werden?
5, 6: Die Kontrollkästchen (9) werden alle selektiert bzw. abgewählt.
7:
Selektieren der Auswahlkästchens „Gaps entfernen“ bewirkt, dass die Sequenzen in nicht alignter Form
exportiert werden.
8:
Die Taste Admin ist nicht spezifisch für die Exporttabelle und öffnet den Datenfeld-Administrations-Dialog.
9:
Nur selektierte Sequenzen (Basenabfolgen) werden exportiert.
10:
Die seitliche, spezifische Knopfleiste erlaubt den Export in die Formate „FASTA“, GenBank“ und „EMBL“.
Das Minuszeichen („-“) symbolisiert das Entfernen von Gaps (Export der nicht alignten Sequenzen).
Um den Tabelleninhalt entsprechend der Inhalte eines beliebigen Datenfeldes zu
sortieren, klicken Sie in die Tabellenüberschrift. Erneutes Klicken kehrt die
Reihenfolge um (aufsteigend, absteigend). Die Sortierung erfolgt anhand alphanumerischer Kriterien.
126
126
4.6.10.2
Export in „klassische Formate“
Am rechten Rand des Exportfensters finden Sie in der rechten Knopfleiste (Abb.
48-10) die Tasten F und F- (FASTA-Format), G und G- (GenBank-Format) sowie
E und E- (EMBL-Format). Das ‚-’ -Zeichen symbolisiert dabei das Entfernen der
Gaps. Es werden also die Rohsequenzen ohne Gaps, nicht die Sequenzen im
Kontext des multiplen Alignments exportiert. Durch Betätigen eines dieser sechs
Knöpfe exportieren Sie die aktuell in der Exporttabelle dargestellten Sequenzen in
das entsprechende Format.
Achtung: Im Gegensatz dazu werden bei Betätigung der Menüpunkte des Menüs Export
(z.B. Export >FASTA-Format ohne Gaps) die zu diesem Zeitpunkt
ausgewählten, nicht die im Exportfenster dargestellten Sequenzen exportiert!
Drücken von (
) bringt beide Funktionen in Übereinstimmung, da anschließend
dargestellte und ausgewählte Sequenzen deckungsgleich sind.
Nach Auswahl des Exportformats erscheint ein Datei-Auswahl-Dialog, mittels
dessen Sie Namen und Ordner der Zieldatei festlegen können.
Die klassischen Formate FASTA, Genbank und EMBL sind nicht geeignet, um alle
Datenfelder, insbesondere vom Anwender selbst angelegte Datenfelder, zu
exportieren. Lesen Sie dazu den nachfolgenden Abschnitt „Exportieren in eigene
Formate“.
4.6.10.3
Export in „eigene Formate“
Die im Folgenden beschriebenen Funktionen und Einstellungen beziehen sich
ausschließlich auf das Erzeugen von und Exportieren in „eigene Formate“, nicht
etwa auf das Exportieren in klassische Formate wie EMBL oder FASTA.
Um sämtliche mit einer Sequenz assoziierte Informationen, insbesondere vom
Anwender selbst angelegte Datenfelder, zu exportieren, bzw. um eine Auswahl
dieser Felder zu exportieren, können Sie mittels der Exporttabelle schnell und
unkompliziert eigene Datenformate definieren und nutzen.
127
127
Allen Formaten ist gemein, dass jeweils eine Sequenz sowie die damit
assoziierten Informationen ausgegeben werden, bevor die nächste Sequenz
abgearbeitet wird.
ƒ
Durch Anordnen der Tabellenspalten (siehe oben) bestimmen Sie die
Reihenfolge, in der die Sequenzinformationen exportiert werden.
ƒ
In Feld 4, Abb. 48, geben Sie die Anzahl der zu exportierenden Felder an. Per
default ist hier der Wert „alle“ voreingestellt. Ändern Sie diesen Wert nicht,
werden alle Informationen (in der Reihenfolge der Tabellenspalten)
ausgegeben.
Setzen dieses Parameters auf einen Zahlenwert, z.B. ‚5’, führt dazu, dass
lediglich die Inhalte der ersten 5 Felder (in der Reihenfolge der Darstellung in der
Tabelle) ausgegeben werden. Somit können Sie schnell bestimmen, welche
Feldinhalte überhaupt und in welcher Abfolge exportiert werden.
ƒ
Um die Einstellungen zu überprüfen, können Sie die Taste (
) drücken.
Die Daten werden sofort in einem Text-Editor (MS-Notepad®) im
entsprechenden Format dargestellt. Sie können diese nun speichern oder
verwerfen (Editor schließen).
ƒ
Alternativ können Sie einen Datei-Auswahl-Dialog durch Drücken von (
)
(Abb. 48) öffnen.
ƒ
Eine besondere Bedeutung kommt der Tabellenspalte „Sequenz“ zu. Nur
wenn diese Tabellenspalte markiert ist, wird die jeweilige Basenabfolge
exportiert. So können individuell Sequenzen (Datensätze) ausgewählt werden,
deren zugehörige Basenabfolgen exportiert oder eben nicht exportiert werden
sollen.
ƒ
Zum Markieren (bzw. Demarkieren) aller Sequenzen nutzen Sie die Tasten 5
und 6 der Abbildung 48.
ƒ
Durch Markieren des Feldes „Gaps entfernen“ (
) bewirken Sie,
das die Sequenzen nicht in alignter Form (im Kontext des multiplen
Alignments) sondern als unalignte Rohsequenzen ohne Gaps exportiert
werden. Der Export in eigene Datenformate bezieht sich immer auf die im
Exportfenster dargestellten Sequenzen, nicht etwa auf die zu diesem Zeitpunkt
ausgewählten Sequenzen. Betätigen der Taste (
Sequenzmengen in Übereinstimmung.
128
128
) bringt beide
Abb. 49: Exportierte Datensätze. Lediglich die ersten drei Datenfelder (Name, ORGANISM und SEQUENCE)
wurden exportiert. Ordnen Sie hierzu die Datenfelder in dieser Reihenfolge an und wählen Sie aus dem
Auswahlmenü [Abb. 48, (4)] die Zahl 3.
129
129
4.6.11
Das Log-Fenster (nur Industrie-Version)
4.6.11.1
Einführung
Entsprechend der Vorgaben der GAMp Part 11 werden alle Manipulationen von
Rohdaten sowie die wesentlichen Berechnungen in der tree-Industrie-Version
automatisch in Form eines Audit-Trails gespeichert. Ebenfalls aufgezeichnet
werden alle Log-In und Log-Out-Vorgänge, die Veränderungen von Nutzerdaten
sowie sicherheitsrelevante Daten.
Alle Aufzeichnungen enthalten Ausführungsdatum und -uhrzeit der protokollierten
Tätigkeit. Darüber hinaus wird bei durch einen Nutzer ausgeführten Tätigkeiten
der jeweilige ursächliche Nutzer protokolliert. Bei einer Vielzahl von
protokollpflichtigen Tätigkeiten, z.B. das Importieren von Sequenzen oder eine
phylogenetische Berechnung, wird der ausführende Nutzer direkt im Anschluss an
den Vorgang gebeten, diesen zu kommentieren. Art und Inhalt des Kommentars
sind dabei Gegenstand der jeweiligen Firmenpolitik. Der Umfang des Kommentars
ist prinzipiell unbegrenzt. Dem Nutzer wird dabei der protokollierte und zu
kommentierende Text, wie in Abb. 50 gezeigt, dargestellt. Bei Routinetätigkeiten
(bspw. dem Alignen zuvor importierter, bislang nicht alignter Sequenzen) wird auf
eine Kommentierung verzichtet, da der Vorgang offensichtlich keiner Erklärung
bedarf.
In regelmäßigen Abständen, entweder nach Erreichen einer bestimmten
Textgröße (10.000 Zeilen), spätestens aber alle drei Monate, wird automatisch ein
neues tree-Log-File angelegt. Das Protokoll wird nun in der neuen Datei
fortgesetzt. Alte Protokolle können jederzeit geöffnet und eingesehen werden (vgl.
4.6.13.2).
130
130
Abb. 50: Das Log-Fenster ist ausschließlich bei der tree-Industrie-Version vorhanden. Im Beispiel wurde
nach dem Text „not given“ gesucht. Dieser wird automatisch von tree eingefügt, wenn ein Nutzer eine zu
kommentierende Handlung nicht kommentiert.
4.6.12
Darstellung im Log-Fenster
Für die Darstellung der bisherigen Aufzeichnungen im Log-Fenster führen Sie
Folgendes durch:
ƒ
Wählen Sie im Auswahlmenü der Hauptfenster-Knopfleiste den Punkt „LogFile“. Bei der tree-Universitäts-Version ist dieser Menüpunkt deaktiviert.
Neben dem eigentlichen Inhalt des Arbeitsbereichs werden sowohl die nichtallgemeinen Elemente der Hauptfenster-Knopfleiste angepasst als auch eine
für das Log-Fenster spezifische rechte Knopfleiste dargestellt.
ƒ
In der Hauptfenster-Knopfleiste finden Sie nun das Texteingabefeld Finden
(vgl. Abb. 50). Um z.B. schnell alle an der Sequenz AJ123456
vorgenommenen, protokollierten Manipulationen nachzulesen, geben Sie in
das Textfeld Finden den Sequenzname „AJ123456“ ein, platzieren den Cursor
unter- oder innerhalb des Protokolltextes und drücken Sie wiederholt die Taste
„up“ (
ƒ
).
Nach jedem Betätigen der Taste wird der Protokolltext oberhalb [Taste „down“:
(
) unterhalb] der aktuellen Cursorposition nach dem eingegeben Suchwort
durchsucht.
131
131
Hinweis: Die Suche ist dabei „Case-sensitive“: Suchen nach z.B. dem Begriff „aj123456“
findet keine Einträge der Form „AJ123456“. Wurde das Suchwort im Protokolltext
ober- (bzw. unter-) halb der Cursorposition gefunden, „springt“ die Darstellung an
die entsprechende Stelle und das Suchwort wird grau hinterlegt und in roter
Schriftfarbe dargestellt. Andernfalls zeigt ein akustisches Signal den negativen
Ausgang der Suche an.
4.6.13
Protokolltexte als PDF-Dokumente exportieren oder drucken
Durch Auswählen der Knöpfe (
) bzw. (
) der für das Log-Fenster
spezifischen rechten Knopfleiste können Sie den gesamten Protokolltext (
oder den z. Z. selektierten Bereich (
)
) als PDF-Dokument speichern.
1. Einen Bereich des Protokolltextes selektieren Sie durch Anklicken des Textes
mit der Maus und anschließendem Verziehen des Cursors bei gedrückter
Maustaste.
2. Der selektierte Text wird in roter Schriftfarbe (grau hinterlegt) dargestellt.
3. Nach Betätigen einer der Tasten (
) bzw. (
) wird ein Datei-Auswahl-
Dialog geöffnet, der es ermöglicht, ein Verzeichnis sowie einen Namen für das
zu erstellende PDF-Dokument festzulegen.
4. Sie haben darüber hinaus die Möglichkeit, im Anschluss die zu erstellende
PDF-Datei mit einem Passwort gegen unbefugten Zugriff zu sichern. Soll das
PDF nicht verschlüsselt werden, drücken Sie bei der entsprechenden Abfrage
Abbrechen oder OK, ohne ein Passwort einzugeben. Wenn Sie ein Passwort
vergeben, kann das PDF in Zukunft nur nach Eingabe dieses Passworts
geöffnet werden.
5. Während der Erstellung des PDF werden Sie über die Fortschritte des
Vorgangs informiert. Sie können die Erstellung des PDF jederzeit vorzeitig
abbrechen. In diesem Fall wird ein Dokument mit den bereits exportierten
Seiten erzeugt. Im Anschluss an die Erstellung wird das neu generierte PDF im
zugeordneten PDF-Reader (also z.B. Adobe® Reader®) geöffnet und kann
somit direkt manuell überprüft werden.
132
132
6. Um den Protokolltext zu drucken, drücken Sie die Tasten (
) (gesamter
) (selektierter Ausschnitt). Wie bei der gerade beschriebenen
Text) bzw. (
Erstellung der PDF-Dokumente wird der Protokolltext auch hier zunächst in ein
(temporäres) PDF-Dokument übergeben, das anschließend im zugeordneten
PDF-Reader (also z.B. Adobe® Reader®) geöffnet wird.
7. Um den Text auszudrucken, nutzen Sie die Drucken-Funktion des PDFReaders.
4.6.13.1
Sicherungskopie des aktuellen Log-File anlegen
Die Taste (
) der Log-Fenster spezifischen rechten Knopfleiste ermöglicht es
tree-Administratoren, eine Sicherungskopie der aktuell dargestellten Log-Datei
anzulegen.
1. Ebenso wie die Original-Log-Dateien ist auch die Sicherungskopie
verschlüsselt und kann nur mit tree dekodiert und ausgelesen werden.
2. Nach Betätigen der Taste (
) wird ein Datei-Auswahl-Dialog geöffnet, der
es ermöglicht, das Verzeichnis sowie den Namen der Sicherungskopie
festzulegen.
3. Nach der Auswahl bestätigen Sie mit der Taste OK. Die Kopie wird nun
angelegt, das aktuelle Protokoll wird nicht verändert.
4.6.13.2
Darstellen eines gespeicherten Log-Files
Sowohl Sicherungskopien von Log-Dateien als auch „alte“ Log-Dateien können im
Log-Fenster dargestellt werden.
ƒ
Drücken Sie dazu die Taste Open (
) und wählen Sie im folgenden Datei-
Auswahl-Dialog die zu öffnende Datei (.tlf – tree-Log-File).
ƒ
Der Inhalt der Log-Datei wird nun dargestellt.
ƒ
Um den dargestellten Log-Text von dem aktuellen Protokoll zu unterscheiden,
wird das gesamte Log-Fenster mit gelbem Hintergrund versehen, solange ein
altes Log-File geöffnet ist. Während dieser Zeit wird ebenfalls der Knopf Open
durch den Knopf Close (
ƒ
) (Abb. 51) ersetzt.
Betätigen dieser Taste schließt die alte Log-Datei und führt zur Darstellung der
133
133
aktuellen Datei.
ƒ
Werden Datenmanipulationen durchgeführt und protokolliert, während die alte
Log-Datei geöffnet ist, werden die zusätzlichen Protokolle natürlich nicht an die
zurzeit geöffnete, alte Datei angehängt, sondern an die aktuelle Log-Datei. Sie
werden dementsprechend auch nicht an den aktuell dargestellten Text
angehängt. Stattdessen wird eine Warnung (temporär) dargestellt.
ƒ
Nach Schließen der alten Log-Datei wird der neue Protokolltext im Kontext der
aktuellen Log-Datei dargestellt.
Abb. 51: Darstellung älterer Log-Files
1: Die gelbe Farbe zeigt an, dass es sich bei dem dargestellten Text nicht um das aktuelle Log-File handelt.
2: Aktuelle Arbeitsschritte werden nicht in diesem, sondern im aktuellen Log-File protokolliert.
3: Der Knopf „Schließen“ wird nur dargestellt, wenn ein älteres Log-File geladen wurde. Betätigen schließt die
dargestellte „alte“ Log-Datei und führt zur Wiederherstellung des aktuellen Log-Files.
134
134
4.6.14
Sequenzen analysieren mit Hilfe der „Schnellen Identifizierung“ (QI)
4.6.14.1
Übersicht
Prozentuale Sequenzidentitäten sind ein wichtiges Kriterium für die
phylogenetische/ taxonomische Zuordnung von Mikroorganismen und für eine
umfassende Beurteilung der Identität eines Mikroorganismus von größter
Bedeutung. Mittels der Funktion „Schnelle Identifizierung“ („QuickIdent“, QI) kann
eine Analyse von Ähnlichkeitswerten für jede Sequenz schnell und reproduzierbar
durchgeführt werden. Insbesondere für die routinemäßige Analyse häufig
wiederkehrender Sequenzen ist die „Schnelle Identifizierung“ nicht nur Ergänzung,
sondern u. U. eine sinnvolle Alternative zur phylogenetischen
Stammbaumberechnung. Um spezifischere Aussagen über die Verwandtschaft
und Identität einer Sequenz bzw. des zugehörigen Organismus treffen zu können,
sollten allerdings stets beide Methoden miteinander kombiniert werden.
4.6.14.2
Berechnung und Darstellung einer QI
Die Schnelle Identifizierung einer Sequenz (im Folgenden auch „QI“) ist in
kürzester Zeit und mit denkbar geringem Aufwand durchführbar. Voraussetzung
für die Analyse ist zunächst die Integration der zu analysierenden Sequenz in das
multiple Alignment („Alignen der Sequenz“, vgl. 4.6.2, Alignments II).
1. Wählen Sie die zu analysierende Sequenz als aktuelle Sequenz aus, bspw.
durch direktes Anklicken des Sequenznamens im Übersichtsfenster. Die
Sequenz wird nun im Infofenster dargestellt.
2. Drücken Sie anschließend den Knopf QI (
) der Knopfleiste des
Hauptfensters oder wählen Sie alternativ den Menüpunkt Phylogenie >
Schnelle Identifizierung berechnen.
3. Während der nun ablaufenden Berechnung werden Sie über den Fortschritt
der Berechnung informiert. Im Anschluss wird das Ergebnis der Schnellen
Identifizierung (ggfs. nach Protokollieren der Tätigkeit) im QI-Fenster
dargestellt. Gemeinsam mit dem Ergebnis der Schnellen Identifizierung wird
die QI-spezifische Knopfleiste am rechten Rand des QI-Fensters dargestellt.
4. Um zu einem späteren Zeitpunkt eine bereits berechnete QI darzustellen,
wählen Sie die analysierte Sequenz als aktuelle Sequenz aus und drücken das
135
135
blaue „QI“-Symbol in der oberen linken Ecke des Infofensters.
Alternativ können Sie auch das QI-Fenster mittels des Auswahlmenüs (Abb. 9-7)
der tree-Hauptfenster-Knopfleiste darstellen (Auswahl Eintrag „QuickIdent“), die
gewünschte Sequenz als aktuelle Sequenz auswählen und mit der Taste (
)
die entsprechende Analyse im QI-Fenster darstellen. Der Wechsel zwischen der
Darstellung verschiedener QIs verläuft analog.
Abb. 52: Knopfleiste des QI-Fensters
1: Schnelle Identifizierung im PDF-Format speichern
2: Schnelle Identifizierung drucken
3: Paarweise Identität von analysierter und aktueller Sequenz berechnen
4: Alle Sequenzen der dargestellten QI zur Auswahl hinzufügen
5: Alle Sequenzen der dargestellten QI aus der Auswahl entfernen
Hinweis: Beachten Sie, dass mit jeder Sequenz höchstens eine QI assoziiert sein kann.
136
136
Abb. 53: Der Dialog „Protokollieren“: Eine QI wurde berechnet. Der Anwender erhält die Gelegenheit, die
Berechnung zu kommentieren.
4.6.14.3
Referenz-Datensätze der QI
Die Schnelle Identifizierung wird nicht gegen alle Sequenzen der aktuellen TeilDatenbank durchgeführt, sondern ausschließlich gegen Sequenzen, die in der
entsprechenden Referenz-Datenbank enthalten sind (zum Thema ReferenzDatenbank siehe Abschnitt 4.4.1.3). Dabei wird bei der Industrie-Version als
Referenz-Datenbank eine nadicom-spezifische Datenbank verwendet, die alle und
ausschließlich solche Sequenzen enthält, die zur ursprünglichen tree-TeilDatenbank gehören bzw. bei späteren Datenbank-Updates hinzugefügt wurden.
Die QI wird also ausschließlich gegen Original-nadicom-Daten durchgeführt
und nicht gegen proprietäre Sequenzen. Diese Einschränkung ermöglicht die
dauerhafte Reproduzierbarkeit und höchste Qualität der Ergebnisse der Schnellen
Identifizierung. Die nadicom-Referenz-Datenbank kann im Übrigen auch nicht
durch die Funktion Referenz-Datenbank update (Menüpunkt Alignment >
Referenz-Datenbank update) manuell verändert werden.
Beachten Sie: Bei der Universitäts-Version fällt diese Einschränkung weg. Als ReferenzDatenbank wird hier eine durch den Nutzer definierbare, beliebige Teilmenge der
alignten Sequenzen der aktuellen Teil-Datenbank genutzt (siehe Abschnitt
4.4.1.3). Dementsprechend können zu verschiedenen Zeitpunkten durchgeführte
und auf abweichende Referenz-Datensätze basierende Analysen zu leicht
abweichenden Resultaten führen.
137
137
4.6.14.4
Interpretation der QI
Das Ergebnis der Schnellen Identifizierung (QI) besteht aus i.d.R. 50
Sequenznamen sowie den %-Übereinstimmungen dieser Sequenzen in Bezug zur
analysierten Sequenz. Der Name der analysierten Sequenz wird als Überschrift
der QI, das Ergebnis in Form einer Tabelle dargestellt. Nach der Position des
jeweiligen Ergebnisses werden Name und Inhalt der Datenfelder „SOURCE“ und
„ACCESSION“ jeder in der QI aufgeführten Sequenz dargestellt, im Anschluss
daran in derselben Zeile die Werte „ID mult“, „ID pair“ (bei den ersten 5
Ergebnissen) und „BLAST Score“.
Abb. 54: Übersicht über eine Schnelle Identifizierung
1: Die analysierte Sequenz hat den Namen 149-2a-27f. Sie ist zurzeit aktuelle Sequenz und wird deshalb blau
hinterlegt dargestellt. Die rote Schriftfarbe zeigt darüber hinaus an, dass die Sequenz markiert ist.
2: Die QI wurde von dem Anwender „Admin“ berechnet.
3: Sequenzen von Typstämmen oder Sequenzen aus Genomprojekten (vgl. 4.4.3) werden durch Darstellung der
Symbole T bzw. G gekennzeichnet.
4: Die Werte ID mult geben die %-Identität auf Basis des multiplen Alignments an.
5: Die Werte ID pair geben die %-Identität auf Basis eines paarweisen Alignments an.
6: Der bei der heuristischen Analyse gegen die Referenz-Datenbank berechnete BLAST-Score dient als weiteres
Ähnlichkeitsmerkmal.
138
138
ID mult (Abb. 54-4)
Der Wert „ID mult“ bezeichnet die prozentuale Identität der analysierten Sequenz
und der jeweiligen Ergebnissequenz auf Basis des multiplen Alignments. Für die
Berechnung des Wertes wurden alle Alignmentpositionen der Teil-Datenbank
herangezogen, für die in der QI aufgeführten (51) Sequenzen Sequenzinformationen bekannt sind. In anderen Worten, die Berechnung der %-Identität
„ID mult“ ist auf den Bereich des multiplen Alignments beschränkt, für den
Sequenzinformationen (Basen oder interne Gaps) für alle ausgewählten
Sequenzen vorliegen. Somit werden alle Positionen ausgeschlossen, die vor der
ersten Base bzw. nach der letzten Base der jeweils kürzesten Sequenz(en) liegen.
Darüber hinaus werden bei der Berechnung automatisch alle solchen Positionen
ausgeschlossen, an denen alle in der QI aufgeführten (51) Sequenzen Gaps
aufweisen.
Die %-Identität wird berechnet, indem die Anzahl aller Matches in Relation zur
Anzahl der analysierten Positionen des multiplen Alignments gesetzt werden:
Formel: #M/#Pos*100
Dabei werden Positionen, an denen beide verglichenen Sequenzen identische
Symbole (gleiche Basen oder Gaps) aufweisen, als Match gewertet, alle anderen
Positionen als Mismatches.
ID pair (Abb. 54-5)
Der Wert „ID pair“ bezeichnet die prozentuale Identität der analysierten Sequenz
und der jeweiligen Ergebnissequenz auf Basis eines hierzu berechneten
paarweisen Alignments. Für die Berechnung des ID-Wertes werden alle
Positionen des paarweisen Alignments herangezogen, die für beide analysierten
Sequenzen bekannt sind. Somit werden alle Positionen ausgeschlossen, die vor
der ersten Base bzw. nach der letzten Base jeder der beiden Sequenzen liegen.
Im Unterschied zum Wert „ID mult“ wird also der analysierte Bereich für jedes
Sequenzpaar neu definiert. Aus dem gleichen Grunde fallen beim paarweisen
Alignment keine Positionen ins Gewicht, an denen beide Sequenzen Gaps
aufweisen (Zur Erinnerung: bei der Berechnung der „ID mult“ werden alle internen
Positionen berücksichtigt, an denen mindestens eine der 51 analysierten
Sequenzen eine Base aufweist. Alle Sequenzpaare, bei denen beide Sequenzen
an dieser Position ein Gap aufweisen, erhalten ein „zusätzliches Match“). Die %139
139
Identität wird analog dem Wert „ID mult“ berechnet, indem die Anzahl aller
Matches in Relation zur Anzahl der analysierten Positionen des paarweisen
Alignments gesetzt werden:
Formel: #M/#Pos*100
Unterschiede zum Wert „ID mult“ rühren somit zum einen aus den abweichenden
Alignments (paarweise vs. multiple), zum anderen aus der Abweichung
hinsichtlich der analysierten Sequenzbereiche her.
BLAST-Score (Abb. 54-6)
Während der Berechnung der Schnellen Identifizierung wird auch eine BLASTSearch mit der analysierten Sequenz gegen die der Teil-Datenbank zugeordnete
Referenzdatenbank, vgl. 4.4.1.3. und 5.2.1) durchgeführt. Die erzielten SCOREs
werden als dritter Ähnlichkeitswert angegeben. Da BLAST eine lokale
Ähnlichkeitssuche vornimmt, kann es vorkommen, dass während des BLAST zwei
oder mehr lokale Alignments der analysierten Sequenz gegen die jeweilige
Datenbank-Sequenz durchgeführt und gewertet werden. In diesem Fall werden die
erzielten Einzel-Scores addiert und die Summe als BLAST-Score dargestellt.
Reihenfolge der Ergebnisse
Die Ergebnisse werden entsprechend der Werte „ID mult“ absteigend sortiert
dargestellt. Im Anschluss an das Sortieren wird, aus Effizienzgründen, lediglich für
die fünf ersten Ergebnisse die Berechnung des Wertes „QI pair“ durchgeführt. Die
Reihenfolge der Ergebnisse ist nicht als strikte Rangfolge der Ähnlichkeiten zu
interpretieren. Stattdessen sollten stets alle drei Werte bei der Interpretation der
QI berücksichtigt werden. Durch Betätigen der Taste %ID der QI-spezifischen
Toolbar können im Nachhinein für beliebige Sequenzen der QI „ID pair“-Werte
berechnet werden. Einmal berechnet, werden diese Werte der QI dauerhaft
hinzugefügt.
ƒ
Für die manuelle Berechnung der paarweisen %-Ähnlichkeit wählen Sie eine
Sequenz der QI als aktuelle Sequenz aus, sodass deren Name im QI-Fenster
blau hinterlegt dargestellt wird.
ƒ
Anschließend betätigen Sie die Taste %ID. Das Ergebnis wird im Anschluss
an die Berechnung dargestellt und in die QI übernommen.
140
140
4.6.14.5
Ergebnis der Schnellen Identifizierung (QI) als PDF exportieren
ƒ
) (Abb. 52) der QI-spezifischen
Durch Betätigen der Taste PDF (
Knopfleiste können Sie die aktuell dargestellte QI als PDF-Dokument
speichern. Im Anschluss an die Betätigung des „PDF“-Knopfes wird ein
Datei-Auswahl-Dialog geöffnet, der es ermöglicht, ein Verzeichnis sowie einen
Namen für das zu erstellende PDF-Dokument festzulegen.
In der tree-Industrie-Version haben Sie darüber hinaus die Möglichkeit, im
Anschluss das zu erstellende PDF mit einem Passwort gegen unbefugten Zugriff zu
verschlüsseln. Soll das PDF nicht verschlüsselt werden, drücken Sie bei der
entsprechenden Abfrage Abbrechen oder OK, ohne ein Passwort einzugeben.
Wenn Sie ein Passwort vergeben, kann das PDF in Zukunft nur nach Eingabe
dieses Passworts geöffnet werden.
Im Anschluss an die Erstellung wird das neu generierte PDF im auf dem jeweiligen
Rechner zugeordneten PDF-Reader (also z.B. Adobe® Reader®) geöffnet und
kann somit direkt manuell überprüft werden.
4.6.14.6
Ergebnis der Schnellen Identifizierung (QI) drucken
Vorgehensweise:
ƒ
Zum Drucken der aktuell dargestellten QI drücken Sie die Taste (
ƒ
Wie bei der gerade beschriebenen Erstellung der PDF-Dokumente wird die QI
).
auch hier zunächst in ein (temporäres) PDF-Dokument übergeben, das
anschließend im zugeordneten PDF-Reader (also z.B. Adobe® Reader®)
geöffnet wird. Um die QI auszudrucken, nutzen Sie die Funktion Drucken des
PDF-Readers. Das temporäre Dokument wird zeitnah, spätestens jedoch im
Anschluss an die aktuelle tree-Sitzung, automatisch wieder gelöscht.
4.6.14.7
Dargestellte Sequenzen der QI zur Auswahl hinzufügen /aus Auswahl
entfernen
Mittels der Tasten (
) bzw. (
) in der rechten Toolbar können Sie
sämtliche Sequenzen der QI auf einmal markieren bzw. demarkieren. Der Erfolg
des Vorgangs wird sofort, z.B. anhand der Schriftfarbe der Sequenznamen der QI,
sichtbar.
141
141
4.6.14.8
Ergebnis der Schnellen Identifizierung (QI) löschen
Eine einmal durchgeführte Schnelle Identifizierung wird i.d.R. nicht verändert
werden. Allerdings kann unter Umständen (bei der Universitäts-Version nach
dem Import proprietärer Daten, bei der Industrie-Version nach einem Update der
Teil-Datenbank mit weiteren nadicom-Referenzsequenzen) eine erneute Analyse
zu leicht abweichenden Ergebnissen führen.
Um zu überprüfen, ob nach einer der genannten Datenbankveränderungen eine
Schnelle Identifizierung in einem abweichenden Ergebnis resultiert, führen Sie die
Berechnung zunächst erneut durch. Das neue Ergebnis wird anschließend zwar
dargestellt, jedoch nicht dauerhaft gespeichert, da bereits die alte QI mit der
analysierten Sequenz assoziiert ist. Sie haben jedoch als tree-Administrator (nach
Vergleich beider QIs) die Möglichkeit, die alte QI zu löschen.
1. Selektieren Sie dazu die der zu löschenden QI zugrunde liegende (analysierte)
Sequenz als aktuelle Sequenz.
2. Wählen Sie anschließend den Menüpunkt Phylogenie > Schnelle
Identifizierung löschen. Die zu löschende QI wird nun noch einmal
dargestellt.
3. Bestätigen Sie die Sicherheitsabfrage, um die QI dauerhaft zu entfernen. Im
Anschluss kann eine neue Schnelle Identifizierung berechnet und mit der
analysierten Sequenz verknüpft werden.
142
142
5
Anweisungen für tree-Administratoren
5.1
Nutzerverwaltung und tree-Administration
Der Abschnitt 5.1 bezieht sich ausschließlich auf die tree-Industrie-Version.
Abb. 55: Nutzerverwaltung bei der tree-Industrie-Version
1:
Ein neues Nutzerkonto anlegen.
2:
Auswahlliste, um ein vorhandenes Konto zu löschen oder zu bearbeiten.
3,4: Diese Elemente dienen dem Löschen bzw. Bearbeiten vorhandener Konten. Zuvor ist das Konto zu
spezifizieren (2).
5:
6:
Kontoeingabemaske. Die UserID kann nicht nachträglich manipuliert werden.
Der Dialog wird geschlossen. Um Änderungen vorzunehmen, müssen diese zuvor mittels der Taste
„Übernehmen“ (9) gesichert werden.
7:
Ein Haken symbolisiert, dass das Konto temporär gesperrt ist. Die Sperrung richtet sich nach der Anzahl
der Fehl-Logs (darüber).
8:
Ein Haken symbolisiert, dass der dargestellte User tree-Administratorrechte hat.
9:
Übernehmen bzw. Verwerfen der Daten. Erst nach der Übernahme werden die Änderungen wirksam.
143
143
5.1.1
Übersicht
Nach der tree-Installation, aber auch jedes Mal, wenn ein neuer Nutzer mit einer
tree-Installation arbeiten soll, ist es notwendig, tree-Nutzerkonten anzulegen.
1. Melden Sie sich dazu als tree-Administrator an und starten das Programm.
2. Öffnen Sie eine beliebige Teil-Datenbank und wählen Sie anschließend den
Menüpunkt Administration > Nutzerkonten verwalten aus. Der
Administrations-Dialog wird geöffnet.
3. Sie haben nun die Möglichkeit, neue Benutzerkonten anzulegen (Abb. 55-1),
bzw. bestehende Konten zu bearbeiten (Abb. 55-3) oder auch zu löschen
(Abb. 55-4). Für die beiden letzteren Aktionen wählen Sie zunächst das zu
bearbeitende/ zu löschende Konto aus der Kontoliste (Abb. 55-2) aus.
4. Nach Betätigung einer der drei Tasten wird die Kontoschablone dargestellt und
mit den Nutzerdaten initialisiert. (Abb. 55-5). Nehmen Sie nun die gewünschten
Einstellungen vor.
5.1.2
Nutzerkonto-Felder und erlaubte Eingaben
ƒ
Der Username (Feld „ID“) muss aus mindestens 6 und maximal 10 Zeichen
bestehen. Alle Sonderzeichen sind erlaubt. Doppelte Usernamen werden vom
Programm erkannt und abgelehnt.
ƒ
Das Passwort muss aus mindestens 6 und maximal 15 Zeichen bestehen.
Alle Sonderzeichen sind erlaubt. Doppelte Passwörter sind erlaubt, solange
eine eindeutige Unterscheidung der Nutzer aufgrund des Usernamens
gewährleistet ist. Bei der Vergabe eines neuen Passworts muss dieses
zweimal eingegeben werden (Felder „Passwort“ und „bestätigen“).
Voneinander abweichende Eingaben werden vom Programm erkannt und
abgelehnt. Ein neues Passwort darf nicht mit einem der vier letzten
Passwörter übereinstimmen oder darin enthalten sein. Darüber hinaus darf
das letzte Passwort nicht im neu vergebenen Passwort enthalten sein (Ändern
des Passworts „Passwort“ in „Passwort2“ wird somit bspw. abgelehnt).
ƒ
Das Feld Passwortänderung enthält das Datum der letzten
Passwortänderung. Bei allen Anmelde- und Autorisierungsvorgängen (4.4.1.2)
überprüft tree das Alter des jeweils verwendeten Passworts. Ist ein Passwort
älter als 6 Monate, kann der Vorgang nur nach Vergabe eines neuen
Passworts (durch den Anwender) fortgesetzt werden.
144
144
Hinweis: Um z.B. nach der Einrichtung eines neuen Nutzerkontos den neuen Nutzer dazu
zu zwingen, das zunächst vom Administrator vergebene Passwort beim ersten
Log-In durch ein eigenes Passwort zu ersetzen, sollte beim Einrichten des Kontos
das Feld „Passwortänderung“ auf ein Datum in der Vergangenheit (älter als 6
Monate) gesetzt werden.
ƒ
Das Feld Fehl-Logs gibt die Anzahl zuletzt hintereinander erfolgter
Anmeldeversuche mit falschem Passwort wieder. Um einen „Brute-force“Angriff auf ein Konto zu verhindern, wird ein Konto nach drei aufeinander
folgenden gescheiterten Anmeldeversuchen gesperrt. Die Länge der Sperrung
beträgt die Anzahl der Fehl-Logs minus 2 in Stunden. Nach dem dritten
gescheiterten Anmeldeversuch wird das Konto somit zunächst für eine Stunde
gesperrt. Erfolgt während dieser Zeit oder auch im Anschluss daran ein
weiterer Fehlversuch, wird das Konto vom Zeitpunkt des erneuten
Fehlversuchs an für 2 Stunden gesperrt usw. Nach einer erfolgreichen
Anmeldung wird die Anzahl der Fehl-Logs wieder auf 0 gesetzt.
Während der Sperrung kann ein Nutzer (oder potentieller Angreifer) beliebige
weitere Anmeldeversuche vornehmen, wird jedoch, auch wenn ein korrektes
Passwort eingegeben wurde, keinen Zugang zum Programm erlangen.
Stattdessen wird er über die Deaktivierung des Kontos informiert.
Hinweis: Um ein Konto temporär zu sperren, markieren Sie das Feld Gesperrt (die
Anzahl der Fehl-Logs wird automatisch auf „3“ gesetzt). Für längere Sperrungen
geben Sie eine beliebige ganze Zahl im Feld Fehl-Logs ein. Das Feld Gesperrt
wird automatisch markiert. Um umgekehrt ein gesperrtes Konto wieder frei zu
schalten, demarkieren Sie das Feld Gesperrt.
ƒ
Der Feld Admin gibt an, ob das Nutzerkonto mit tree-Administrator-Rechten
versehen ist. Prinzipiell können beliebig viele Nutzer mit Administrator-Rechten
versehen werden, z.B. um das Owner-Prinzip des Programms zu deaktivieren.
145
145
Jeder Administrator kann jedem Konto (einschließlich des eigenen) die
Administrator-Rechte entziehen. Dabei wird durch tree jedoch gewährleistet,
dass mindestens ein Konto mit Administratoren-Rechten erhalten bleibt.
Zusammen mit der Sicherheitseinschränkung, dass Administrator-Konten nicht
gelöscht werden können, wird so gewährleistet, dass stets mindestens ein
Konto mit Administrator-Rechten vorhanden ist. Umgekehrt folgt aus dem
Gesagten, dass, um ein Administrator-Konto zu löschen, diesem zunächst die
Administrator-Rechte durch Demarkieren des Feldes Administrator zu
entziehen sind.
146
146
5.2
Referenz-Datenbanken
Für eine Übersicht über die Funktion der Referenz-Datenbanken siehe 4.4.1.3.
5.2.1
Referenz-Datenbanken aktualisieren
Bei der Installation von tree werden automatisch initiale Referenz-Datenbanken für
die einzelnen tree-Teil-Datenbanken erstellt. Diese enthalten zunächst alle
Sequenzen der jeweiligen Teil-Datenbank. Anwender (Industrie-Version: treeAdministratoren) können die Referenz-Datenbanken jedoch mit beliebigen
Sequenzmengen aktualisieren. Ausgeschlossen vom Export sind lediglich alle
nicht-alignten Sequenzen, da diese für die allermeisten tree-Analysen nicht
verwendet werden können. Sollten Sie extern-alignte Sequenzen (z.B. nach dem
Erstellen einer neuen tree-Teil-Datenbank) importiert haben und diese nun in die
Referenz-Datenbank exportieren wollen, müssen Sie sie zunächst dem Programm
als „aligned“ bekanntmachen (Menüpunkt Administration > Ausgewählte
Sequenzen als ‚aligned’ kennzeichnen).
1. Öffnen Sie zunächst die Teil-Datenbank, deren Referenz-DB aktualisiert
werden soll.
2. Wählen Sie anschließend den Menüpunkt Administration >ReferenzDatenbank updaten. Sie werden aufgefordert, diesen Abschnitt des treeHandbuchs sorgfältig zu lesen. Fahren Sie mit der Aktualisierung erst danach
fort.
3. Im anschließend dargestellten Auswahl-Dialog können Sie festlegen, welche
Sequenzen in die Referenz-DB exportiert werden sollen.
147
147
Abb. 56: Referenzdatenbank aktualisieren. Um redundante Ergebnisse bei späteren Analysen zu
vermeiden, können Sie redundante Daten (identische Basenabfolgen, vgl. 4.5.10.6) nur einmal exportieren
(Wählen Sie das Feld „Sequenzen mit ID-Referenz exportieren“ ab).
Sie haben folgende Möglichkeiten:
ƒ
„Alle Sequenzen“: alle Sequenzen der Teil-Datenbank, sowohl ursprünglich in
der Datenbank vorhandene als auch später importierte, proprietäre Daten
werden exportiert. Wählen Sie diesen Punkt nur, wenn Sie sicher sind, alle
proprietären Daten korrekt aligned zu haben und für nachfolgende Analysen
als Referenzen nutzen zu wollen. Nicht-alignte Sequenzen werden allerdings
von tree automatisch vom Export ausgeschlossen.
ƒ
„Nur markierte Sequenzen“: Wählen Sie diesen Punkt nur, wenn Sie bewusst
Original-Sequenzen von den nachfolgenden Analysen ausschließen wollen.
Wenn Sie diesen Punkt wählen, stellen Sie sicher, mindestens 50 Sequenzen
markiert zu haben.
Achtung: Die Auswahl dieses Punktes ermöglicht insbesondere die ausschließliche Analyse
eigener Sequenzen. Diese Funktion ist nur Experten empfohlen!
Zumindest bei der tree-Universitäts-Version kann das unbewusste Ausschließen
von Sequenzen zu fehlerhaften Analyseergebnissen führen (Industrie-Version:
vgl. unten).
ƒ
„Markierte Importierte und alle Original-Datenbank-Sequenzen“: Diese
Option erlaubt es, beliebige eigene Sequenzen gemeinsam mit allen
Sequenzen der ursprünglichen (Original-) Datenbank zu exportieren.
148
148
1. Fügen Sie zunächst alle eigenen Sequenzen, die Sie als Referenzen bei
zukünftigen Analysen nutzen wollen, der Auswahl hinzu („markieren“).
2. Starten Sie anschließend den Update-Dialog und wählen Sie anschließend
diesen Menüpunkt.
3. Es ist unerheblich, ob sich Original-Datenbank-Sequenzen in der Auswahl
befinden. Diese werden ohnehin, jedoch nur einmalig, in die ReferenzDatenbank exportiert.
Hinweis: Sie können diese Option umgehen, indem Sie zunächst alle Originalsequenzen
markieren (Suchen und Finden-Dialog: alle nicht Importierten finden,
Suchergebnisse markieren), zusätzlich eine Auswahl eigener Sequenzen
markieren und anschließend Option 2 („Nur markierte Sequenzen“) wählen. Das
Resultat wäre identisch.
ƒ
„Sequenzen mit ID-Referenz exportieren“: Das Auswählen (zusätzlich zu
einer der oben genannten Optionen) dieses Feldes führt dazu, dass auch als
„identisch“ markierte Sequenzen (vgl. 4.5.10.6) exportiert werde. Es resultiert
somit in einer redundanten Referenz-Datenbank. Wählen Sie diese Funktion
ab, wenn viele redundante (identische) Sequenzen in Ihren Daten enthalten
sind und Sie bei automatischen Suchen nach ähnlichen Sequenzen (vgl.
4.5.4.10) das Finden jeweils einer statt vieler identischer Sequenzen
bevorzugen. Wenn alle, auch redundante, Sequenzen in die ReferenzDatenbank exportiert und bei automatischer Suche auch gefunden werden
sollen, markieren Sie dieses Feld. In der tree-Industrie-Version könnte dies
im Extremfall (bei hoch redundanten Daten) darin resultieren, dass bei der
Berechnung der Schnellen Identifizierung (QI) ausschließlich viele identische
Sequenzen mit voneinander nicht abweichenden Basenabfolgen verrechnet
werden.
ƒ
Bei der tree-Industrie-Version wird die Schnelle Identifizierung ausschließlich
gegen nadicom-eigene Referenzsequenzen durchgeführt; das Problem tritt
hier höchstens bei automatisierten Stammbaumberechnungen auf.
149
149
5.2.2
Probleme mit der Referenz-DB
Während des Systemstarts (nur Industrie-Version) wird das Vorhandensein der
benötigten Referenz-Datenbanken der durch tree verwalteten Original-TeilDatenbanken überprüft. Sollten dabei Fehler auftreten, z.B. nach manuellem
Entfernen einer Referenz-Datenbank, werden diese dem Anwender gemeldet und
protokolliert. Während des Programmverlaufs sollten somit lediglich dann
Probleme auftreten, wenn Sequenzen in der Referenz-DB gespeichert, in der TeilDatenbank jedoch nicht (mehr) vorhanden sind. Diese Situation kann nach dem
Löschen von Sequenzen (vgl. 4.5.10.3) auftreten. Ausnahmen dieser Art werden
dem Anwender gemeldet, haben jedoch in aller Regel keinen weiteren Einfluss auf
die laufenden Analysen. Lediglich, wenn Sequenzen in der Datenbank nicht
gefunden werden können, die laut Such-Heuristik als zur analysierten Sequenz
„ähnlichste“ Sequenz gewertet werden, kann aus Sicherheitsgründen ein Abbruch
der laufenden Berechnung erfolgen. In diesem Fall sollten die Gründe der
Inkompatibilität geklärt und vor der Fortsetzung der Analyse beseitigt werden.
Abb. 57: Eine Sequenz wurde aus der Teil-Datenbank entfernt, ist jedoch in der Referenz-Datenbank
noch vorhanden.
Bei manchen Analysen (Überprüfung von phylogenetischen Ergebnissen, 4.6.5.6)
kann der umgekehrte Fall (nutzerdefinierte Sequenz befindet sich nicht in der
Referenz-DB) zu Problemen führen. Folgen Sie dann den Anweisungen auf dem
Bildschirm. Allgemein reicht es stets aus, die Referenz-Datenbank zu
aktualisieren, um Teil-Datenbank und Referenz-Datenbank in Übereinstimmung zu
150
150
bringen und die geschilderten Probleme zu lösen. Diese Probleme sollten nicht bei
auf der nadicom-Referenz-DB (Industrie-Version, s.o.) basierenden Analysen
auftreten, da weder die Original-nadicom-Sequenzen noch die nadicom-ReferenzDB durch Anwender oder Administratoren manipuliert werden können.
151
151
5.3
Datenbank-Update mit Original-nadicom Update-DBs
(nur Industrie-Version)
5.3.1
Übersicht
nadicom wird zukünftig Updates der tree-Teil-Datenbanken für industrielle Kunden
anbieten. Durch Einspielen dieser Updates ergänzen Sie Ihre tree-TeilDatenbanken um weitere, durch nadicom validierte Sequenzen, die bspw. seit
dem letzten tree-Update erhoben und durch nadicom überprüft worden sind. Nach
der Aktualisierung Ihrer Teil-Datenbanken können Sie die „Update-Sequenzen“
genau wie alle bisherigen nadicom-Referenzsequenzen nutzen.
Die Aktualisierung mit Update-Datenbanken wird durch einen tree-Administrator
für jede Teil-Datenbank separat durchgeführt. Die genaue Beschreibung der
einzelnen Update-Datenbanken ist diesen beigefügt. Lesen Sie diese
Instruktionen zunächst sorgfältig durch.
1. Melden Sie sich als tree-Administrator an und öffnen Sie anschließend die zu
aktualisierende Teil-Datenbank. Sie sollten stets nur die durch tree verwalteten
Original-Teil-Datenbanken aktualisieren. Die Aktualisierung einer TeilDatenbank kann jeweils nur mit der passenden Update-Datenbank
durchgeführt werden.
2. Bevor Sie die geöffnete Teil-Datenbank aktualisieren, speichern Sie zunächst
alle Veränderungen.
3. Wählen Sie anschließend den Menüpunkt Administration > Datenbank
updaten und bestätigen Sie die folgende Sicherheitsabfrage. Im Anschluss
wird ein Datei-Auswahl-Dialog geöffnet.
4. Wählen Sie die zur geöffneten Teil-DB zugehörige Update-Datenbank (vgl.
Beschreibung der Update-DBs) und bestätigen Sie durch Drücken der Taste
Update-Datei öffnen. Die Aktualisierung der Teil-Datenbank beginnt nun.
5.3.2
Redundante Sequenznamen
Sollten Sie zwischenzeitlich eigene Sequenzen importiert haben, deren Namen
identisch mit dem Namen einer Update-Sequenz sind, macht tree Sie darauf
aufmerksam (Abb. 58). Sie haben nun folgende Möglichkeiten:
152
152
ƒ
Wählen Sie Nicht importieren, um die aktuell dargestellte Update-Sequenz
zu verwerfen (nicht empfohlen).
ƒ
Wählen Sie Namen erweitern, um die aktuell dargestellte Update-Sequenz
durch Anhängen eines Zeichens („&“) von der bereits vorhandenen Sequenz
zu unterscheiden.
ƒ
Nach Betätigung der Taste Überschreiben wird die bereits in der Datenbank
vorhandene Sequenz entfernt, die aktuell dargestellte Update-Sequenz wird
anschließend importiert.
ƒ
Die Funktion Alle Namen erweitern bewirkt, wie „Namen erweitern“, das
Anhängen eines Zeichens an den Namen der Update-Sequenz. Darüber
hinaus wird jeder weitere redundante Sequenzname ohne weitere Abfragen
ebenfalls erweitert. Diese Option wird empfohlen.
Abb. 58: Beim Update der Teil-Datenbank mit nadicom-Sequenzen wurden doppelte Sequenznamen
festgestellt.
Achtung: Sie können die einmal importierten Update-Sequenzen später nicht wieder aus der
Teil-Datenbank entfernen.
153
153
5.3.3
Update der Referenz-Datenbanken
Im Anschluss an das Importieren der Update-Sequenzen werden die eingelesenen
Sequenzen protokolliert. Anschließend wird die der Teil-Datenbank zugeordnete
„nadicom-Referenz-Datenbank“ automatisch aktualisiert (für weitere Informationen
siehe 4.4.1.3).
Abb. 59: Nach dem Lesen der Update-Daten wird die nadicom-Referenz-Datenbank aktualisiert.
Abb. 60: Die Aktualisierung der nadicom-Referenz-Datenbank wurde erfolgreich abgeschlossen.
ƒ
Sie werden über den erfolgreichen Verlauf der Aktualisierung benachrichtigt.
ƒ
Bestätigen Sie mit OK.
ƒ
Im Anschluss haben Sie die Möglichkeit, die allgemeine Referenz-Datenbank
zu aktualisieren. Lesen Sie dazu zunächst den Abschnitt 5.2.1 dieses
Handbuchs.
ƒ
Nachdem der (optionale) letzte Schritt beendet ist, werden alle neu geladenen
Update-Sequenzen im Suchen und Finden-Dialog dargestellt.
ƒ
Sie haben nun z.B. die Möglichkeit, mittels der Funktion Alle ändern allen
Update-Sequenzen eine gemeinsame Information zuzuordnen, um sie
anschließend schneller identifizieren zu können. Geschützte Datenfelder
können allerdings, wie bei nadicom-eigenen Sequenzen üblich, nicht
manipuliert werden.
154
154
Abb. 61: Nach erfolgreichem Beenden aller Arbeitsschritte werden die importierten Update-Sequenzen
dargestellt. Sie können nun beispielsweise mit einem erläuternden Kommentar versehen werden (Taste „Alle
ändern“).
Während des Update-Vorgangs werden die in Ihrer individuellen Teil-Datenbank
durch das Alignen proprietärer Daten entstandenen zusätzlichen Positionen des
multiplen Alignments mit den möglichen neuen Positionen der Update-Datenbank
verrechnet. Beide Alignments werden zu einem gemeinsamen multiplen Alignment
vereint. Aus diesem Grunde kann der Update-Vorgang nur mit passenden, durch
nadicom validierten Update-Datenbanken durchgeführt werden.
155
155
5.3.4
Auswirkungen des Updates
Das Update der Teil-Datenbank führt dazu, dass bisherige Ergebnisse,
insbesondere Ergebnisse der Schnellen Identifizierung, nunmehr nur
eingeschränkt reproduzierbar bleiben. Beispielsweise können während des
Updates Sequenzen Teil der Datenbank geworden sein, die größere Ähnlichkeit
zu einer bereits analysierten Sequenz aufweisen als alle bisherigen
Referenzsequenzen. Dies wird sich bei einer erneuten Schnellen Identifizierung
natürlich auf das Ergebnis auswirken. In bestimmten Fällen (bislang keine sichere
Identifikation möglich) kann es also sinnvoll und angebracht sein, Analysen nach
einem Datenbank-Update zu wiederholen.
156
156
5.4
Sicherungskopien von Teil-Datenbanken wieder einspielen
Wurde eine Sicherungskopie erstellt (vgl. 4.5.3), um z.B. die Möglichkeit zu haben,
eine Datenbank in den aktuellen Zustand zurück zu versetzen, kann die Kopie
durch Betätigen des Menüpunktes Administration > Sicherungskopie
einspielen wieder eingespielt werden. Dies kann bspw. dann sinnvoll sein, wenn
größere Arbeiten an einer Teil-Datenbank (z.B. die Integration ungewöhnlicher
Sequenzen in das multiple Alignment mit manuellen Alignmentveränderungen)
durchgeführt wurden, nun aber wieder rückgängig gemacht werden sollen, (z.B.,
um möglicherweise bei dem Vorgang entstandene Artefakte aus dem multiplen
Alignment zu entfernen).
Durch das Wiedereinspielen der Sicherungskopie können sämtliche seit der
Erstellung der Kopie vorgenommenen Arbeitsschritte rückgängig gemacht werden.
Achtung: Alle seitdem vorgenommenen Änderungen gehen verloren. Der Arbeitsschritt ist
bei der tree-Industrie-Version ausschließlich tree-Administratoren
vorbehalten. Er sollte nur unter besonderen Umständen durchgeführt werden.
Unter Umständen kann eine strikte Sicherheitspolitik Ihres Unternehmens die
Durchführung dieses Schrittes (außer z.B. nach Hardware-bedingten
Datenverlusten) komplett untersagen.
Während des Einspielens der Sicherungskopie wird die ursprüngliche TeilDatenbank irreversibel gelöscht. Die entsprechenden tree-Dateien werden mit den
Datenbank-Kopien überschrieben. Der Vorgang unterscheidet sich grundlegend
vom Öffnen einer Teil-Datenbank (-Kopie). Beim Öffnen der Kopie wird die
physisch separierte Kopie eingelesen und nach der Arbeit beim Speichern
überschrieben. Die durch tree verwaltete Original-Datenbank bleibt völlig
unberührt. Nach dem Einspielen der Kopie hingegen ist die Original-Datenbank
nicht mehr vorhanden. Werden später Sequenzen über das Umgebungsfenster
importiert und automatisch der überschriebenen Teil-Datenbank zugeordnet,
werden sie in die eingespielte Kopie übernommen. Die Kopie ist für das Programm
nun die Original-Teil-Datenbank.
157
157
Um eine Sicherungskopie einzuspielen,
ƒ
melden Sie sich als tree-Administrator an (nur Industrie-Version),
ƒ
öffnen Sie die zu überspielende Teil-Datenbank
ƒ
und betätigen Sie den Menüpunkt Administration > Sicherungskopie
einspielen.
ƒ
Bestätigen Sie die nachfolgende Sicherheitsabfrage, um fortzufahren oder
drücken Sie Nein, um den Vorgang abzubrechen.
ƒ
Wählen Sie nun die korrekte Sicherungskopie aus. Bei der tree-IndustrieVersion wird überprüft, ob es sich bei der Kopie tatsächlich um eine Kopie der
zu überspielenden Datenbank handelt. Ist dies nicht der Fall, wird der Vorgang
abgebrochen. Bei der Universitäts-Version bleibt es dem Anwender
überlassen, die Konformität sicherzustellen. Sollte die Teil-Datenbank-Kopie
tree nicht bekannt sein (z.B., weil Sie eine Datenbank von einer anderen treeInstallation einspielen wollen) oder sollte tree externe Manipulationen an der
Kopie feststellen, werden Sie vom Programm gewarnt. Die Datenbankkopie
wird zwar geöffnet, die Original-Datenbank jedoch zunächst nicht
überschrieben.
Es wird dringend geraten, nach einer solchen Warnung den Vorgang nur in
begründeten Fällen fortzuführen!
Wurde während der Erstellung der Sicherungskopie eine Kopie der ReferenzDatenbank angelegt oder die Referenz-Datenbank der Kopie zu einem späteren
Zeitpunkt aktualisiert, haben Sie anschließend Gelegenheit, die ReferenzDatenbankkopie ebenfalls einzuspielen.
Wurde während des Vorgangs das Fehlen von ABI-Dateien registriert (ABIDateien sind mit der Datenbankkopie assoziiert, jedoch nicht im ABI-Ordner trees
vorhanden) wird tree Sie darüber informieren. Sie haben nun die Möglichkeit, die
beim Erstellen der Sicherungskopie möglicherweise gespeicherte ABI-Dateien
(vgl. 4.5.3). ebenfalls einzuspielen. Im dazu geöffneten Auswahl-Dialog geben Sie
das Verzeichnis (nicht etwa einzelne Dateien) an, in dem die ABI-Datei-Kopien
gespeichert wurden.
158
158
Abb. 62: Erfolgreiches Einspielen einer Teil-Datenbank-Sicherungskopie.
159
159
5.5
Probleme durch externe Manipulationen und unbekannte
Datenbanken
Die Vorschriften der Gamp/GxP/part11 ebenso wie die treeKonsistenzbedingungen erlauben keine Manipulation von tree-Daten außerhalb
des Programms tree. Es wurden deshalb verschiedene Sicherheits- und
Prüfalgorithmen implementiert, um solche Manipulationen zu erkennen.
Sollte tatsächlich eine externe Manipulation von tree-Daten erkannt werden, wird
diese automatisch und unwiderruflich protokolliert. Darüber hinaus wird die
entsprechende Teil-Datenbank für nicht tree-Administratoren gesperrt. In einem
solchen Fall kann sie nur durch einen tree-Administrator reaktiviert werden.
Ebenso muss die Verwendung von tree unbekannten tree-Dateien (die
beispielsweise von einem anderen tree-Anwender stammen könnten) zunächst
durch einen tree-Administrator autorisiert werden.
ƒ
Melden Sie sich dazu als tree-Administrator an und öffnen Sie die
entsprechende Teil-Datenbank.
ƒ
Sie werden nun über die die anstehende Authentifizierung informiert. Bitte
kontrollieren Sie die Teil-Datenbank auf Authentizität. Das genaue Vorgehen
wird von der Sicherheitspolitik Ihrer Firma abhängen. Unter Umständen kann
es notwendig sein, eine manipulierte tree-Datei durch eine ältere
Sicherungskopie zu ersetzen, wobei alle seit dem Erstellen der Kopie
vorgenommenen Arbeiten verloren gehen. Sie können jedoch anhand des
tree-Log-Files anschließend rekonstruiert werden.
ƒ
Um die aktuelle Teil-Datenbank wieder frei zu schalten, ist es lediglich
notwendig, sie zu speichern. Dabei wird der aktuelle Inhalt als korrekter und
glaubwürdiger Inhalt gesichert.
ƒ
Um das Programm zu verlassen, ohne die aktuelle (manipulierte oder
unbekannte) tree-Teil-Datenbank zu speichern, wird es temporär ermöglicht,
tree zu schließen, ohne zu speichern.
ƒ
Wählen Sie dazu im Menü Datei des tree-Hauptfensters den Menüpunkt
Beenden und bestätigen Sie die Sicherheitsabfrage.
160
160
ƒ
Die Teil-Datenbank kann nun auch weiterhin nicht von tree-Anwendern
geöffnet werden.
ƒ
Wenn Sie die manipulierte Datei (durch Speichern) authentifiziert haben,
überprüfen Sie sie anschließend durch erneutes Öffnen. Sollte die Meldung
"externe Manipulation" weiterhin angezeigt werden, führen Sie ein Update der
Referenz-Datenbank (vgl. 5.2.1) durch. Wird die Meldung auch danach
weiterhin ausgegeben, dürfte eine Manipulation Teil-Datenbank-spezifischer
nadicom-Dateien stattgefunden haben. Kontaktieren Sie in diesem Fall die
Firma nadicom.
Die Manipulation besonders sicherheitsrelevanter Dateien kann zur völligen
Sperrung des Programms führen. tree kann in diesem Fall nicht ohne eine
Mitwirkung der nadicom wieder in Betrieb genommen werden. Bitte wenden Sie
sich auch in einem solchen Fall an die nadicom GmbH.
161
161
6
Kurzanleitungen für die Erstellung von Teil-Datenbanken
und Sequenzzuordnungen
6.1
Kurzanleitung 1: „Sequenzen schnell zuordnen – vom
Import bis zur Phylogenie“
ƒ
Importieren Sie die Sequenz(en) im gewünschten Format, wenn möglich,
nutzen Sie hierzu die tree-Import-Funktionen des Umgebungsfensters. tree
ordnet die importierten Sequenzen nun automatisch der jeweils optionalen
Teil-Datenbank zu (vgl. 4.3.2).
ƒ
Überführen Sie die Sequenz anschließend in die jeweilige Teil-Datenbank (vgl.
4.3.3). Sie wird nun im Suchen und Finden-Dialog dargestellt. Hier können Sie
z.B. die Sequenz im Ergebnisfenster anklicken, um den Dialog
„Sequenzinformationen“ zu öffnen. Die Sequenz wird dabei darüber hinaus
bereits als aktuelle Sequenz festgelegt (vgl. 4.5.7).
ƒ
Sequenzen im ABI-Format sind häufig an den Rändern von minderer Qualität.
Nach dem Import sollten Sie deshalb diese Sequenzen im Alignmenteditor
darstellen, überprüfen und gegebenenfalls korrigieren (bspw. Entfernen der
Randbereiche).
ƒ
Der tree-Assistent bietet die einfachste Möglichkeit, ohne große Erfahrungen
im Umgang mit phylogenetischen Berechnungen, schnell belastbare
Stammbäume zu berechnen. Wählen Sie dazu die importierte Sequenz als
aktuelle Sequenz aus (4.4.1.1) und starten Sie den Assistenten (4.6.7).
ƒ
Der Assistent geleitet Sie nun durch die einzelnen Schritte der
phylogenetischen Berechnung.
ƒ
Alternativ zum Assistenten können Sie diese auch manuell ausführen.
Folgende Schritte sollten in dieser Reihenfolge ausgeführt werden:
ƒ
Alignen der importierten Sequenz (und visuelles Überprüfen des Alignments):
Selektieren Sie die importierte Sequenz als aktuelle Sequenz und starten Sie
das automatische Alignment (vgl. 4.6.2). Insbesondere, wenn mehrere
Sequenzen auf einmal importiert wurden, kann es effizienter sein, die
importierten Sequenzen auf einmal zu alignen und das Alignment
anschließend zu überprüfen. Für die Überprüfung stellen Sie die alignte
162
162
Sequenz sowie zum Vergleich einige ähnliche Referenzsequenzen (z.B.
mittels der Funktion Ähnliche Sequenzen markieren auswählen) im
Alignmentfenster dar (vgl. 4.5.10.4).
ƒ
Wählen Sie anschließend die Sequenzen aus, gegen die die importierte
Sequenz phylogenetisch verrechnet werden soll (vgl. 4.6.5.2). Achten Sie
darauf, dass alle ausgewählten Sequenzen aligned und von hinreichender
Länge sind.
ƒ
Starten Sie die phylogenetische Analyse (vgl. 4.6.5.3).
ƒ
Überprüfen Sie die Zuordnung der importierten Sequenz wie unter 4.6.5.6
beschrieben.
ƒ
Im Anschluss an die phylogenetische Analyse (ob mit Hilfe des treeAssistenten oder ohne diese) berechnen Sie eine Schnelle Identifizierung der
importierten Sequenz. Eine abschließende Beurteilung der phylogenetischen
Position ist erst mit Kenntnis der prozentualen Ähnlichkeitswerte möglich.
ƒ
Sollten die Ergebnisse nicht eindeutig sein oder größeren InterpretationsSpielraum lassen, kann es sinnvoll sein, weitere Phylogenien (variierende
Evolutionsmodelle, Filter, Algorithmen und Referenzsequenzen) zu berechnen.
163
163
6.2
Kurzanleitung 2: „Neue Teil-Datenbank anlegen“
ƒ
Um eine neue Teil-Datenbank anzulegen, wählen Sie (wie unter 4.5.2
beschrieben) die Taste (
) des Hauptfenster-Menüs oder wählen Sie den
Menüpunkt Datei > Neue Teil-DB anlegen. Folgen Sie den Anweisungen von
Abschnitt 4.5.2 und beachten Sie die Vorgaben zur Benennung der TeilDatenbank.
ƒ
Als nächsten Schritt werden Sie Sequenzen in die neue, jedoch leere und
somit nicht arbeitsfähige Teil-DB importieren wollen. tree verfügt nicht über die
Möglichkeit, ein eigenständiges multiples Alignment aus einer Vielzahl nichtalignter Sequenzen berechnen zu können. Sie können somit nicht-alignte
Sequenzen in einer neuen Teil-Datenbank zunächst nicht automatisch alignen.
Einfache Datensätze können natürlich von Hand aligned werden. Es wird
jedoch empfohlen, zunächst einen Satz bereits alignter Sequenzen zu
importieren. Im WWW gibt es eine große Anzahl an Programmen und Tools,
die die Berechnung eines multiplen Alignments mit eigenen Sequenzen
ermöglichen.
ƒ
Nach der Berechnung des multiplen Alignments speichern Sie die Sequenzen
in einem tree-lesbaren Format (z.B. fasta). Im WWW sind auch
Konvertierungsprogramme verfügbar (z.B. readseq). Selbstverständlich ist die
Berechnung eines multiplen Alignments nur eine von vielen Möglichkeiten,
multiple Alignments zu beziehen. Verschiedene Alignment-Datenbanken bieten
z.B. eine große Auswahl von kuratierten Alignments. Natürlich können Sie
auch Sequenzdaten aus tree in alignter Form exportieren und anschließend in
Ihre neue Datenbank importieren.
ƒ
Sollten Sie die Sequenzen in alignter Form importiert haben (oder das multiple
Alignment von Hand gestaltet haben), müssen Sie tree mitteilen, dass die
Sequenzen bereits (extern oder manuell) aligned wurden. Überprüfen Sie
zuvor das Alignment der Sequenzen im Alignmenteditor (vgl. 4.6.1).
ƒ
Markieren Sie anschließend alle alignten (aber nicht als aligned bekannten)
Sequenzen und wählen Sie den Menüpunkt Administration > Ausgewählte
Sequenzen als ‚aligned’ kennzeichnen. In der tree-Industrie-Version ist
dieser Schritt ausschließlich Administratoren möglich. Die Sequenzen werden
im Anschluss, z.B. im Übersichtsfenster, in roter („markiert“) oder schwarzer
164
164
(nicht „markiert“) Schriftfarbe dargestellt.
ƒ
Nachdem Sie eine Anzahl alignter Sequenzen erzeugt haben, können Sie
diese zukünftig als Referenzen verwenden, um weitere importierte Sequenzen
in das nun bestehende multiple Alignment zu integrieren. Dazu aktualisieren
Sie die Referenzdatenbank, wie unter 5.2.1 beschrieben, mit allen alignten
Sequenzen. Mögliche Warnungen, wenn weniger als 50 Sequenzen in die
Referenzdatenbank exportiert werden können (da noch keine 50 Sequenzen in
Ihrer Datenbank vorhanden sind) können Sie übergehen.
ƒ
Für verschiedene Analysen (Phylogenieberechnung, Schnelle Identifizierung)
werden Filter verwendet. Eine neue Datenbank ist erst voll funktionsfähig,
wenn ein Filter mit dem Namen „Alle_Positionen“ in der Datenbank vorhanden
ist.
ƒ
Berechnen Sie nun diesen Filter wie unter 4.6.9 angegeben. Als Parameter
verwenden Sie „Min“:0, „Max“:100, „Gaps wie Basen behandelt“. Nennen Sie
den Filter „Alle_Positionen“ (Groß- und Kleinschreibung beachten).
Die neue (Teil-) Datenbank ist nun vollständig einsatzfähig. Berechnen Sie als
Test zu Beginn einen beliebigen Stammbaum oder eine Schnelle Identifizierung.
165
165
6.3
Kurzanleitung 3: „Besonderheiten der tree-UniversitätsVersion“
Die Datenbanken der tree-Universitäts-Version beinhalten bei Auslieferung im
Vergleich zur Industrie-Version nur jeweils wenige repräsentative Sequenzen.
Diese Sequenzen bilden zwar das Grundgerüst eines fundierten multiplen
Alignments, sind jedoch als Referenzen für die Zuordnung neuer Sequenzen auf
Stammebene, partiell sogar auf Gattungsebene, aufgrund der geringen Anzahl
nicht ausreichend.
Nutzer der tree-Universitäts-Version müssen also weitere Referenzsequenzen,
beispielsweise von den großen DNA-Datenbanken GenBank oder EMBL,
beziehen und in die Teil-Datenbank integrieren. Diese Arbeitsschritte können
entweder vor oder während der einzelnen Analysen durchgeführt werden.
Ein praktisches Vorgehen ist das nachfolgend dargestellte, wobei natürlich auch
andere Strategien zu gleichwertigen Ergebnissen führen können.
ƒ
Führen Sie für die zu analysierende Sequenz zunächst einen
Datenbankabgleich gegen eine der großen internationalen DNA-Datenbanken
GenBank oder EMBL, beispielsweise mittels der Suchheuristiken BLAST oder
FASTA, durch.
ƒ
Die Datenbestände von EMBL und GenBank werden täglich abgeglichen. Es
spielt dementsprechend keine Rolle, welche dieser Datenbanken Sie
bevorzugen.
ƒ
Wählen Sie 5-10 "beste Treffer" aus den jeweiligen Suchergebnissen aus.
Achten Sie dabei darauf, nicht nur Sequenzen einer Art zu selektieren,
sondern streuen Sie Ihre Selektion.
ƒ
Sie können die Analyse mehrerer Sequenzen beschleunigen, indem Sie
beispielsweise zunächst alle Sequenzen gegen die Genbank analysieren, die
selektierten Sequenzen nach jedem Schritt zunächst im NCBI-Clipboard
166
166
zwischenspeichern und sie anschließend alle gemeinsam prozessieren.
ƒ
Speichern Sie die ausgewählten Ergebnisse, z.B. im GenBank oder EMBLFormat, und importieren Sie sie anschließend in tree.
ƒ
Sollten sich unter den ausgewählten Sequenzen solche befinden, die schon in
der tree-Teil-Datenbank enthalten sind (sei es, dass Sie bereits von nadicom
integriert wurden oder Sie sie schon bei anderer Gelegenheit importiert
haben), oder sollten die neu importierten Sequenzen über ihre gesamte Länge
identisch zu einer bereits vorhandenen Sequenz sein, wird tree Sie darüber
informieren.
Es ist sinnvoll, die neu importierten, doppelten Referenzsequenzen sofort aus der
Datenbank zu entfernen, noch bevor Sie mit den nächsten Schritten fortfahren. Ob
es sinnvoll ist, als identisch erkannte (neue) Referenzsequenzen zu entfernen,
hängt insbesondere davon ab, ob die neue und die bereits vorhandene identische
Sequenz zur gleichen Art gehören.
ƒ
Vor der Analyse Ihrer eigenen Sequenz(en) ist es notwendig, die als
Referenzsequenzen importierten Sequenzen zu alignen. Kontrollieren Sie das
Alignment, da aufgrund der relativ kleinen Teil-Datenbanken der treeUniversitäts-Version "ungewöhnliche" Bereiche suboptimal aligned sein
könnten. Falls manuelles Nachalignen tatsächlich einmal erforderlich werden
sollte, beachten Sie allerdings stets die entsprechenden Regeln. Bedenken
Sie, dass das Einfügen neuer Gaps dem Postulat von Insertionen/Deletionen
entspricht, welche i.a.R. mit deutlich geringerer Wahrscheinlichkeit auftreten
als Punktmutationen (Mismatches im Alignment). Im Zweifel vertrauen Sie den
Ergebnissen des automatischen Alignments.
ƒ
Nach dem Alignen der Referenzsequenzen ist es notwendig, die ReferenzDatenbank zu aktualisieren (Update der Referenz-DB, vgl. 5.2.1), um tree das
automatische Erkennen und Berücksichtigen dieser Sequenzen bei den
nachfolgenden Analyseschritten zu ermöglichen.
ƒ
Anschließend verfahren Sie wie in Kapitel 6.1 beschrieben.
167
167
Mit zunehmender phylogenetischer Tiefe der Teil-Datenbank wird das Importieren
weiterer Referenzsequenzen nicht mehr, bzw. nur noch in Ausnahmefällen
notwendig sein.
168
168
7
Wissenschaftlicher Hintergrund – Identifikation von
Mikroorganismen mit klassischen und sequenzbasierten
Methoden
7.1
Probleme der klassischen Mikrobiologie
Mikroorganismen haben in der Geschichte der Biologie für sehr lange Zeit eine
untergeordnete Rolle gespielt. Mit der Erfindung des Mikroskops, durch
Leuvenhook vor rund 300 Jahren ohnehin relativ spät entdeckt, dauerte es weitere
200 Jahre bis zum Ende des 19ten Jahrhunderts, dass mit der Entwicklung von
Kultivierungstechniken eine nähere Untersuchung individueller Taxa/Stämme
möglich wurde.
Aufgrund der geringen Größe und der im Vergleich zu Tieren oder Pflanzen sehr
einfachen Struktur war eine Klassifizierung der Mikroorganismen auf
morphologischer Basis nicht möglich (Pace, 1997; Amann et al., 1995). Techniken
wie die von Beijerinck und Winogradsky eingeführte Batch-Kultur erlaubten
erstmals, mit Hilfe selektiver, auf spezifische physiologische Gruppen
abgestimmter Medien eine Anreicherung in Reinkulturen oder definierten CoKulturen. Diese konnten dann für physiologische und biochemische Tests genutzt
werden, um die Mikroorganismen auf Basis dieser Ergebnisse zu klassifizieren.
Schon Winogradsky und Beijerinck waren sich allerdings bewusst, dass mit diesen
Techniken nur relativ wenige Mikroorganismen aus der Umwelt erfasst werden
konnten (Winogradsky, 1949). Allerdings wurde es erst mit der Verfügbarkeit
molekularer phylogenetischer Studien möglich abzuschätzen, wie gering der durch
die klassische Mikrobiologie erforschte Teil der mikrobiellen Diversität war. Es wird
angenommen, dass mehr als 99% der in der Umwelt vorkommenden
Mikroorganismen zurzeit nicht durch Standarttechniken kultivierbar sind (Amann et
al., 1995).
War die Erfassung der Diversität allein mit klassischen Methoden nur bedingt
möglich, so scheiterten die Versuche, die beschriebenen Organismen in ein
allgemeines phylogenetisches System einzuordnen, viel drastischer. Viele
physiologischen, biochemischen und morphologischen Eigenschaften, die der
169
169
klassischen Mikrobiologie als Basis der Charakterisierung („formalen
Beschreibung“) eines Stammes dienen, sind in der Domäne Bacteria weit
verbreitet und bieten deshalb keine Basis für ein taxonomisches System, das
evolutiv-verwandtschaftliche Beziehungen darstellt (Pace,1997). Wird andererseits
eine Eigenschaft von einer phylogenetischen Gruppe geteilt, existieren häufig
weitere Mitglieder der Gruppe, denen gerade die fragliche Eigenschaft fehlt.
(Woese, 1987). So trägt die Gruppe („representative genus“) der
Pseudomonaden, eine der beststudierten bakteriellen Gruppen überhaupt, ihren
Namen (vom griechischen pseudos und monas =falsche Einheit) auch nicht
zufällig. In ihr sind mindestens fünf separate bakterielle Gruppen vereinigt (nach
Woese, 1987).
Der Durchbruch gelang mit Einführung eines Konzepts, das molekulare
Sequenzen nutzt, um phylogenetische verwandtschaftliche Beziehungen zwischen
Organismen darzustellen (Zuckerkandl und Pauling, 1965). Hierzu werden die
durch zufällige Mutationen erworbenen Sequenzunterschiede verschiedener
Organismen in evolutionäre Distanzen und phylogenetische Beziehungen
übersetzt. Noch 1969 hatte Whittaker die Existenz von fünf „Königreiche des
Lebens“ postuliert: Pflanzen, Tiere und Pilze, Protozoa und Monera („Bacteria“).
Der größte Artenreichtum und das breiteste Spektrum an Diversität schienen,
repräsentiert durch vier der fünf Königreiche, eukaryotisch. Die Prokaryoten
bildeten in Stammbäumen lediglich einen anscheinend unbedeutenden Seitenast,
der insbesondere im Zusammenhang mit Krankheiten von Bedeutung zu sein
schien. Dieses Weltbild änderte sich, nachdem Fox und Woese das Prinzip der
auf komparativen Analysen der RNA der kleinen ribosomalen Untereinheiten
(16S/18S) basierenden Phylogenie vorstellten (Woese und Fox, 1977), und so
erstmals Prokaryoten und Eukaryoten direkt in einem gemeinsamen
phylogenetischen Baum vereinigen konnten, der darüber hinaus schon bald die
dichotome Aufteilung in Pro- und Eukaryoten (als taxonomische Einheiten) durch
das Konzept der drei unabhängigen, distinkten Domänen der Bakterien, Archaea
und Eukaryoten ersetzte (Woese).
Seit dieser Zeit hat die vergleichende Analyse molekularer Daten sich zum de
facto Standard für Identifikation und phylogenetische Zuordnung von
Mikroorganismen im Rahmen akademischer Studien entwickelt. Die hierzu bei
170
170
weitem am häufigsten analysierte „molekulare Uhr“ sind die Gene der 16S-/18S
ribosomalen RNA („16/18S-rDNA“).
7.2
16S/18S-rDNA basierte Analysen
Da Ribosomen evolutionär sehr alt und darüber hinaus in allen Entwicklungslinien
des Lebens universell verbreitet sind, ermöglicht die Analyse der ribosomalen
RNA, Vertreter aller drei Domänen des Lebens untereinander und miteinander zu
vergleichen. Wichtige Voraussetzung hierzu ist, dass homologe Abschnitte der
verschieden großen Sequenzen anhand von in allen Domänen konservierten
Bereichen einander zugeordnet werden können („Alignment“), was die
vergleichende Analyse überhaupt erst ermöglicht.
Für eine Korrelation von Sequenz und evolutiver Distanz ist es notwendig, dass
die während der Differenzierung akkumulierten Mutationen ungerichtet erfolgten.
Die 16S rRNA besteht aus rund 50 helikalen Windungen, die als voneinander
weitgehend unabhängig betrachtet werden können. Funktionell begründete,
gerichtete Veränderungen in manchen Bereichen beeinflussen die anderen
Bereiche nicht, die Beeinträchtigung der Analyse fällt geringer aus. Verschiedene
Bereiche ribosomalen RNA evolvieren mit unterschiedlichen Raten, ermöglichen
also eine Rekonstruktion verschiedener evolutiver Zeitspannen. Stark
konservierte, da funktionelle Bereiche ermöglichen einen Vergleich auf höheren
taxonomischen Ebenen, während variable Sequenzabschnitte eine
Unterscheidung auf Gattungs- oder Spezies-Ebene zulassen. Andere Abschnitte
decken die Zwischenbereiche ab.
Waren zunächst die 16sRNA-Gene von Reinkulturen analysiert und verglichen
worden, konnte das Konzept bald auch auf Umweltproben übertragen werden
(Olsen et al, 1986). Wurden zunächst Zufallsfragmente aus der gesamten UmweltDNA mittels Lambda-Phagen kloniert, was anschließend ein aufwendiges
Screening mit 16S rRNA-Sonden erforderte, bevor die entsprechenden Inserts
sequenziert und analysiert werden konnten (Schmidt et al., 1991), ermöglichte die
Weiterentwicklung der PCR-Technik bald, gezielt Abschnitte von 16S rRNA171
171
Genen mit Hilfe universeller oder spezifischer Primer aus der Umwelt zu
amplifizieren und anschließend zu klonieren. Giovannoni et al. (1990) wandten
diese heute übliche Methode als erste an.
1987 beschrieb Woese die Domäne der Bakterien noch als aus zwölf distinkten
phylogenetischen Linien bestehend (Woese, 1987). Diese natürlichen
phylogenetischen Gruppen wurden in der Folgezeit als Königreiche, Divisionen
oder Phyla bezeichnet. Als Division wird eine Gruppe von Organismen oder
Sequenzen bezeichnet, die reproduzierbar monophyletisch und von allen anderen
Divisionen klar abgegrenzt ist. In den folgenden Jahren stieg die Anzahl bekannter
bakterieller Divisionen durch eine Vielzahl molekularer Umweltanalysen auf mehr
als das Dreifache (Hugenholtz et. al. 1998). Rund ein Drittel aller bekannten
bakteriellen Divisionen sind dabei zurzeit lediglich durch Gensequenzen
charakterisiert. So konnten Pace und Mitarbeiter 1997 in einer breit angelegten
kultivierungsunabhängigen Studie einer heißen Quelle des Yellowstone National
Park gleich 12 mögliche neue Divisionen vorstellen (Hugenholz et al., 1997).
172
172
8
Übersicht über das Hauptfenster-Menü, Referenzen zu den
detaillierten Beschreibungen
Datei
Sequenzen importieren
ABI-Dateien importieren
Datenbank öffnen
Datenbank speichern
Sicherungskopie speichern unter
Neue Datenbank anlegen
Beenden
4.5.5
4.5.5
4.5.1
4.5.4
4.5.3
4.5.2
4.5.6
Bearbeiten
Suchen und Finden
Datenbankeintrag editieren
Datenbankeintrag kopieren
Auswahl leeren
Auswahl revertieren
Nicht-alignte Sequenzen auswählen
Nicht-alignte Sequenzen aus Auswahl entfernen
Alle ausgewählten Sequenzen/Filter entfernen
Ähnliche Sequenzen automatisch auswählen
Aktuelle Sequenz revers/komplementieren
Aktuelle Sequenz auf Identität mit anderen Sequenzen testen
4.5.7
4.5.8
4.5.10.2
4.5.10.1
4.5.10.1
4.5.10.1
3.4.10.1
4.5.10.3
4.5.10.4
4.5.10.5
4.5.10.6
Alignment
Aktuelle Sequenz alignen
Alle ausgewählten Sequenzen alignen
Manuelle Änderungen des Alignments übernehmen
PDF erzeugen
Alignmentausschnitt drucken
Sicherheitsmodus
Align-Modus
Edit-Modus
Anfangsregion der aktuellen Sequenz entfernen
Endregion der aktuellen Sequenz entfernen
Dargestellte Sequenzen zur Auswahl hinzufügen
Dargestellte Sequenzen aus Auswahl entfernen
Multiples Alignment zweier Sequenzen vergleichen
Paarweises Alignment zweier Sequenzen vergleichen
4.6.2
4.6.2.1
4.6.1.2
4.6.3.1
4.6.3.2
4.6.1.3
4.6.1.4
4.6.1.5
4.6.1.6
4.6.1.6
4.6.3.3
4.6.3.3
4.6.3.4
4.6.3.5
Phylogenie
NJ-Tree (berechnen)
UPGMA-Tree (berechnen)
ML-Tree (berechnen)
Distanz-Matrix berechnen
Schnelle Identifizierung berechnen
Schnelle Identifizierung löschen
4.6.5
4.6.5
4.6.5
4.6.8
4.6.14
4.6.14.8
173
173
Neuen Filter (für Auswahl) berechnen
PDF erzeugen
Bäume drucken
Auswahl-Modus
Modus: Namen ändern
Modus: Äste drehen
Modus: Wurzel definieren
Modus: Gruppier-Modus
Modus: Alle Gruppen komprimieren
Modus: Alle Gruppen expandieren
Baumadministration
4.6.9
4.6.6.2
4.6.6.3
4.6.4.2
4.6.4.3
4.6.4.5
4.6.4.4
4.6.4.6
4.6.4.7
4.6.4.7
4.6.6.1
Export
FASTA-Format
FASTA-Format ohne Gaps
Genbank-Format
Genbank-Format ohne Gaps
EMBL-Format
EMBL-Format ohne Gaps
4.6.10.2
4.6.10.2
4.6.10.2
4.6.10.2
4.6.10.2
4.6.10.2
Einstellungen
(Industrie-Version): Passwort ändern
Infofenster Zeilenumbruch
Alignment: Name statt Artname anzeigen
Alignment: Elektropherogramme stets aktualisieren
Alignment: Owner-Warnung bei Moduswechsel anzeigen
Bäume: Astbeschriftung wählen
4.2.2
4.4.4
4.4.3.4
4.6.1.1
4.6.1.4
4.6.1.4
4.6.4.3
Administration
Sicherungskopie speichern unter
Sicherungskopie einspielen
Nutzerkonten verwalten (Industrieversion)
Datenbank-Update
Referenz-Datenbank-Update
Ausgewählte Sequenzen als aligned kennzeichnen
Alignment: Gemeinsame Gaps entfernen
Alignment: neue Position einfügen
4.5.3
5.4
5.1
5.3
5.2.1
6.2
4.6.1.7
4.6.1.7
Übersichtsfenster: Importierte Sequenzen nach Datum sortieren
174
174
INDEX
A
D
ABI-Dateien 55
ABI-Format 25
Accession-Nummer 40
Administration 143
Administrator 32, 143
Rechte 145
Taste "Admin" 63
aktuelle Sequenz Siehe Sequenz
Alignen (Integration in das multiple Alignment) 83
Alignment 71
abgesicherter Modus 76
Alignment-Editor 71
Alignmentposition, absolute 75
Alignmentposition, relative 75
Align-Modus 76
darstellen 72
drucken 88
Edit-Modus 78
Elektropherogramme stets aktualisieren 78
exportieren Siehe Sequenzen exportieren
Hinzufügen von Positionen/Gaps 82
Kontrolle 85
Korrekturen, automatisch 74
Korrekturen, manuell 73
Löschen von Positionen 82
multiples 89, 139
Name statt Artname anzeigen 72
paarweises 139
paarweises 90
PDF erzeugen 86
Vergleich zweier Sequenzen (2S) 89
Alignment-Editor
Modi 74
Alignmentfenster 72
Änderungen speichern 53
Anmelden 17
Arbeitsfenster 38, 71
Assistent 119
Äste drehen 100
Audit Trail Siehe Log-File
Autorisierungs-Dialog 32
Datenbank Siehe auch Teil-Datenbank(en)
Datenbank-Update 152
Datenbankverwaltung 20
Datenfeld
Administration 63
Anlegen 63
kopieren 64
löschen 64
umbenennen 64
Datenfeldname 46
Datenfeldname "ACCESSION" 46
Datenfeldname "SOURCE" 46
Datenfeldname "TYPE STRAIN" 46
Datensatz
Ändern des Namens 62
Auswahl von Datensätzen 40
Datensatz editieren 60
editieren 59
kopieren 65
Dialog „Baum-Administration“ 115
Dialog „Importierte Sequenzen“ 28
Dialog „Sequenzinformationen übernehmen“ 112
Dialog „Sequenzinformationen“ 45, 61
Dialoge
Dialog "Type Strain Informationen 46
Distanzmatrix 121
E
Edit-Dialog Siehe Dialog "Sequenzinformationen"
Elektropherogramm 78
EMBL-Format 24, 55
Evolutionsmodell 109, 163
Export, siehe auch Sequenz, Export 127
Exportfenster 125
Exporttabelle 125, Siehe auch Sequenz, Export
F
FASTA-Format 24
Fehl-Logs 145
Filter
berechnen 122
kopieren 65
löschen 66
Freischaltung 9
Freischaltungscode 9
Funktionen
"Aktuelle" 42
"Alle" 42
"Markierte" 42
“Gruppieren“ 42
B
Baum Siehe Phylogenie
Bearbeiten Siehe Hauptfenster
Beenden des Programmes 56
Benutzeranmeldung 12, 17
Passwort eingeben 17
Benutzername 17
Benutzerpolitik 14
Berechnung von Stammbäumen Siehe Phylogenie
BLAST 67
BLAST-Resultate anzeigen 68
C
Cut-Taste 80
175
175
Max Konsensus 123
Maximum Likelihood-Methode 108
Min Konsensus 123
ML-Tree (berechnen) 106
Modell & Filter Dialog 109
multiples Alignment Siehe Alignment
G
Gap Siehe Alignment, Hinzufügen von
Positionen/Gaps
Gaps 76, 82
Gaps entfernen 128
Genbank-Format 24, 53
Gruppen (in Bäumen) definieren und löschen 100
Gruppen (in Bäumen) öffnen und schließen 101
Gruppier-Modus
Hintergrundfarben ändern 101
Name und Beschriftung als Label darstellen 103
G-Symbol 40
N
Namen ändern Siehe Datensatz
Namenskonventionen 25, 62
Neighbor Joining 108
nicht-alignte Sequenzen 84
Nutzerkonto
anlegen 143
löschen 143
Nutzerverwaltung 143
H
Hauptfenster 20, 31, 49
Menü "Bearbeiten" 65
Übersicht 37
Hinzufügen zu 89
Historie 21
O
openDB 27
Ordner
Ordner "importiert" 44
schnelles Öffnen und Schließen 42
Ordner Keine Zuordnung 25
Outgroup 68, 107
Owner-Prinzip 32
Owner einer Sequenz 32
I
ID Siehe Sequenz, identische
Identität mit anderen Sequenzen testen 70
Import Siehe auch Sequenz importieren
Inbetriebnahme 7
Industrie-Version Siehe tree-Versionen
Infofenster 45
Zeilenumbruch 46
Installation 7
I-Symbol 47
P
Passwort 18
Passwortänderung 18
PDF Siehe auch Phylogenie
Passwortschutz 87, 117, 132
Phylip-Format 122
Phylogenie 91
Astbeschriftung ändern 95
Baum als PDF exportieren 116
Baum-Administration 115
Bäume darstellen 91
Bäume drucken 117
Bäume ordnen" 100
Benennung phylogenetischer Bäume 111
Berechnung phylogenetischer Bäume 106
Distanzmatrizen berechnen 121
Filter 109
Filter berechnen 122
Filterbeschreibung 124
graphische Aufarbeitung des Staummbaums
100
Gruppier-Modus 100
Modus "Alle Gruppen komprimieren bzw.
expandieren" 105
Modus "Äste drehen" 100
Modus "Wurzel definieren" 98
Newick-Format 118
Sequenzauswahl 106
Sequenzen im Baum de/markieren 95
Topologie des Baumes 100
Zoomen 93
Phylogenie-Fenster 91
K
Knopfleiste 21, 39
Knopf "Löschen" 29
Kontrollkästchen 22
Kurzanleitungen
Anlegen neuer Teil-Datenbanken 164
Besonderheiten der tree-Universitäts-Version
166
Erstellung von Teil-Datenbanken 162
Sequenzzuordnungen 162
L
Label 103
Link „ID“ 28
Lizenzvereinbarung 7
Log-Fenster 130
Log-File 130
als PDF exportieren 132
drucken 133
Öffnen gespeicherter Log-Files 133
Sicherungskopie anlegen 133
M
Manuelle Alignmentkorrekturen Siehe Alignment,
Korrekturen
Maßstabänderung 105
176
176
Problembehandlung 160
externe Manipulation 160
unbekannte Datenbanken 160
Programm beenden 30, 56
Programm starten 20
Protokolltext 132
importierte Sequenzen nach Datum sortieren 44
Informationen übernehmen 111
kopieren 65
löschen 29, 66
manipulieren 59
markieren 31
Markieren von Sequenzen 22
mit ID-Referenz exportieren 149
revers-komplementieren 69
Sequenzen suchen 22, 23
übergeben 27
Sequenzfeld 72
Sicherungskopie 157
erstellen 50
Speichern 53
Sperrung 18, 145
Stammbaum Siehe Phylogenie, Siehe Phylogenie
Suchen und Finden 57
Suche negieren 59
Suchen kombinieren 57
Q
QI 135
Berechnung und Darstellung 135
BLAST-Score 140
drucken 141
Ergebnis als PDF exportieren 141
ID mult 139
ID pair 139
Interpretation 138
löschen 142
Referenz-Datenbank 137
QI-Fenster 135
QI-Symbol 47
QuickIdent Siehe QI
T
Teil-Datenbanken
Anlegen einer neuen tree-Teil-Datenbank 49
öffnen 27, 49
Sicherungskopien anlegen 50
speichern 53
tree-Versionen 35, 36
T-Symbol 40
Type Strain 46
R
Referenz-Datenbank 34, 35, 51
allgemeine Referenz-Datenbank 36
nadicom-Referenz-Datenbank 35
Problembehandlung 150
Update 154
updaten 147
revers-komplementieren 25
U
S
Übersichtsfenster 39
Umgebungsfenster 17, 20
tree-Historie 20
Update 152, Siehe Referenz-Datenbank
UPGMA 108
Username 144
Schnelle Identifizierung Siehe QI
Sequenz
ähnliche Sequenzen automatisch auswählen 67
aktuelle Sequenz 31
alignen 83
ausgewählte Sequenz als aligned kennzeichnen
164
Auswahl 31
Darstellung importierter Sequenzen 44
doppelte Sequenznamen 152
Entfernen von Sequenzrändern 80
Export 125
Formate 127
identische Sequenz 70
importieren 53
V
Versionen Siehe tree-Versionen
Verzeichnisbaum 22
W
Wurzeln Siehe Phylogenie: Modus definieren
177
177
Was this manual useful for you? yes no
Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Download PDF

advertisement