SIRIUS

Massenspektrometriesoftware From Wikipedia, the free encyclopedia

SIRIUS (Sum formula Identification by Ranking Isotope patterns Using mass Spectrometry) ist eine Java-basierte Open-Source-Software für die Identifizierung kleiner Moleküle aus Fragmentierungs-Massenspektrometriedaten ohne die Verwendung von Spektralbibliotheken. Sie kombiniert die Analyse von Isotopenmustern in MS1-Spektren mit der Analyse von Fragmentierungsmustern in MS2-Spektren. SIRIUS umfasst die Methoden CSI:FingerID, CANOPUS, COSMIC, ZODIAC und MSNovelist.

Schnelle Fakten Basisdaten ...
SIRIUS
Basisdaten
Entwickler Lehrstuhl Bioinformatik Uni Jena, Bright Giant GmbH
Erscheinungsjahr 2009
Aktuelle Version 6.3.3[1]
(15. Oktober 2025)
Betriebssystem Linux, Windows, macOS
Programmier­sprache Java
Kategorie Massenspektrometrie,
Strukturaufklärung,
Chemie,
Bioinformatik
Lizenz GNU Affero General Public License v3.0 für Klient,
Web-Services frei für nichtkommerzielle Nutzung,
kommerzielles Abonnement angeboten durch Bright Giant GmbH
https://bio.informatik.uni-jena.de/software/sirius/
Schließen

Entwicklungsgeschichte

SIRIUS wurde 2009 von Sebastian Böcker an der Friedrich-Schiller-Universität Jena entwickelt und seit 2019 gemeinsam mit der Bright Giant GmbH weiterentwickelt. Die Entwicklung begann als Software zur Identifizierung der Summenformel durch Zerlegung von hochaufgelösten Isotopenmustern (auch MS1-Daten genannt).[2]

Im Jahr 2008 führten die Entwickler das Konzept der Fragmentierungsbäume[3] zur Identifizierung von Molekülformeln auf der Grundlage von Fragmentierungs-Massenspektrometrie-Daten, auch Tandem-MS- oder MS2-Daten genannt, ein. Bis zu dem Zeitpunkt wurden kleine Moleküle durch Suche in einer Referenzspektren-Datenbank identifiziert. Für unbekannte Moleküle ist die Identifizierung der Summenformel wichtig.[3] In den Jahren 2011/2012 entwickelte die Gruppe Fragmentierungsbäume als Werkzeug zur Strukturaufklärung durch automatischen Vergleich dieser Fragmentierungsbäume.[4][5] Die Ähnlichkeit der Fragmentierungsmuster korreliert stark mit der chemischen Ähnlichkeit der Moleküle. Daher hilft der Vergleich des Fragmentierungsbaums eines unbekannten Moleküls mit einer Reihe bekannter Moleküle bei der Strukturaufklärung. Fragmentierungsbäume wurden mit SIRIUS 2 eingeführt.[4]

Ebenfalls 2012 führte die Gruppe von Juho Rousu an der Universität Helsinki, Finnland, eine maschinelle Lernmethode zur Vorhersage molekularer Eigenschaften aus Tandem-MS-Daten ein.[6] Dieses Konzept wurde 2015 mit dem Konzept der Fragmentierungsbäume kombiniert. Die resultierende Methode heißt CSI:FingerID[7] und wurde in SIRIUS 3 eingeführt. Der Fragmentierungsbaum wird verwendet, um durch maschinelles Lernen einen molekularen Fingerabdruck des unbekannten Moleküls vorherzusagen, der dann für die Suche in einer Molekülstrukturdatenbank wie PubChem verwendet wird. Molekülstrukturdatenbanken sind um Größenordnungen umfangreicher als Referenzspektren-Datenbanken.

Mit SIRIUS 3 wurde auch eine grafische Benutzeroberfläche eingeführt.

Im Jahr 2020 wurde in Zusammenarbeit mit der Gruppe von Pieter C. Dorrestein an der UC San Diego, USA, die Identifizierung molekularer Formeln für vollständige biologische Datensätze verbessert. Auf der Grundlage eines Netzwerks von Derivaten, abgeleitet aus dem gesamten Datensatz, wurde die Rangfolge der Kandidatenformeln verbessert[8]. Diese Methode heißt ZODIAC und wurde in SIRIUS 4 integriert.[9]

Ebenfalls im Jahr 2020 wurde in Zusammenarbeit mit den Gruppen von Rousu und Dorrestein CANOPUS zur Annotation von Verbindungsklassen in SIRIUS 4 eingeführt.[10]

Im Jahr 2022 wurde die Strukturidentifikation mittels CSI:FingerID um COSMIC erweitert, eine Methode, die es dem Benutzer ermöglicht, die Zuverlässigkeit der Identifikation zu bestimmen.[11]

Im Jahr 2024 wurde mit SIRIUS 6 die de-novo-Generierung von Strukturkandidaten durch MSNovelist eingeführt.[12]

Daten

SIRIUS verwendet Daten aus der Flüssigchromatographie-Tandem-Massenspektrometrie (LC-MS/MS). Als Eingabe sind hochauflösende MS1- und MS2-Daten mit hoher Massengenauigkeit erforderlich. LC ist für SIRIUS nicht zwingend erforderlich, wird aber häufig benötigt, um einzelne Verbindungen in komplexen Proben zu trennen.

  • MS1-Daten beziehen sich hauptsächlich auf das Isotopenmuster der Verbindung. Aufgrund der natürlichen Isotopenverteilung der Elemente entsprechen mehrere Peaks im Massenspektrum der gleichen Art von Probenmolekül und spiegeln dessen Isotopenmuster wider.[2]
  • MS2-Daten beziehen sich auf das Fragmentierungsmuster der Verbindung. MS2 wird auch als Tandem-Massenspektrometrie oder MS/MS bezeichnet. Das statistische Modell von SIRIUS und das maschinelle Lernmodell von CSI:FingerID wurden auf MS2-Spektren trainiert, die durch kollisionsinduzierte Dissoziation (CID) erzeugt wurden, wie sie üblicherweise bei LC-MS/MS-Experimenten verwendet wird.[13]

SIRIUS erwartet sowohl MS1- als auch MS2-Spektren als Eingabe. Das Weglassen der MS1-Daten ist möglich. Die Analyse auf ausschließlich MS2-Daten ist jedoch zeitaufwändiger und kann zu schlechteren Ergebnissen führen.

SIRIUS und CSI:FingerID wurden auf einer Vielzahl von Daten trainiert, unter anderem von verschiedenen Instrumententypen. Bestimmte Eigenschaften der Massenspektren sind wichtig für die erfolgreiche Verarbeitung der Daten:

  • Die Massenabweichung der Eingangsspektren sollte innerhalb von 20 ppm liegen. Massenspektrometriegeräte wie TOF, Orbitrap und FT-ICR liefern in der Regel Daten mit hoher Massengenauigkeit, ebenso gekoppelte Geräte wie Q-TOF, IT-TOF oder IT-Orbitrap. Spektren, die mit einem Quadrupol oder einer linearen Ionenfalle gemessen wurden, bieten nicht die erforderliche Genauigkeit für die Datenanalyse mit SIRIUS.
  • Es ist nicht möglich, aus einem MS2-Spektrum, das fast keine Peaks enthält, die Struktur oder gar die Summenformel abzuleiten. Eine vorherige Rauschfilterung der Spektren ist weder notwendig noch vorteilhaft. SIRIUS berücksichtigt bis zu 60 Peaks im Fragmentierungsspektrum und entscheidet selbst, welche dieser Peaks als Rauschen angesehen werden.
  • SIRIUS enthält keine Routinen für das Peak-Picking aus Profil-Mode-Spektren. msConvert in ProteoWizard kann für die Konvertierung verwendet werden. Darüber hinaus gibt es verschiedene Werkzeuge, die auf die Vorverarbeitung spezialisiert sind, wie OpenMS, MZmine oder XCMS.

Verschiedene gängige MS-Dateiformate wie .csv-, .ms- oder .mgf-Dateien können in SIRIUS importiert werden. SIRIUS kann komplette LC-MS-Läufe (.mzML) oder einzelne Verbindungen importieren. Derzeit kann SIRIUS nur einfach geladene Verbindungen verarbeiten.[13]

Funktionalitäten

SIRIUS identifiziert kleine Moleküle in zwei Schritten:[13]

  • Zunächst wird die Summenformel des Moleküls bestimmt.
  • Dann wird ein molekularer Fingerabdruck vorhergesagt, der mit einer Strukturdatenbank verglichen wird, um den wahrscheinlichsten Kandidaten zu identifizieren.

Die folgenden Algorithmen sind in SIRIUS implementiert:

SIRIUS: Bestimmung der Summenformel

SIRIUS ist der Name der Software, aber (aus historischen Gründen) auch der Name für die Bestimmung der Summenformel. Die Summenformel bezieht sich auf die elementare Zusammensetzung des Moleküls. Die Masse eines Moleküls reicht allein nicht aus, um die richtige Summenformel zu bestimmen.[13] Selbst bei sehr hoher Massengenauigkeit können viele Summenformeln, die im Massenspektrometer gemessene Masse erklären, insbesondere in höheren Massenbereichen. In SIRIUS wird die Summenformel durch Isotopenmusteranalyse der MS1-Daten und Fragmentierungsbaumberechnung anhand der MS2-Daten bestimmt. Der Score eines Summenformelkandidaten ist eine Kombination aus Isotopenmusterscore und Fragmentierungsbaumscore.

Um die Summenformel zu bestimmen, berücksichtigt SIRIUS alle möglichen Summenformeln für eine Reihe von Elementen.

Berechnung des Fragmentierungsbaums

Ein Fragmentierungsbaum ist eine Darstellung des Fragmentierungsprozesses, ähnlich zu den von Experten erstellten Fragmentierungsdiagrammen. Der Fragmentierungsbaum annotiert das MS2-Spektrum, indem für jeden Fragmentpeak eine Summenformel angegeben wird. Peaks, die keine Beschriftung erhalten, werden als Rauschpeaks betrachtet. Der Fragmentierungsbaum sagt auch die Fragmentierungsreaktionen (sogenannte Verluste) voraus, die zu den Fragment-Peaks führen. Fragmentierungsbäume sind ein wertvolles Werkzeug, um Informationen über die Fragmentierung abzuleiten, sie stellen jedoch keine genaue Darstellung des tatsächlichen Fragmentierungsprozesses dar.[4]

Um die Summenformel eines unbekannten Moleküls zu bestimmen, wird für jeden Summenformelkandidaten ein eigener Fragmentierungsbaum berechnet. Mit anderen Worten versucht die Methode, den Fragmentierungsprozess zu rekonstruieren, der unter Annahme dieser Summenformel zu diesem MS2-Spektrum geführt hat. Auf diese Weise können die verschiedenen Hypothesen, dass ein Kandidat der richtigen Summenformel entspricht, verglichen werden. Der am besten bewertete Fragmentierungsbaum (d. h. der Fragmentierungsprozess, der das Spektrum am besten erklärt) entspricht der wahrscheinlichsten Erklärung der Summenformel.

ZODIAC: Verbesserte Bestimmung der Summenformel

ZODIAC verbessert das Ranking der Summenformelkandidaten.[8] Organismen produzieren verwandte Metaboliten, die aus mehreren, aber begrenzten Biosynthesewegen stammen. In einer biologischen Probe oder einer Probe aus einer anderen Gruppe von Derivaten spiegelt sich die Beziehung zwischen den Metaboliten in ihrer strukturellen Ähnlichkeit wider. Diese Ähnlichkeiten spiegeln sich wiederum in gemeinsamen Fragmenten und Verlusten zwischen den Fragmentierungsbäumen wider und können zur Verbesserung der Identifizierung der Molekülformeln der einzelnen Moleküle verwendet werden.

ZODIAC verwendet die X-besten Summenformelkandidaten für jedes Molekül aus SIRIUS, um ein Netzwerk anhand von Ähnlichkeiten zu erstellen, und verwendet Bayessche Statistik, um die Kandidaten neu zu ordnen. Die A-priori-Wahrscheinlichkeiten werden aus der Ähnlichkeit der Fragmentierungsbäume abgeleitet. Die Suche nach einer optimalen Lösung für das resultierende Berechnungsproblem ist NP-schwer, daher wird Gibbs-Sampling verwendet.

ZODIAC steht für ZODIAC: Organic compound Determination by Integral Assignment of elemental Compositions.

CSI:FingerID: Suche in der Strukturdatenbank

CSI:FingerID identifiziert die Struktur eines Moleküls durch Vorhersage seines molekularen Fingerabdrucks und verwendet diesen Fingerabdruck für die Suche in einer Molekülstrukturdatenbank.[7]

Molekularer Fingerabdruck

Ein molekularer Fingerabdruck ist ein binärer Vektor, bei dem jede Position einer bestimmten molekularen Eigenschaft entspricht. In dieser Darstellung kann eine bestimmte Position X das Vorhandensein oder Fehlen einer bestimmten Substruktur kodieren, wobei „1“ das Vorhandensein und „0“ das Fehlen anzeigt. Es gibt verschiedene Arten von molekularen Fingerabdrücken, darunter PubChem CACTVS Fingerprints, Klekota-Roth Fingerprints[14], MACCS Fingerprints und Extended-Connectivity Fingerprints (ECFP).[15] Ein molekularer Fingerabdruck kann deterministisch aus einer gegebenen Molekülstruktur berechnet werden. Unterschiedliche Molekülstrukturen können den gleichen molekularen Fingerabdruck ergeben.

Vorhersage von molekularen Fingerabdrücken

CSI:FingerID sagt einen probabilistischen Fingerabdruck mit einer Vielzahl von molekularen Eigenschaften aus mehreren der oben genannten Fingerabdruckarten voraus. Der Fingerabdruck wird aus dem gegebenen Spektrum und dem dazugehörigen Fragmentierungsbaum mithilfe von Deep-Kernel-Learning vorhergesagt[16][7], einer Kombination aus Kernel-Methoden und Deep Neural Networks. Dabei wird nicht nur die am besten bewertete Summenformel, sondern mehrere Kandidaten berücksichtigt.

Vergleich der molekularen Fingerabdrücke

Die Suche in einer Molekülstrukturdatenbank erfordert eine Metrik zum Vergleich der molekularen Fingerabdrücke. Die Tanimoto-Ähnlichkeit (Jaccard-Index) wird hierfür häufig verwendet. Ein Ähnlichkeitswert von 1 bedeutet identische Fingerabdrücke. Ein Ähnlichkeitswert von 0 weist darauf hin, dass die Strukturen keine molekularen Eigenschaften gemeinsam haben. Der berechnete Ähnlichkeitswert hängt von der Art des Fingerabdrucks ab.

CSI:FingerID verwendet eine logarithmische A-posteriori-Wahrscheinlichkeit, um die Strukturkandidaten in eine Rangfolge zu bringen, wobei die Punktzahlen als negative Zahlen dargestellt werden und somit Null das Optimum darstellt.[17] Diese Bewertungsfunktion resultiert in einer höheren Anzahl richtiger Identifizierungen.[7] Tanimoto-Ähnlichkeiten werden der Vollständigkeit halber ebenfalls angegeben.

COSMIC: Konfidenz der Identifizierung

COSMIC bewertet die Konfidenz der von CSI:FingerID identifizierten Molekülstrukturen.[11] Die Idee ist ähnlich zu False Discovery Rates: Alle Moleküle eines großen Datensatzes werden mit CSI:FingerID analysiert. Die jeweils beste Struktur für jedes Molekül wird von COSMIC bewertet und die vertrauenswürdigsten Identifikationen können dann für die weitere Analyse ausgewählt werden. Anders als ZODIAC nimmt COSMIC keine Neuordnung der Ranglisten vor. COSMIC verwirft auch keine der Identifizierungen.

Der von COSMIC verwendete Konfidenzwert kombiniert E-Wert-Schätzung mit einer linearen Support-Vektor-Maschine (SVM) mit erzwungener Direktionalität. Die Kalibrierung der CSI:FingerID-Scores erfolgt anhand von E-Wert-Schätzungen.[18] Die Generierung von Decoys für kleine Molekülstrukturen ist eine nicht triviale Aufgabe, weshalb die Kandidaten in PubChem hier als Ersatz für Decoys dienen.

Die Score-Verteilung wird als Mischverteilung von Logarithmischen Normalverteilungen modelliert. Die SVM wird eingesetzt, um zu klassifizieren, ob ein Treffer korrekt ist. Das Lernen wird auf eine lineare SVM beschränkt, um das Risiko einer Überanpassung zu verringern. Die Richtungsabhängigkeit der Merkmale wird erzwungen. Dies bedeutet, dass im Voraus entschieden werden muss, ob hohe oder niedrige Werte eines Merkmals das Vertrauen in eine Identifizierung erhöhen sollen. So sollte beispielsweise ein hoher CSI:FingerID-Score eines Treffers das Vertrauen in die Richtigkeit des Treffers erhöhen, aber niemals verringern. Bei einigen Merkmalen müssen mindestens zwei Kandidaten für den Vergleich vorhanden sein, und es werden separate SVMs für einzelne Instanzen trainiert. Die Entscheidungswerte der SVM werden mit Hilfe der Platt-Skalierung auf A-posteriori-Wahrscheinlichkeitsschätzungen abgebildet.[19] Dieser umfassende Ansatz gewährleistet eine robuste und nuancierte Bewertung der Konfidenz in Molekülidentifizierungen.[11]

CANOPUS: Vorhersage von Verbindungsklassen

CANOPUS steht für Class Assignment and Ontology Prediction Using mass Spectrometry.[10] Es sagt Verbindungsklassen auf der Grundlage des molekularen Fingerabdrucks voraus, der von CSI:FingerID vorhergesagt wurde. Dieser Ansatz ist vollkommen datenbankfrei, d. h. er ist nicht einmal auf Moleküle beschränkt, die in Strukturdatenbanken enthalten sind.

CANOPUS verwendet ein Deep Neural Network (DNN), um 2.497 Verbindungsklassen vorherzusagen. Das DNN wurde auf 4,1 Millionen Molekülstrukturen und deren von ClassyFire zugewiesenen Verbindungsklassen trainiert. Für das Training wurden keine MS/MS-Daten verwendet, stattdessen wurden simulierte „realistische“ probabilistische Fingerabdrücke der Trainingsstrukturen verwendet. Das DNN sagt alle Verbindungsklassen gleichzeitig voraus.

Für vollständige biologische Datensätze bietet CANOPUS einen umfassenden Überblick über die in der Probe vorhandenen Verbindungsklassen und ermöglicht Vergleiche zwischen verschiedenen Kohorten auf Ebene der Verbindungsklassen.

MSNovelist: De novo-Strukturvorhersage

MSNovelist ist eine computergestützte Methode zur de novo-Generierung von Strukturen kleiner Moleküle[12]. Sie wurde entwickelt, um die wesentliche Einschränkung datenbankbasierter Suchmethoden zu beheben, lediglich Verbindungen, die bereits in Referenzstruktur-Datenbanken gespeichert sind, identifizieren zu können. MSNovelist ist besonders relevant für die Analyse neu entdeckter oder in Datenbanken unterrepräsentierter Analytenklassen. Es ist nicht das Ziel, die Suche in Datenbanken generell zu ersetzen. Für unbekannte Verbindungen ist es jedoch wichtig, Kandidatenstrukturen zu generieren, die einen guten Ausgangspunkt für deren Aufklärung bieten.

MSNovelist generiert neue Molekülstrukturen auf der Grundlage der Molekülformel (identifiziert durch SIRIUS) und des molekularen Fingerabdrucks (vorhergesagt durch CSI:FingerID) der unbekannten Verbindung. Ein Encoder-Decoder-Modell mit rekurrenten neuronalen Netzen (RNN) wird trainiert, um den eingegebenen Fingerabdruck unter den Einschränkungen der vorhergesagten Molekülformel in eine Struktur zu übersetzen, die als SMILES-Sequenz dargestellt wird. MSNovelist generiert mehrere Kandidatenstrukturen aus dem vorhergesagten molekularen Fingerabdruck. Sobald die Kandidatenstrukturen generiert sind, werden sie mit CSI:FingerID gerankt.

Zusätzliche Funktionen

Über die algorithmischen Kernfunktionen hinaus bietet SIRIUS eine Reihe von Zusatzfunktionen, die den Analyse-Workflow erweiteren.

  • LC/MS-Vorverarbeitung: SIRIUS kann chromatographische Features automatisch über mehrere Proben hinweg erkennen und zusammenführen (align), sowie Addukte zuweisen. Die Vorverarbeitung liefert zudem Qualitätsmetriken, die es den Benutzern ermöglichen, Ergebnisse für die nachgeschaltete Analyse zu priorisieren und zu filtern.
  • Suche in Referenzspektrendatenbanken: SIRIUS ermöglicht eine schnelle Identitätssuche und eine Analog-Suche in Referenzspektrendatenbanken. Die Identitätssuche gleicht das gemessene Spektrum mit Referenzspektren derselben Precursor-Masse ab. Eine Analog-Suche gleicht das gemessene Spektrum mit Referenzspektren abweichender Precursor-Masse ab. Die Treffer der Referenzspektrendatenbanken dienen als zusätzliche Annotationen neben den Ergebnissen aus der Strukturdatenbanksuche, aber beeinflussen deren Ranking nicht.
  • Annotation von Substrukturen: Die Annotation von Substrukturen dient als Visualisierungswerkzeug, um die Verbindung zwischen dem eingegebenen MS/MS-Spektrum, dem vorhergesagten Strukturkandidaten und gegebenenfalls Referenzspektren (sowohl selber als auch abweichender Precursor-Masse) zu veranschaulichen. Diese Funktion basiert auf der kombinatorischen Fragmentierung der Struktur und arbeitet unabhängig vom Scoring-Algorithmus, den CSI:FingerID für die Rangfolge der Strukturkandidaten verwendet.
  • Structure Sketcher: Der Structure Sketcher ist eine Komponente für chemische Zeichnungen, die die manuelle Modifikation bestehender Kandidatenstrukturen oder die Erstellung neuer Strukturen ermöglicht. Benutzer können diese manuell definierten Strukturen in die Liste der Kandidaten für die anschließende Analyse integrieren.
  • BioTransformer-Integration: SIRIUS integriert BioTransformer 3.0[20] zur Generierung benutzerdefinierter Datenbanken für Transformationsprodukte.
  • Kendrick Mass Defect (KMD) Plots: SIRIUS kann Kendrick Mass Defect (KMD) Plots generieren. Diese Diagramme werden verwendet, um chemisch verwandte Moleküle, wie z. B. homologe Reihen, schnell zu gruppieren, was ihre Identifizierung innerhalb komplexer Probendaten erleichtert.

Anwendungsbereiche

Kleine Moleküle sind essenzielle Bausteine, die überall in der Natur vorkommen und in verschiedenen Bereichen wie der Arzneimittelforschung, der Diagnostik, der Lebensmittelwissenschaft und der Umweltüberwachung eine wichtige Rolle spielen. Die Bewältigung vieler globaler Herausforderungen hängt von der umfassenden Identifizierung kleiner Moleküle in komplexen Proben ab. Diese komplexen Mischungen enthalten Tausende verschiedener Moleküle, die in einem einzigen massenspektrometrischen Lauf gemessen werden können.

Die Identifizierung unbekannter kleiner Moleküle gilt als eine der größten Herausforderungen in der Metabolomik, der Naturstoffforschung und verwandten Bereichen, da weit über 90 % aller kleinen Moleküle noch unbekannt sind.[21][22] Üblicherweise basieren Analysen auf zielgerichteten Ansätzen, die sich auf die Wiederentdeckung bekannter Moleküle beschränken. Im Gegensatz dazu ist die ungezielte Analyse eine Top-Down-Strategie, bei der es nicht notwendig ist, vorab eine spezifische Hypothese über die zu erwartenden Moleküle aufzustellen. Der Schwerpunkt verlagert sich von der Frage „Ist Molekül X in der Probe vorhanden?“ zu der Frage „Welche (unbekannten) Moleküle sind in der Probe vorhanden und könnten für nachgeschaltete Analysen relevant sein?“

SIRIUS wurde für die ungezielte Strukturaufklärung unbekannter Moleküle entwickelt, indem es verschiedene Herausforderungen bewältigt:

  • Aus einer langen Liste von Kandidaten wird die richtige Molekülstruktur möglichst gut eingestuft. Dies ist vergleichbar mit einer Google-Suche, bei der die optimale Antwort wahrscheinlich unter den ersten drei Treffern zu finden ist.[7]
  • Es gibt eine Beurteilung, ob der Spitzenkandidat tatsächlich richtig ist.[11]
  • Strukturinformationen sind auch für Moleküle verfügbar, die nicht in umfangreichen Strukturdatenbanken enthalten sind, einschließlich Details zur Bindungsklasse[10] und Informationen zu Substrukturen.

Beispiele für Anwendungen

  • Zunehmende Antibiotikaresistenz ist eine ernsthafte Bedrohung für die öffentliche Gesundheit, die durch Antibiotikarückständen im Abwasser noch verschärft wird. SIRIUS identifiziert die Antibiotika-Abbauprodukte einer vielversprechenden biologischen Lösung zur Entfernung persistenter Antibiotikarückstände aus dem Abwasser durch Pilze.[23]
  • Die weit verbreitete Verwendung von synthetischen Polymeren in Materialien, die mit Lebensmitteln in Kontakt kommen, hat erhebliche Bedenken hinsichtlich der Kunststoffkontamination in Lebensmitteln und Getränken aufgeworfen. Forscher untersuchten mit SIRIUS verdächtige und unerwartete Chemikalien in einer Vielzahl von Spirituosenproben.[24]
  • SIRIUS wird in der Forensik eingesetzt, um die chemischen Veränderungen während der Zersetzung zu analysieren, was zum Verständnis mikrobieller Netzwerke und möglicherweise zur Vorhersage der Zeit seit dem Tod beiträgt.[25]
  • Getrocknete Bluttropfen, sogenanntes Trockenblut, von Neugeborenen sind wichtig für das Neugeborenen-Screening und werden zur Untersuchung möglicher metabolischer Ursachen verschiedener Krankheiten mit Hilfe von nicht-zielgerichteter LC-MS-basierter Metabolomik verwendet. Mit SIRIUS untersuchten die Forscher die Stabilität der Metaboliten in Biobanken mit Trockenblut von Neugeborenen.[26]
  • Marine Mikroorganismen sind eine reiche Quelle bioaktiver Verbindungen mit einzigartigen Strukturen und bemerkenswerter biologischer Aktivität. Dies macht sie zu einer wichtigen Ressource für die Suche nach neuen therapeutischen Wirkstoffen. Die Forscher nutzten SIRIUS, um die Suche auf die vielversprechendsten Mikroorganismen einzugrenzen.[27]
  • Pädiatrisches Asthma stellt aufgrund seiner vielfältigen Erscheinungsformen eine diagnostische Herausforderung dar. Die Atemanalyse könnte die Behandlung von allergischem Asthma bei Kindern entscheidend verändern. Durch die Identifizierung einzigartiger Stoffwechselsignaturen im Atem mit Hilfe von SIRIUS haben Forscher einen Ansatz für die Diagnose von Kindern mit allergischem Asthma entwickelt.[28]
  • Thiacloprid ist ein weit verbreitetes Neonicotinoid-Insektizid der ersten Generation. Seine Langlebigkeit in der Umwelt und seine möglichen schädlichen Auswirkungen auf die menschliche Gesundheit geben Anlass zu großer Besorgnis. Die Klärung des Verunreinigungsprofils von Pestiziden ist entscheidend für die Bewertung ihrer Umweltauswirkungen und potenziellen Risiken sowie für die Festlegung akzeptabler Grenzwerte für Verunreinigungen. Mit Hilfe von SIRIUS haben Forscher einen Ansatz zur Identifizierung strukturell verwandter Verunreinigungen in Pestiziden entwickelt.[29]
  • Unter bestimmten Bedingungen können zwei Bakterienarten gemeinsam in einem Zwei-Spezies-Biofilm wachsen. Die Zusammenarbeit von P. aeruginosa und S. aureus bei Mukoviszidose führt zu einer erhöhten Schwere der Erkrankung. Mit Hilfe von SIRIUS identifizierten die Forscher einen Metaboliten, der mit der verstärkten Pathogenese dieses Zwei-Spezies-Biofilms bei Mukoviszidose in Zusammenhang stehen könnte.[30]
  • Unsere Haut beherbergt eine vielfältige Gemeinschaft von Mikroorganismen, die als Hautmikrobiota bezeichnet wird. Mit Hilfe von SIRIUS identifizierten Forscher Veränderungen im Metabolom der Haut, die ausgeprägter sind als Veränderungen in der mikrobiellen Zusammensetzung.[31]

Grenzen

Grenzen der Messmethode

Massenspektren allein liefern nicht genügend Informationen, um jedes Molekül eindeutig zu identifizieren. Manche Moleküle erzeugen fast identische Spektren – sie ähneln sich sogar mehr als ein und dasselbe Molekül, das mit zwei verschiedenen Geräten gemessen wird.[32] Für eine eindeutige Identifizierung sind umfangreiche Folgeexperimente erforderlich.

Es ist daher unmöglich, eine Molekülstruktur allein auf der Basis eines Massenspektrums immer korrekt zu identifizieren. Daher können CSI:FingerID und andere Suchmethoden in Strukturdatenbanken nicht garantieren, dass die richtige Molekülstruktur als erster Treffer gefunden wird. Aus diesem Grund ist es wichtig, die richtige Struktur aus einer umfangreichen Liste von Kandidaten sehr hoch zu ranken und eine Konfidenz für den Treffer zu erhalten.

Grenzen von Strukturdatenbanken

Strukturdatenbanken sind um Größenordnungen größer als Referenzspektren-Datenbanken, aber immer noch unvollständig.[33] Es versteht sich von selbst, dass nicht jedes existierende Biomolekül in Strukturdatenbanken enthalten ist oder sein wird.

Für diese Moleküle bietet SIRIUS mehrere Lösungen an:

  • SIRIUS kann in Datenbanken mit hypothetischen Strukturen suchen.[11] Dies kann z. B. für die Suche nach Derivaten interessant sein.
  • Der vorhergesagte molekulare Fingerabdruck liefert strukturelle Informationen, z. B. über Substrukturen.[7]
  • CANOPUS sagt die Verbindungsklassen eines Moleküls voraus, ohne in einer Datenbank zu suchen.[10]
  • MSNovelist generiert aus dem vorhergesagten molekularen Fingerabdruck de novo Kandidatenstrukturen.[12]

Unabhängige Bewertung der Software

CASMI (Critical Assessment of Small Molecule Identification)[34] ist ein offener Wettbewerb zur Identifizierung kleiner Moleküle aus Massenspektrometriedaten, der 2012 von Emma Schymanski und Steffen Neumann ins Leben gerufen wurde.[35]

Bei CASMI 2016 haben CSI:FingerID und einem Ableger von CSI:FingerID, an dem die Böcker-Gruppe auch beteiligt war, den ersten und zweiten Platz in der Kategorie „Best Automatic Structural Identification – In Silico Fragmentation Only“ (Beste automatische Strukturidentifizierung – nur in silico Fragmentierung) belegt. Darüber hinaus erzielte CSI:FingerID das beste Ergebnis bei der Bestimmung der korrekten Molekülstruktur an Position 1 (70 von 127, positiver Modus).[36][37]

Bei CASMI 2017 gewann SIRIUS mit CSI:FingerID in 3 von 4 Kategorien: „Best Structure Identification on Natural Products“ (Beste Strukturidentifizierung von Naturprodukten), „Best Automatic Structure Identification – In Silico Fragmentation Only“ (Beste automatische Strukturidentifizierung – nur in silico Fragmentierung), „Best Automatic Candidate Ranking“ (Bestes automatisches Kandidaten-Ranking).[38]

Bei CASMI 2022 nutzten sechs von 16 Teilnehmern SIRIUS in ihrem Ansatz zur Identifizierung der Molekülstruktur. SIRIUS gewann in den Kategorien „Correct elemental formulas“ (Korrekte Summenformeln), „Correct compound structure classes“ (Korrekte Verbindungsklasse) und „Correct 2D chemical structures“ (Korrekte chemische 2D-Struktur). CASMI 2022 enthielt Verbindungen, die nicht einmal in PubChem enthalten waren.[39]

Auszeichnungen

Die Arbeitsgruppe von Sebastian Böcker an der FSU Jena hat für SIRIUS und die zugrunde liegenden Methoden den Thüringer Forschungspreis 2022 in der Kategorie Angewandte Forschung gewonnen.[40][41]

SIRIUS wurde 2020 von Nature Methods als „method to watch“ gelistet.[42]

Lizenzen

SIRIUS wird von der Gruppe von Sebastian Böcker an der FSU Jena in enger Zusammenarbeit mit der Bright Giant GmbH entwickelt. SIRIUS wird als Software-as-a-Service-Lösung angeboten. Die Client-Software ist Open-Source und wird auf den Rechnern der Nutzer installiert. Die Annotation von Summenformeln mit Hilfe von Fragmentierungsbäumen und Isotopenmustern wird auf dem lokalen Computer der Nutzer durchgeführt, ohne dass ein Abonnement erforderlich ist.

Für die SIRIUS-Webdienste zur Strukturaufklärung, einschließlich der Vorhersage des molekularen Fingerabdrucks, der Strukturdatenbanksuche, der Konfidenzbewertung und der Vorhersage von Verbindungsklassen, ist ein Benutzerkonto erforderlich. Die Webdienste sind für die akademische/nichtkommerzielle Nutzung kostenlos und werden von der FSU Jena bereitgestellt bzw. gehostet. Akademische Einrichtungen werden über ihre E-Mail-Domain identifiziert und der Zugang wird automatisch gewährt. In einigen Fällen kann eine zusätzliche Validierung erforderlich sein.

Die Bright Giant GmbH bietet kommerziellen Nutzern einen subskriptionsbasierten Zugang zu den SIRIUS Web Services zur Strukturaufklärung.

Alternativen

Weitere Algorithmen und Software für die Suche in Strukturdatenbanken sind CFM-ID, ICEBERG, MetFrag, MS-FINDER, MetaboScape® (Bruker), MassHunter (Agilent) oder Compound Discoverer™ (Thermo Fisher Scientific).

Einzelnachweise

Related Articles

Wikiwand AI