Metagenomische Profiling-Pipelines verbessern die taxonomische Klassifizierung für 16S-Amplikon-Sequenzierungsdaten
Scientific Reports Band 13, Artikelnummer: 13957 (2023) Diesen Artikel zitieren
8834 Zugriffe
122 Altmetrisch
Details zu den Metriken
Die meisten Experimente zur Untersuchung bakterieller Mikrobiome basieren auf der PCR-Amplifikation des gesamten Gens oder eines Teils davon für die 16S-rRNA-Untereinheit, die als Biomarker zur Identifizierung und Quantifizierung der verschiedenen in einer Mikrobiomprobe vorhandenen Taxa dient. Für die Analyse der 16S-Amplikonsequenzierung gibt es mehrere Computermethoden. Die am häufigsten verwendeten Bioinformatik-Tools können jedoch keine qualitativ hochwertigen taxonomischen Aufrufe auf Gattungs- oder Artenebene erstellen und unterschätzen möglicherweise die potenzielle Genauigkeit dieser Aufrufe. Wir verwendeten 16S-Sequenzierungsdaten von Scheinbakteriengemeinschaften, um die Sensitivität und Spezifität mehrerer Bioinformatik-Pipelines und genomischer Referenzbibliotheken zu bewerten, die für Mikrobiomanalysen verwendet werden, wobei wir uns auf die Messung der Genauigkeit taxonomischer Zuordnungen von 16S-Amplikon-Lesevorgängen auf Artenebene konzentrierten. Wir haben die Tools DADA2, QIIME 2, Mothur, PathoScope 2 und Kraken 2 in Verbindung mit Referenzbibliotheken von Greengenes, SILVA, Kraken 2 und RefSeq evaluiert. Profilierungstools wurden anhand öffentlich verfügbarer Schein-Community-Daten aus mehreren Quellen verglichen, darunter 136 Proben mit unterschiedlichem Artenreichtum und -gleichmäßigkeit, mehreren verschiedenen amplifizierten Regionen innerhalb des 16S-rRNA-Gens sowie sowohl DNA-Spike-Ins als auch cDNA aus Sammlungen plattierter Zellen. PathoScope 2 und Kraken 2, beides Tools, die für die Metagenomik des gesamten Genoms entwickelt wurden, übertrafen DADA2, QIIME 2 mit dem DADA2-Plugin und Mothur, die theoretisch auf 16S-Analysen spezialisiert sind. Auswertungen von Referenzbibliotheken ergaben, dass die Bibliotheken SILVA und RefSeq/Kraken 2 Standard hinsichtlich der Genauigkeit im Vergleich zu Greengenes überlegen sind. Diese Ergebnisse unterstützen PathoScope und Kraken 2 als voll funktionsfähige, wettbewerbsfähige Optionen für die Analyse von 16S-Amplikon-Sequenzierungsdaten auf Gattungs- und Artenebene, für die Sequenzierung des gesamten Genoms und für Metagenomik-Datentools.
Die Hochdurchsatzsequenzierung hat die Erforschung der Mikrobiomik, also des wissenschaftlichen Bereichs, der sich auf die Untersuchung der Zusammensetzung, Diversität und Funktion mikrobieller Gemeinschaften und ihrer Interaktionen mit ihren Wirten oder Umgebungen konzentriert, erheblich beschleunigt1. Die Charakterisierung der Zusammensetzung mikrobieller Proben beruht üblicherweise auf der Amplifikation von Sequenzen der ribosomalen 16S-Untereinheit, einem allgegenwärtigen Gen mit hochkonservierten Regionen. Die Untereinheit vereinfacht die Bemühungen zur Isolierung und Amplifikation von 16S-rRNA mit etablierten PCR-Primern und hypervariablen Regionen, um Identität und Phylogenie festzustellen. 16S-rRNA- und rDNA-Sequenzierung kann zur Identifizierung bekannter prokaryotischer Spezies verwendet werden und als Proxy zur Quantifizierung der relativen Häufigkeit operativer taxonomischer Einheiten (OTUs) in Mikrobiomproben dienen.
Methoden zur taxonomischen Profilierung ribosomaler RNA-Gensequenzen ermöglichen die Identifizierung von OTU-Proben durch Klassifizierung von rRNA-Sequenzen in taxonomische Gruppen. Während mit den verfügbaren Tools2 eine beträchtliche Genauigkeit bei der Identifizierung auf Artenebene erreicht werden kann, zögert die aktuelle Profilierungssoftware für 16S-Amplikon-Sequenzierungsdaten bei der Identifizierung bis auf Artenebene. Stattdessen gruppieren sie Lesevorgänge basierend auf Sequenzähnlichkeit, um Gattungs- oder übergeordnete Identifizierungen zuzuordnen, um die Spezifität und Sensitivität zu erhöhen, oder sie verwenden direkt fehlergefilterte Sequenzen für die taxonomische Klassifizierung3,4. Da die Fähigkeiten moderner Sequenzierungsplattformen zunehmen und die Referenzgenomdatenbanken von Bakterien erweitert und verbessert werden, entsteht mehr Potenzial für die Erzielung einer verbesserten 16S-Analyseleistung mit alternativen Methoden, die häufiger in der Metagenomik des gesamten Genoms eingesetzt werden.
Die derzeit am häufigsten bei der Analyse von 16S-Amplikon-Sequenzierungsdaten verwendeten Softwarepakete sind DADA24, QIIME 25, sein Vorgänger QIIME 26 und Mothur7. QIIME 2 und Mothur wurden beide ursprünglich kurz nach der Erfindung der Sequenzierung der nächsten Generation entwickelt und folgen zusammen mit QIIME 2 im Wesentlichen demselben Arbeitsablauf: Lesevorgänge werden typischerweise de novo basierend auf Sequenzähnlichkeit in operative taxonomische Einheiten (OTUs) oder entrauschte OTUs geclustert (viele bezeichnen diese als Amplikon-Sequenzvarianten oder ASVs), je nachdem, ob eine vollständige Sequenzidentität für das Clustering erwünscht ist. Der anfängliche Clustering-Schritt dient dazu, 1) die Recheneffizienz zu verbessern, indem die Anzahl der Sequenzen begrenzt wird, die mit einem großen Satz von Referenzgenomen abgeglichen werden müssen, und 2) den geringen Grad an genetischer Variation in einem bestimmten Bakterienstamm zu berücksichtigen und dadurch Sequenzierungsfehler zu verringern. Fast ein Jahrzehnt lang lag der Cutoff für die OTU-Inklusion bei 97 % Sequenzidentität8,9, aber aktuelle Cutoff-Empfehlungen liegen jetzt bei etwa 99–100 % Sequenzidentität3,10, typischerweise nach irgendeiner Form der Entrauschung oder anderen Korrektur von Sequenzierungsfehlern4,11.
Eine Alternative zum OTU-Clustering besteht darin, Lesevorgänge direkt mit einer Referenzgenombibliothek abzugleichen, wie dies bei PathoScope 2.012 der Fall ist. PathoScope verwendet ein bayesianisches gemischtes Modellierungsgerüst, um mehrdeutig ausgerichtete Lesevorgänge neu zuzuordnen und so potenzielle Sequenzierungsfehler und geringfügige genetische Variationen zu dämpfen13,14. Als weitere Alternative führt Kraken 2 ausrichtungsfreie k-mer-Suchen anhand einer Referenzgenombibliothek durch15 und nimmt taxonomische Zuordnungen zu jedem Lesevorgang vor, basierend auf der kumulierten Anzahl von k-mer-Übereinstimmungen während eines gesamten Lesevorgangs mit jedem taxonomischen Knoten in seiner Referenzbibliothek. Durch das Umgehen eines Sequenz-Clustering-Schritts vermeiden PathoScope und Kraken 2 individuell die potenziellen Fallstricke, die mit der OTU-Generierung und Rauschunterdrückungsfehlern einhergehen16,17, bleiben jedoch anfällig für Sequenzierungsfehler. Während es sich bei DADA2, QIIME 2, Mothur, Greengenes und SILVA allesamt um Tools handelt, die auf die spezifischen Anforderungen der 16S-Amplikonsequenzierung zugeschnitten sind, haben Verbesserungen bei den Sequenzierungstechnologien, die Erweiterung der Datenbanken für bakterielle Referenzgenome sowie die erhöhte Verfügbarkeit und Erschwinglichkeit von Rechenressourcen gemeinsam dazu geführt, dass viele dieser Tools zur Verfügung stehen Die spezifischen Probleme, die diese Tools ansprechen, sind irrelevant. In der Zwischenzeit kann die erhöhte Flexibilität und Leistungsfähigkeit eines Tools wie PathoScope zu verbesserten Ergebnissen führen, obwohl es rechenintensiv ist und für die Erfüllung eines allgemeineren metagenomischen Zwecks konzipiert ist18,19.
Diese Profilierungsmethoden hängen alle stark von der Qualität der verwendeten Referenzbibliothek ab, wie in früheren Benchmarking-Studien20,21,22,23 gezeigt wurde. Die am häufigsten verwendeten Referenzdatenbanken für 16S-Amplikonanalysen sind Greengenes24, SILVA25 und das Ribosomal Database Project (RDP)26. Jede Datenbank enthält ausschließlich 16S-rRNA-Gensequenzen und bietet taxonomische Informationen für jede Referenzsequenz. SILVA wird gut gewartet und veröffentlicht regelmäßig Updates, obwohl zum Zeitpunkt dieses Schreibens das neueste Update SILVA 138.1 (veröffentlicht am 27. August 2020) ist. Unterdessen stagniert Greengenes seit Jahren; Die letzte Aktualisierung zum Zeitpunkt der Einreichung war Greengenes 13_8, veröffentlicht im August 2013. Infolgedessen fehlen in Greengenes mehrere lebenswichtige Bakterien, darunter Dolosigranulum-Arten27, denen eine schützende Rolle bei der Vorbeugung von Krankheiten in den menschlichen Atemwegen zugeschrieben wird28,29. Es ist erwähnenswert, dass im Jahr 2022 während des Begutachtungsprozesses für dieses Papier eine neue Version, Greengenes230, zur Verfügung gestellt wurde und anschließend nicht in die Analysen dieses Papiers einbezogen wurde. Obwohl QIIME 2 und Mothur mit jeder Referenzgenombibliothek kompatibel sind, verwendet QIIME 2 standardmäßig Greengenes, und in der Dokumentation von Mothur (abgerufen am 17. Mai 2022) wird SILVA empfohlen. DADA2 verwaltet Referenzdatenbanken für SILVA, RDP und Greengenes und bietet die Flexibilität, benutzerdefinierte Datenbanken zu erstellen. Kraken 2 verfügt über eine eigene kuratierte „Standard“-Bakterienbibliothek mit einem taxonomischen Baum, der standardmäßig auf der Taxonomiedatenbank von NCBI basiert31, und hat außerdem mit Kraken 2 kompatible formatierte Versionen von Greengenes, SILVA und RDP veröffentlicht. Die aktuelle Empfehlung der PathoScope-Referenzbibliothek besteht darin, die vollständige repräsentative RefSeq-Genomdatenbank32 herunterzuladen, eine Sammlung kuratierter hochwertiger Bakteriengenome und -assemblies. RefSeq wird ständig aktualisiert. Daher können die Ergebnisse einer Analyse, bei der RefSeq als Referenzbibliothek verwendet wird, je nach Datum des Downloads der Bibliothek variieren.
Angesichts dieser Überlegungen haben wir systematisch mehrere aktuelle Community-Profiling-Tools und Referenzbibliotheken verglichen, die sowohl für die metagenomische als auch für die 16S-Analyse erstellt wurden. Wir haben die Tools QIIME 2, Mothur, PathoScope 2 und Kraken 2 in Verbindung mit Referenzbibliotheken von Greengenes, SILVA, Kraken 2 und RefSeq evaluiert. Unter Verwendung mehrerer öffentlich verfügbarer 16S-Sequenzierungsdatensätze synthetischer Scheingemeinschaften haben wir speziell die Leistung auf Gattungs- und Artenebene über Profiler- und Bibliothekspaare hinweg analysiert. Wir haben 136 Proben getestet, die unterschiedliche Artenvielfalt und -gleichmäßigkeit, mehrere verschiedene amplifizierte Regionen innerhalb des 16S-rRNA-Gens sowie sowohl DNA-Spike-Ins als auch cDNA aus Sammlungen plattierter Zellen umfassten. Unsere evaluativen Vergleiche verwendeten eine Kombination aus Diversitäts- und Genauigkeitsmessungen, um zu bestimmen, welche Methoden und Tools die beste Leistung bei der Profilierung von 16S-Amplikon-Sequenzierungsdatensätzen lieferten.
Insgesamt wurden 136 Schein-Community-Sequenzierungsproben aus vier öffentlich verfügbaren Sequenzierungsdatensätzen gesammelt und in unserer Auswertung analysiert. 69 Proben stammen von Lluch et al.33; 33 Proben stammen von Kozich et al.34; 29 Proben stammen von Fouhy et al.35; und 5 Proben stammen von Karstens36. Diese Datensätze werden im Folgenden als Lluch-, Kozich-, Fouhy- und Karstens-Proben bezeichnet. Die Artenzusammensetzungen für jeden Satz sind in Tabelle S1 aufgeführt. Die Lluch-Proben umfassen eine Vielzahl von Gemeinschaftszusammensetzungen, die von Monokulturproben, die nur aus einer einzigen Art bestehen, bis hin zu anderen mit 20 Arten in gestaffelten Konzentrationen reichen. Insgesamt kommen in der Gesamtheit der Lluch-Proben 34 Arten vor. Obwohl die taxonomischen Profile der Lluch-Proben unterschiedlich sind, wurden alle 69 Proben unter Verwendung eines einzigen einheitlichen DNA-Extraktions-, Amplifikations- und Sequenzierungsprotokolls hergestellt, das Illumina MiSeq-Paired-End-Reads der V4–V5-Region des 16S-rRNA-Gens ergab. Die Kozich-Proben umfassen jeweils drei Sequenzierungsreplikate von 11 verschiedenen Präparaten der Scheingemeinschaft B (HM-278D) von BEI, die 21 Arten umfasst. Für die Kozich-Proben wurden drei PCR-Primerpaare verwendet, um drei verschiedene Teile des 16S-rRNA-Gens (die V3-, V4- und V4-V5-Bereiche) zu amplifizieren, wodurch die Sequenzierungsdaten für diese Proben komplexer wurden als für die Proben der anderen Datensätze. Die Fouhy-Proben sind jeweils eine einzigartige Kombination aus BEI-Mock-Community B (16S-DNA-Spike-Ins) oder BEI-Mock-Community C (kultivierte Zellen), hergestellt unter Verwendung eines von drei Bibliotheksvorbereitungsprotokollen, amplifiziert mit PCR-Primern für entweder V1–V2 oder die V4-V5-Region des 16S-rRNA-Gens und entweder auf einem Illumina MiSeq-Gerät oder einem Thermo Fisher Ion Torrent sequenziert. Schließlich stammen die 5 Karstens-Proben aus einer einzigen benutzerdefinierten Schein-DNA-Bibliothek von 8 Arten, wobei die V4-Region auf einem Illumina MiSeq-Gerät amplifiziert und sequenziert wurde.
Wir haben fünf Analyse-Pipelines ausgewertet, die auf die 136 simulierten Community-Beispiele angewendet wurden: DADA2, QIIME 2, Mothur, PathoScope und Kraken 2.
Für die eigenständige Implementierung von DADA2 wurden alle Proben gefiltert und getrimmt, wobei Fehler bei Vorwärts- und Rückwärtslesevorgängen gelernt wurden. Gelernte Fehler wurden verwendet, um Rückschlüsse auf das vorhergesagte Vorhandensein von Fehlern bei allen Lesevorgängen als Maßnahme zur Rauschunterdrückung zu ziehen. Gepaarte Lesevorgänge wurden zusammengeführt und Chimären entfernt, wobei die Taxonomie bis auf Artenebene zugeordnet wurde. Beim Filtern und Trimmen haben wir für die meisten Proben die Parameter maxN = 0, maxEE = c(3, 3), truncQ = 2, rm.phix = TRUE und tlength = 0 verwendet. Für ungepaarte Lesevorgänge setzen wir maxEE = 3. Bei mehreren Kozich-Proben kam es am Leseende zu extremen Qualitätsverschlechterungen; Um dies zu korrigieren, setzen wir tlength = c(240, 200). Schließlich haben wir beim Ausführen der Fouhy Ion Torrent-Beispiele die DADA2-Funktionsparameter HOMOPOLYMER_GAP_PENALTY = − 1 und BAND_SIZE = 32 festgelegt. Für den Filter- und Trimmschritt haben wir außerdem trimLeft = 15 festgelegt. Diese Einstellungen basierten auf Empfehlungen für die Verarbeitung von Ion Torrent-Daten in den DADA2-FAQ.
Für alle QIIME 2-Analysen haben wir das DADA2-Plugin verwendet, um Sequenzen zu gruppieren und Merkmalstabellen zu erstellen. Aufgrund der breiten Benutzerbasis von QIIME 2 haben wir uns entschieden, das DADA2-Plugin zusammen mit seinem eigenständigen Paket zu testen. Die eigenständige Implementierung verwendet jedoch 100 % Sequenzidentität gegenüber Mothur und QIIME 2 (mit 97 %) und verwendet eine exakte Sequenzübereinstimmung anstelle eines k -mer-basierte Methode (wie im QIIME 2 q2-feature-classifier). Alle Scheindatensätze außer den Fouhy-Datensätzen könnten mit Paired-End-Lesevorgängen ausgeführt werden. In den meisten Fällen erforderte DADA2 keine Kürzung der Paired-End-Sequenzen und nur die anfänglichen 6 bp wurden bei jedem Lesevorgang gekürzt. Allerdings waren die Qualitätswerte am Ende von neun Proben aus dem Kozich-Datensatz allgemein niedrig genug (Grenzwert des mittleren Qualitätswertes < 20), um für Kozich-Proben eine Kürzung auf 240 bp für Vorwärts-Lesevorgänge und 200 bp für Rückwärts-Lesevorgänge zu erfordern. Die Taxonomie wurde mithilfe benutzerdefinierter naiver Bayes-Klassifikatoren zugewiesen, die für jeden Satz simulierter Community-Stichproben auf der Grundlage ihrer verstärkten 16S-Region erstellt wurden. Die QIIME 2-Artefaktausgabedateien wurden in das BIOM-Format und anschließend in ein tabulatorgetrenntes Textformat für nachgelagerte Analysen und Pipeline-Vergleiche konvertiert.
Für Mothur-Analysen wurden, soweit möglich, alle empfohlenen Verfahren gemäß der Mothur-Dokumentation befolgt. Für Paired-End-Sequenzen wurde die native Funktion make.contigs() zum Zusammenführen von Lesevorgängen verwendet. Im pre.cluster()-Schritt der Mothur-Analyse wurde der Parameter „diffs“ (die Anzahl der zulässigen Abweichungen zwischen der repräsentativen Sequenz eines Clusters und jeder Mitgliedssequenz) für verbundene Sequenzierungs-Reads, die kürzer als 250 bp sind, auf 2 und für verbundene Reads auf 3 gesetzt mit einer Länge von 250–349 bp und 4 für längere verbundene Lesevorgänge. Für cluster.split() setzen wir den Parameter „taxlevel“ auf 4, mit einem „Cutoff“ von 0,03.
Für PathoScope 2.0-Analysen wurden die Bowtie2-Ausrichtungsparameter auf „–local -R 2 -N 0 -L 25 -i S,1,0,75 -k 10 –score-min L,100,1,28“ eingestellt. Diese Werte wurden für 16S-Sequenzierungsablesungen optimiert und erfordern aufgrund der hochkonservierten Natur von Teilen des 16S-rRNA-Gens eine höhere Ähnlichkeit mit einem Referenzgenom als die Standardeinstellungen, um als Treffer gewertet zu werden. Die Phylogenie für jedes Taxon wurde aus der NCBI-Taxon-ID (ti) für jedes Referenzgenom mithilfe der Funktion entrez_fetch() aus dem R-Paket rentrez abgeleitet.
Für Kraken-2-Analysen wurden für jede Probe Kraken-2-taxonomische Berichte erstellt. Diese wurden in eine Taxon-/Merkmalszählungsmatrix analysiert, die die vollständige Phylogenie für jedes identifizierte Taxon enthielt, wie von Kraken 2 berichtet.
Wir haben fünf Referenzdatenbanken für Bakteriensequenzen in Verbindung mit den oben genannten Pipelines verwendet: Greengenes 13_8, SILVA 138, zwei Versionen der repräsentativen Genome von RefSeq und die Kraken 2 Standard-Bibliothek (heruntergeladen am 20. August 2020). Laut Kraken 2-Handbuch wird die Kraken 2 Standard-Bibliothek mithilfe der RefSeq-Datenbank kompiliert, sodass sie als analog zur RefSeq2020-Bibliothek betrachtet werden kann. Die RefSeq-Bibliotheken wurden am 2. November 2018 und 23. Juni 2020 heruntergeladen; diese werden als „RefSeq2018“ und „RefSeq2020“ bezeichnet. Greengenes und SILVA sind speziell 16S-Referenzdatenbanken, da sie nur Sequenzen für das bakterielle 16S-rRNA-Gen enthalten. RefSeq2018, RefSeq2020 und die Kraken 2 Standard-Datenbank sind allesamt Bibliotheken des gesamten Genoms, ohne besondere Modifikationen für die Verwendung mit 16S-Amplikon-Sequenzierungsdaten.
Wir analysierten 136 Schein-Community-Stichproben mit insgesamt 11 unterschiedlichen Kombinationen von Analysetools und Referenzbibliotheken: DADA2 nur mit SILVA, QIIME 2 mit Greengenes und SILVA, Mothur nur mit SILVA (der Standard-Referenzbibliothek), PathoScope mit Greengenes, SILVA, RefSeq2018 und RefSeq2020 sowie Kraken 2 mit seiner Standardbibliothek, SILVA und Greengenes. Während die SILVA-Datenbank taxonomische Informationen auf Artenebene für die meisten ihrer repräsentativen 16S-Sequenzen enthält, ist zu beachten, dass Mothur die Merkmalsanzahl in Kladen auf Gattungsebene zusammenfasst und daher keine Aufrufe auf Artenebene durchführt. Die für Kraken 2 und QIIME 2 verwendeten Anpassungen von SILVA lieferten keine Aufrufe auf Artenebene. Somit tätigen nur acht der elf Paarungen artspezifische Rufe. Die Paarungen und Pipeline-Parameter sind in Tabelle 1 zusammengefasst.
Aus den Ergebnissen jedes der 11 Pipeline-/Referenzpaare für jede operative taxonomische Einheit (OTU), jede entrauschte OTU und jedes Merkmal wurde eine Zählmatrix erstellt. Jedem Merkmal wurden Informationen auf Stamm-, Klassen-, Ordnungs-, Familien-, Gattungs-, Arten- und Unterartenebene zugewiesen, sofern verfügbar. Wenn für eine bestimmte Datenbank eine taxonomische Bezeichnung fehlte, wurde die für ein Merkmal verfügbare Taxonomie der niedrigsten Ebene mithilfe des taxonomischen Pfads dieser Datenbank weitergegeben, wobei die verfügbare Granularität berücksichtigt wurde (bester taxonomischer Treffer). Beispielsweise würde ein Merkmal, das nur als Mitglied der Bacillales-Ordnung zugeordnet ist, die Metadaten erhalten: „Stamm: Firmicutes, Klasse: Bacilli, Ordnung: Bacillales, Familie: o_Bacillales, Gattung: o_Bacillales, Art: o_Bacillales.“
Zur Bewertung der Gesamtqualität und Leistungsfähigkeit jeder 16S-Analysepipeline und Referenzbibliothek auf jeder taxonomischen Ebene wurden mehrere Metriken verwendet. Die Ergebnisse wurden auf jeder taxonomischen Ebene unabhängig ausgewertet. Alle Lesevorgänge oder Merkmale, die auf einer bestimmten phylogenetischen Ebene keinem Taxon zugeordnet waren, wurden von der Analyse ausgeschlossen, sofern nicht anders angegeben.
Die Metrik der Taxon-Erkennungsempfindlichkeit wird hier als der Anteil der erwarteten Taxa in einer Stichprobe einer Scheingemeinschaft definiert, die von einer bestimmten Pipeline erkannt wird, bei einer relativen Häufigkeit von mindestens 0,1 %. Dabei wird im Wesentlichen untersucht, wie oft eine bestimmte Methode die Anwesenheit eines Organismus in der Scheingemeinschaft korrekt bestimmen kann.
Die Lesezuweisungsspezifität wird hier als der Anteil der Lesevorgänge aus einer bestimmten Probe definiert, die Taxa zugeordnet sind, die tatsächlich in der Scheingemeinschaft dieser Probe vorhanden sind. Dies entspricht 1 minus dem Anteil der Lesevorgänge, die falschen Taxa zugeordnet sind. Diese Metrik identifiziert die Häufigkeit der Lesezuordnung zu falschen Organismen für eine bestimmte Methode.
Der normalisierte mittlere quadratische Fehler (NRMSE) wurde als normalisierter mittlerer quadratischer Fehler unter der Annahme berechnet, dass die Varianz bei höheren Lesezahlen zunehmen könnte. Für die Ergebnisse jeder Probe, angegeben durch die Gleichung
Dabei sind wi und ti für \(K\) Taxa die gemessene bzw. die tatsächliche Lesezahl von Taxon i. Wir haben die Vereinigung der erwarteten und erkannten Taxa für jede Probe ausgewertet und dabei \({t}_{i}=0\) für theoretische Taxazahlen verwendet, die in der Scheingemeinschaft nicht tatsächlich gemessen wurden. Alle Taxa, die sowohl in den gemessenen Ergebnissen als auch in der echten Scheingemeinschaft fehlten, wurden ausgeschlossen (dh Taxa, die sowohl theoretische als auch gemessene relative Häufigkeitswerte von 0 aufwiesen).
Um die Fähigkeit jeder Pipeline zu beurteilen, die wahre Alpha-Diversität innerhalb einer Probe unabhängig von einer genauen Artenidentifizierung abzuschätzen, haben wir die logarithmische Änderung zwischen der erwarteten und der gemessenen Alpha-Diversität berechnet, gemessen durch den Shannon-Index, den Simpson-Index und den breakaway_nof15-Index . Zur Berechnung der Shannon- und Simpson-Indizes wurde das R-Paket vegan37 verwendet. Der Breakaway des R-Pakets wurde zur Berechnung des Index breakaway_nof138 verwendet, der sowohl die Anzahl unbeobachteter Taxa als auch die Anzahl echter Singletons basierend auf den Nicht-Singleton-Häufigkeitszählungen vorhersagt. Aufgrund der Empfindlichkeit der Alpha-Diversity-Metriken gegenüber Bibliotheks- und Zählgrößenunterschieden39 haben wir die relativen Häufigkeiten der Grundwahrheiten der Schein-Community-Stichproben mithilfe des vegan37-Pakets erneut in virtuelle Sequenzierungsbibliotheken mit 1.000.000 Lesevorgängen umgewandelt. Zur Normalisierung aller Proben und Ground-Truth-Bibliotheken wurde eine Verdünnungstiefe von 10.000 Lesevorgängen pro Probe verwendet.
Eine Reihe linearer Mixed-Effects-Modelle (LMMs) in Verbindung mit Post-hoc-Tests der kleinsten Quadrate und einer Tukey-Mehrfachvergleichskorrektur wurden verwendet, um zu bestimmen, welche Pipelines einander in Bezug auf Sensitivität, Spezifität, Fehlerraten und Alpha-Diversitätsschätzungen übertrafen. LMMs wurden mit der Funktion lmer() aus dem R-Paket lme440 geschätzt und Post-hoc-Vergleiche wurden mit der Funktion lsmeans() aus dem R-Paket lsmeans41 durchgeführt. Diese LMMs untersuchen die relevante Leistungsmetrik als Messvariable und verwenden dabei die 136 Schein-Community-Stichproben als Zufallseffekt und das Pipeline-/Referenzbibliothekspaar als festen Effekt.
Abbildung 1 zeigt gestapelte Balkendiagramme der Ergebnisse des Kozich-Datensatzes für die Grundwahrheit im Vergleich zu allen Methoden auf Artenebene. Insgesamt schnitten Pipelines, die die Greengenes-Datenbank verwenden (Kraken 2, QIIME 2 und Pathoskop), bei der Klassifizierung von Arten am schlechtesten ab, gefolgt von DADA2 gepaart mit SILVA. PathoScope nutzte die Greengenes-Datenbank optimal mit den wenigsten falsch klassifizierten Lesevorgängen und der korrektesten Erkennung auf Artenebene. Kraken 2 (gepaart mit seiner Standardbibliothek) und PathoScope (gepaart mit den RefSeq- und SILVA-Bibliotheken) schnitten bei diesen Datensätzen am besten ab. Es folgt eine quantitativere Bewertung dieser Methoden im Kontext aller Proben.
Erwartete versus gemessene relative Häufigkeit von Scheinbakterien. Ein gestapeltes Balkendiagramm der gemessenen relativen Häufigkeit von Bakterienarten in 33 Proben von Kozich et al. Diese Proben enthielten alle äquimolare Konzentrationen von 16S-rDNA von 21 Arten, wie in der Leiste „Ground Truth“ links dargestellt. Alle Lesevorgänge, die anderen Bakterienarten als den 21 in der Scheingemeinschaft erwarteten zugewiesen wurden, sind grau gefärbt und mit „Falsche ID“ gekennzeichnet. Mothur-Anrufe wurden nicht berücksichtigt, da die Pipeline keine Aufrufe auf Artenebene durchführt, und das Gleiche gilt für QIIME 2 und Kraken 2 in Verbindung mit der SILVA-Datenbank.
Auf Gattungsebene (Abb. 2A) war DADA2 gepaart mit SILVA am wenigsten empfindlich (Mittelwert = 0,67, SD = 0,35), gefolgt von Methoden, die die Greengene nutzten (QIIME 2: Mittelwert = 0,73, SD = 0,16; Kraken 2 : Mittelwert = 0,73, SD = 0,17; PathoScope: Mittelwert = 0,78, SD = 0,24; siehe Tabelle S2 für p-Werte). In Kombination mit den Referenzbibliotheken SILVA, RefSeq2018 oder RefSeq2020 war PathoScope bei der Erkennung von Gattungen empfindlicher als jede andere Methode und erreichte seinen Höhepunkt in Kombination mit der Referenzbibliothek RefSeq 2018 (Mittelwert = 0,88, SD = 0,14).
Taxon-Erkennungsempfindlichkeit von 16S-Analysepipelines. Violindiagramme der Sensitivität, Spezifität und logarithmischen NRMSE jedes Paars aus Analysepipeline und Referenzbibliothek, die zur Analyse von 16S-Proben verwendet werden, berechnet auf der Ebene der Gattung (A, C, E) und der Art (B, D, F). Die Sensitivität wird als der Anteil der erwarteten Taxa in jeder Scheingemeinschaftsstichprobe berechnet, der mit einer relativen Häufigkeit von mindestens 0,1 % nachgewiesen wurde. Die Spezifität wird als der Anteil der Lesevorgänge berechnet, die Taxa zugeordnet sind, von denen erwartet wird, dass sie in jeder Scheingemeinschaft vorhanden sind.
Im Allgemeinen war die Taxon-Erkennungsempfindlichkeit auf Artenebene geringer als auf Gattungsebene (Abb. 2B). Methoden unter Verwendung von Greengenes hatten extrem niedrige Empfindlichkeiten auf Artenebene (QIIME 2: Mittelwert = 0,16, SD = 0,18; Kraken 2: Mittelwert = 0,19, SD = 0,13; PathoScope: Mittelwert = 0,28, SD = 0,21), ebenso wie DADA2 mit SILVA ( Mittelwert = 0,24, SD = 0,19). Diese waren alle deutlich niedriger als alle anderen Methoden (paarweise p-Werte siehe Tabelle S3). Unter den Methoden, die Greengenes verwendeten, war PathoScope deutlich empfindlicher als QIIME 2 (p < 0,001) oder Kraken 2 (p < 0,001). Die empfindlichste Methode auf Artenebene war PathoScope unter Verwendung der SILVA-Referenzbibliothek (Mittelwert = 0,86, SD = 0,15), gefolgt von PathoScope unter Verwendung von RefSeq2018 (Mittelwert = 0,67, SD = 0,16). Nur drei Arten wurden von PathoScope bei einer relativen Häufigkeit von mindestens 0,1 % in keiner Probe erkannt, wenn SILVA als Referenzbibliothek verwendet wurde; Dies waren Bifidobacterium jugendlichis, Prosthecobacter fusiformis und Clostridium beijerinckii.
Auf Gattungsebene war die durchschnittliche Lesezuweisungsspezifität für Kraken 2 mit seiner Standardbibliothek im Allgemeinen niedriger (Mittelwert = 0,719, SD = 0,26); PathoScope und QIIME 2 mit Greengenes (PathoScope: Mittelwert = 0,72, SD = 0,26; QIIME 2: Mittelwert = 0,73, SD = 0,28); und DADA2, Kraken 2 und Mothur mit SILVA (DADA2: Mittelwert = 0,75, SD = 0,37; Kraken 2: Mittelwert = 0,75, SD = 0,2; Mothur: Mittelwert = 0,76, SD = 0,22). (Abb. 2C). Allerdings ergaben sich bei paarweisen Tests zwischen Pipelines und Datenbankpaarungen keine allgemeinen Trends (siehe Tabelle S4 für paarweise p-Werte). PathoScope mit der RefSeq2018-Bibliothek (Mittelwert = 0,91, SD = 0,15) und Kraken 2 mit Greengenes (Mittelwert = 0,89, SD = 0,18) hatten insgesamt die höchste Lesezuweisungsspezifität.
Auf Artenebene hatten sowohl Kraken 2 als auch QIIME 2 gepaart mit Greengenes die niedrigste Lesezuordnungsspezifität (Kraken 2: Mittelwert = 0,21, SD = 0,17; QIIME 2: Mittelwert = 0,23, SD = 0,2), die deutlich niedriger war als alle anderen Methoden (siehe Tabelle S5 für paarweise p-Werte). PathoScope war in Kombination mit der SILVA-Bibliothek (Mittelwert = 0,75, SD = 0,18), RefSeq2020 (Mittelwert = 0,75, SD = 0,24) oder RefSeq2018 (Mittelwert = 0,86, SD = 0,18) deutlich spezifischer als QIIME 2 und Kraken 2 (Abb. 2D).
Kraken 2 hatte die niedrigsten Fehlerraten, gemessen als logarithmischer NRMSE der Rohlesevorgänge, von allen auf Gattungsebene bewerteten Methoden, unabhängig von der verwendeten Referenzbibliothek (SILVA: Mittelwert = 3,78, SD = 0,58; Standard: Mittelwert = 4,02, SD). = 0,52, Greengenes: Mittelwert = 4,12, SD = 0,66). Diese waren deutlich niedriger als alle anderen Fehlerraten (siehe Tabelle S6 für paarweise Vergleichs-p-Werte). QIIME 2 hatte die höchste NRMSE auf Gattungsebene sowohl für die SILVA- als auch die Greengenes-Bibliothek aller Methoden (SILVA: Mittelwert = 5,36, SD = 0,54; Greengenes: Mittelwert = 5,36, SD = 0,54), neben DADA2 mit SILVA (Mittelwert = 0,35, SD = 0,55; Abb. 2E).
Auf Artenebene hatte Kraken 2 auch den niedrigsten logarithmischen NRMSE für seine Standarddatenbank und SILVA, die besser waren als alle anderen Methoden (Standard: Mittelwert = 3,77; SD = 0,5; SILVA: Mittelwert = 3,95, SD = 0,55; siehe Tabelle). S7 für paarweise Vergleichs-p-Werte). Es folgten PathoScope für die SILVA-Datenbank (Mittelwert = 4,28, SD = 0,48) und Kraken 2 mit Greengenes (Mittelwert = 4,38, SD = 0,8). Den schlechtesten NRMSE hatten erneut QIIME 2 mit Greengenes und DADA2 mit SILVA (QIIME 2: Mittelwert = 5,3, SD = 0,46; DADA2: Mittelwert = 5,29, SD = 0,45), die deutlich schlechter waren als alle anderen Methoden (Abb. 2F). ).
Von allen auf Artenebene bewerteten Methoden zeigte Kraken 2 gepaart mit Greengenes die größten Abweichungen von den erwarteten Alpha-Diversitätsindizes von Shannon (Abweichungsmittelwert = 1,05, SD = 1,06) und Simpson (Abweichungsmittelwert = 0,25, SD = 0,27), und zwar mit signifikant höhere Abweichungen als alle anderen Methoden (Tukey-bereinigter p < 0,001 in allen paarweisen Vergleichen). PathoScope stimmte im Allgemeinen besser mit den wahren Shannon-Indizes überein als alle anderen Methoden (RefSeq2020: Abweichungsmittelwert = 0,21, SD = 0,23; RefSeq2018: Abweichungsmittelwert = 0,27, SD = 0,28; Abb. 3A). Der gleiche Trend galt für die Simpson-Indizes.
Abweichung von echten Alpha-Diversitätsmetriken auf Artenebene. (A) Die absolute Differenz zwischen dem gemessenen Shannon-Alpha-Diversitätsindex und dem Shannon-Indexwert für die tatsächliche Zusammensetzung der Scheingemeinschaft und B) das Protokoll der absoluten Differenz zwischen den Schätzungen des Reichtums von Breakaway_nof1 und der tatsächlichen Anzahl der in jeder Scheingemeinschaft vorhandenen Arten. In beiden Fällen weisen Werte näher bei 0 auf eine genauere Schätzung der Alpha-Diversität innerhalb einer Stichprobe hin.
DADA2 meldete die am besten übereinstimmenden log breakaway_nof138-Indizes und wies im Durchschnitt eine deutlich geringere Abweichung von der tatsächlichen Anzahl vorhandener Arten auf als andere Methoden (Mittelwert = 1,37, SD = 3,07; Tukey-bereinigter p < 0,001 in allen paarweisen Vergleichen). Andererseits überschätzte Kraken 2 mithilfe seiner Standardbibliothek und SILVA häufig die Anzahl der vorhandenen Arten um mehrere Größenordnungen (Standard: Mittelwert = 6,17, SD = 1,82; SILVA: Mittelwert = 5,87, SD = 1,85) und schnitt schlechter ab als alle anderen Methoden (Abb. 3B).
Insgesamt schnitt keine einzelne Pipeline oder Referenzbibliothek bei allen Bewertungsmetriken am besten ab, es sind jedoch einige ganzheitliche Trends erkennbar, insbesondere auf Artenebene. Abbildung 4B zeigt, dass Sensitivität und Spezifität korrelierte Merkmale auf Artenebene sind (Spearmans r = 0,85) und dass PathoScope (unabhängig von der Referenzbibliothek) und Kraken 2 (mit seiner Standardbibliothek) den oberen rechten Quadranten dominieren, wo Sensitivität und Spezifität beides sind hoch. PathoScope zeichnet sich insbesondere durch Sensitivität und Spezifität aus, wenn es mit SILVA oder RefSeq2018 verwendet wird. In ähnlicher Weise zeigt Abb. 4C, dass der Fehler und die geschätzte Abweichung der Alpha-Diversität umgekehrt korrelieren (Spearmans r = − 0,57) und dass keine einzelne Methode die niedrigsten Abweichungen und Fehlerraten der Alpha-Diversität ergibt. Trends sind auf Gattungsebene nicht genau definiert (Abb. 4A).
Kombinierte Qualität der 16S-Analysemethoden. Streudiagramme relativer Metriken für jede 16S-Analysepipeline auf der Ebene der Gattung (A) und der Art (B, C). Jeder Punkt repräsentiert die Ergebnisse einer einzelnen Methode bei der Analyse einer einzelnen Schein-Community-Stichprobe. Die Farbe der Punkte richtet sich nach der verwendeten Analysepipeline/Referenzbibliothek. Schwerpunkte, die die Mittelwerte für jedes Pipeline-/Referenzbibliothekspaar darstellen, sind mit fett gedruckten Rauten markiert.
Scheinbakteriengemeinschaften, die entweder aus Spike-in-DNA-Sequenzen stammen oder aus Mischungen bakterieller Zellmonokulturen extrahiert wurden, bieten den Anschein einer „Grundwahrheit“ zur Bewertung von 16S-Amplikon-Sequenzierungsanalysemethoden. Im Idealfall würde die Kenntnis, welche Arten in welchen Mengen in einer echten Mikrobiomprobe vorhanden sein sollten, eine genaue Identifizierung bei jeder Analyse ermöglichen. Natürlich gibt es bei Sequenzierungsexperimenten Komplikationen: Bei jedem Schritt des Experiments werden in die Proben technische Verzerrungen und Fehler eingebracht, bis sie sicher als Bits in einer FASTQ-Datei auf einem Server versiegelt werden. Die relative Häufigkeit von Scheinarten kann durch subtile Variationen in der Pipettiertechnik beeinflusst werden, da Spike-in-DNA aus einzelnen Quellen aliquotiert wird. Spike-in-DNA könnte aus mutierter DNA kloniert worden sein oder ein früher PCR-Fehler könnte sich über einen gesamten kommerziellen Bestand an Nukleinsäuren ausgebreitet haben. Verschiedene Bakterienarten unterscheiden sich in der Lyseschwierigkeit42, was dazu führt, dass einige Arten in den gesammelten cDNA-Bibliotheken einer Platte unterrepräsentiert sind oder sogar fehlen43. Während 16S-Amplifikationsprimer so konzipiert sind, dass sie an universell konservierte Regionen des 16S-rRNA-Gens binden, gibt es während der PCR44 eindeutig immer noch eine gewisse Amplifikationsverzerrung. Kontaminationen durch Reagenzien45, lokale Bakterien in der Luft, auf Handschuhen oder in einer Pipettenspitzenbox können die Sache zusätzlich erschweren. Daher können Einschränkungen verschiedener experimenteller Bedingungen und Methoden die Qualität der Ergebnisse von Scheingemeinschaften dramatisch beeinträchtigen. Aktuelle Sequenzierungsfehler und Kontaminationen deuten darauf hin, dass Amplikon-Reads nicht so präzise mit Taxa identifiziert werden, wie dies bei einem sauberen, gleichmäßig verteilten Satz von Sequenzen der Fall wäre, die aus einem geschlossenen Satz gut charakterisierter Arten stammen. Es sollte dann klar sein, dass es theoretisch keine Analyse-Pipeline geben kann, um eine Schein-Community perfekt zu messen. Eine solche Leistung würde erfordern, nur die erwarteten Arten in ihren genauen Proportionen zu identifizieren, ohne fremde Beobachtungen. Daher ist die annähernd beste Methode zur Analyse von 16S-Amplikon-Sequenzierungsdaten eine, die den Aufbau des Mikrobioms so wahrheitsgetreu wie möglich identifiziert. Schein-Mikrobengemeinschaften können ein gleichwertiges Testgelände für bestehende Tools bieten, um ihre relativen Stärken und Schwächen in der Leistung zu ermitteln.
Von den getesteten Pipelines wurden sowohl QIIME 2 als auch Mothur speziell für die 16S-Amplikon-Sequenzanalyse entwickelt und gebaut. Jedes verfügt über eine Reihe von Hilfsfunktionen, die Forscher bei der Verarbeitung ihrer Daten vom Sequenzierer bis hin zur Differentialhäufigkeitsanalyse und Visualisierungen unterstützen. Beide werden typischerweise mit der Referenzbibliothek einer speziellen bakteriellen 16S-rRNA-Gensequenzdatenbank für das Alignment gebündelt (z. B. Greengenes für QIIME 2, SILVA für Mothur). Unsere Ergebnisse liefern jedoch starke Beweise dafür, dass PathoScope und Kraken 2 QIIME 2, Mothur und DADA2 übertreffen, selbst wenn Lesevorgänge mit identischen Referenzdatenbanken verglichen werden. Interessanterweise tritt dieses Phänomen trotz des Status von Kraken 2 und PathoScope als allgemeinere Werkzeuge für die Sequenzierung des gesamten Genoms und Metagenomikdaten auf. Bei paarweisen Vergleichen ist PathoScope bei der Taxon-Erkennung empfindlicher und spezifischer, hat einen niedrigeren Fehlerwert als DADA2, QIIME 2 oder Mothur und verfügt über vergleichbare Schätzungen des Alpha-Diversitätsindex sowohl auf Gattungs- als auch auf Artenebene. Im Allgemeinen bestätigte die Outperformance von SILVA gegenüber Greengenes die Ergebnisse früherer Benchmarks von 16S-Amplikon-Sequenzierungsanalysemethoden20,21,22,23,46. Dies ist wahrscheinlich auf mehrere Faktoren zurückzuführen, darunter die geringe Größe der Greengenes-Datenbank im Vergleich zu SILVA (99.000 gegenüber 190.000) und die Tatsache, dass diese Version von Greengenes seit 2013 nicht mehr aktualisiert wurde47.
Kraken 2 war bei Verwendung mit seiner Standardbibliothek selten die leistungsstärkste Analysemethode in Bezug auf Sensitivität oder Spezifität, obwohl es im Allgemeinen weniger fehleranfällig war als QIIME 2, Mothur oder jedes andere Tool, das Greengenes als Referenzbibliothek verwendet. Kraken 2 hat den zusätzlichen praktischen Nutzen, dass es extrem schnell und einfach zu bedienen ist. Eine Einschränkung bei der Analyse der Kraken-2-Ergebnisse besteht jedoch darin, dass sie nicht von einer bestimmten Taxonebene aus hochgerechnet werden können, wohingegen PathoScope, QIIME 2 und Mothur alle die Rückverfolgung der taxonomischen Hierarchie einer bestimmten Mikrobe ermöglichen. Sowohl QIIME 2 als auch Mothur nutzen naive Bayes-Klassifikatoren, die am effizientesten funktionieren, wenn sie auf die spezifische Region des 16S-rRNA-Gens trainiert werden, die durch PCR-Primer amplifiziert wird. Insgesamt war PathoScope am empfindlichsten bei der Erkennung von Taxa und spezifisch bei der Zuweisung von Lesevorgängen und das am wenigsten fehleranfällige Tool, wenn es mit SILVA oder RefSeq2018 kombiniert wurde. Sie war jedoch nicht ohne Einschränkungen, da ihr Rechenaufwand offenbar um eine Größenordnung über dem anderer Methoden lag. Dies zeigte sich an großen zwischenzeitlichen SAM-Dateien (> 128 GB) und Laufzeiten in der Größenordnung von mehreren Stunden, während insbesondere Kraken 2 nur wenige Minuten dauerte. Abgesehen von den Problemen wird PathoScope unabhängig von der verwendeten Datenbank wahrscheinlich QIIME 2, DADA2 und Mothur bei der Identifizierung übertreffen. Dieser Befund resultiert zum Teil aus dem Bayesian Mixed Modeling-Identifikationsalgorithmus von PathoScope, der die Möglichkeit berücksichtigt, dass mehrere Arten in der Probe vorhanden sein können oder dass der Zielstamm nicht in der Referenzdatenbank vorhanden ist. PathoScope übertraf Kraken 2 in den meisten Fällen durchweg, obwohl der Unterschied oft gering und statistisch nicht signifikant besser war. Insgesamt zeigen diese Vergleiche, dass Methoden, die für allgemeine Metagenomikanalysen entwickelt wurden, durchweg die Methoden übertreffen, die speziell für die Analyse von 16S-Daten entwickelt wurden.
Während viele Arten anhand ihrer 16S-rRNA-Gensequenz oder einer einzelnen hypervariablen Region identifizierbar sind, ist es wichtig zu beachten, dass eine unvollständige Genauigkeit auf dieser Ebene nicht nur ein rechnerisches Problem ist. Obwohl beispielsweise das 16S-rRNA-Gen etwa 1550 bp lang ist, umfassen die kurzen Sequenzierungsablesungen, die bei den meisten Next-Generation-Sequencing-Verfahren (NGS) erhalten werden, nur etwa 250–500 Basen und weisen keine ideale Auflösung auf Artenebene auf48. Im Vergleich zu NGS haben Long-Read-Sequenzierungstechnologien nachweislich eine bessere Leistung bei der Klassifizierung auf Gattungs- und Artenebene erbracht49,50. Wir beobachteten in unserer Studie auch Unterschiede zwischen den Ergebnissen von 15 Proben, die mit Ion Torrent-Sequenzierung sequenziert wurden, im Vergleich zu Proben aus denselben Scheingemeinschaften, die mit Illumina Miseq sequenziert wurden. Darüber hinaus besteht eine wesentliche Einschränkung bei 16S-Amplikonstudien darin, dass einige Bakteriengruppen mit identischer 16S-DNA in der häufig sequenzierten V4-Region existieren. Diese Gruppen schwer zu identifizierender Bakterien machen den Großteil der falschen Aufrufe von Kraken 2 und PathoScope aus. Beispielsweise wurde Bifidobacterium jugendlichis durch alle Methoden fast überall fälschlicherweise als andere Bifidobacterium-Arten klassifiziert, und Prosthecobacter fusiformis wurde häufig fälschlicherweise als Prosthecobacter dejongeii identifiziert, eine Art, mit der es über 99 % seiner 16S-DNA-Sequenz gemeinsam hat51. Noch weitere Komplikationen entstehen dadurch, dass viele Bakterien über mehrere Kopien des 16S-rRNA-Gens verfügen, die möglicherweise nicht zwischen den Operons innerhalb eines Genoms identisch sind52. Dieser letzte Punkt könnte zum Teil der Grund dafür sein, dass metagenomische Methoden wie Kraken 2 und PathoScope bestimmte Methoden wie QIIME 2 und Mothur übertreffen, insbesondere auf Artenebene. Die metagenomischen Methoden sind besser darauf ausgelegt, mehrere 16S-rRNA-Gene zu berücksichtigen, sofern vorhanden.
Eine der größten Fehlerquellen und verlorenen Taxon-Erkennungsempfindlichkeitsaufrufe bei PathoScope bei der Verwendung der RefSeq2020-Bibliothek ist ein offensichtlich fehlerhaftes Referenzgenomgerüst in den repräsentativen RefSeq-Genomen. In allen Scheingemeinschaftsproben, die Escherichia coli enthielten, berichtete PathoScope mit RefSeq2020 über das Vorhandensein von Tumebacillus flagellates in relativen Häufigkeiten, die eng mit den erwarteten Werten von E. coli korrelierten (Pearsons r = 0,959). Die Umstände deuten stark darauf hin, dass Lesevorgänge, die tatsächlich von E. coli stammen, fälschlicherweise T. flagellates zugeordnet wurden. T. flagellates gehört nicht einmal zum selben Stamm wie E. coli, daher wäre eine zufällige Fehlzuordnung von Lesevorgängen zwischen den Arten aufgrund der Ähnlichkeit der 16S-Sequenzen äußerst unwahrscheinlich. Stattdessen ergab ein paarweiser BLAST-Vergleich der 16S-rRNA-Gensequenz von E. coli mit den Gerüsten von T. flagellates unter Verwendung des genauen RefSeq-Eintrags, dem PathoScope diese Lesevorgänge zugewiesen hatte (Zugang: NZ_JMIR01000093)53, dass ein Gerüst von T. flagellates eine 100-prozentige Identitätsausrichtung aufwies über 911 bp. Der Befund stellt möglicherweise einen Fall eines horizontalen Gentransfers des 16S-rRNA-Gens dar, es erscheint jedoch weitaus wahrscheinlicher, dass eine E. coli-Kontamination in der DNA-Bibliothek vorlag, die dann sequenziert und zu T. flagellates-Gerüsten zusammengesetzt wurde. Bei weiteren Untersuchungen stellte sich heraus, dass dies lediglich ein Beispiel für eine allgegenwärtige Sequenzkontamination ist, also die versehentliche Aufnahme von Sequenzen aus anderen Organismen oder die Fehlklassifizierung von Sequenzen in öffentlichen Genomdatenbanken. Dieses Phänomen wurde kürzlich in der NCBI RefSeq-Datenbank54,55,56 untersucht. Die jüngste Verbreitung von Hochdurchsatz und die zunehmend niedrigen Kosten von Next-Generation-Sequencing-Technologien (NGS) haben zu einem schnellen Anstieg der in den RefSeq-Bibliotheken verfügbaren veröffentlichten Genome geführt, obwohl unvollständige Methoden und Protokolle für Sequenzierungsdaten zu hohen Kontaminationsraten beitragen. Die menschliche Kontamination in veröffentlichten Genomen stellt zwar in 16S-Analysen kein Problem dar, ist jedoch ein besonders frustrierendes Problem bei der Analyse von Daten zur Schrotflinten-Metagenomik. Metagenomische Read-Mapping-Ansätze wie Kraken 2 und PathoScope bieten eindeutig das Potenzial für die Entwicklung neuartiger Qualitätskontrollpipelines für RefSeq und andere Genomsequenzdatenbanken.
Die zunehmende Verbreitung einer schlechten Sequenzierungsqualitätskontrolle erklärt, warum die RefSeq 2018-Bibliotheken häufig eine bessere Leistung erbrachten als die 2020-Bibliotheken. Es wurden viele Tools entwickelt, um Kontaminationsfehler in Sequenzen und öffentlichen Datenbanken zu identifizieren und zu korrigieren56,57,58,59,60, aber dies ist ein anhaltendes Problem, das zusätzliche Filter- und Korrekturanstrengungen erfordert, nachdem Bibliotheken direkt aus dem öffentlichen Repository abgerufen wurden. Angesichts der höheren Spezifität und Empfindlichkeit von PathoScope bei Verwendung der RefSeq-Bibliothek 2018 gegenüber der Bibliothek 2020 empfehlen wir die Verwendung älterer RefSeq-Bibliotheken, bis neuere Versionen verarbeitet wurden, um Kontaminationen zu entfernen. Interessant ist auch die hohe Genauigkeit von SILVA bei seinen Artenaufrufen bei Verwendung von PathoScope, auch wenn es bei Verwendung mit QIIME 2, Mothur oder Kraken 2 nicht für solche Aufrufe verwendet werden kann. SILVA stellt auch eine praktikable Alternative zu den RefSeq-Bibliotheken in dar Vermeidung von Kontaminationen.
Wir stellen fest, dass wir bei der Durchführung dieses Benchmarks versucht haben, mehrere gängige 16S-Amplikon-Sequenzierungsanalyse-Pipelines neben Metagenomik-Analyse-Pipelines zu evaluieren. 16S-Pipelines wurden aufgrund ihrer Leistung sowie ihrer Verbreitung in zuvor veröffentlichten Benchmarks ausgewählt. Um Metagenomik-Pipelines zu identifizieren, haben wir ein zuvor veröffentlichtes Metagenomik-Benchmarking-Papier18 verwendet. Miossec et al. stellte fest, dass PathoScope 2.0 und Kraken unter den getesteten Pipelines eine hohe Sensitivität und Spezifität in den Benchmark-Ergebnissen aufwiesen. Wir betonen jedoch, dass ein weiterer Vergleich anderer Metagenomanalyse-Pipelines wie MetaMix61, Centrifuge62 und Metaxa263 durchgeführt werden sollte, um ihre unterschiedliche Leistung zu analysieren, insbesondere wenn neue Methoden entwickelt und veröffentlicht werden.
DADA2, QIIME 2 und Mothur haben Schwierigkeiten, bei taxonomischen Analysen die Genauigkeit auf Gattungsebene oder granularer Artenebene aufrechtzuerhalten. Kraken 2 bietet trotz seines Hauptzwecks für metagenomische Analysen der Sequenzierung des gesamten Genoms mehr Leistung bei der Analyse von 16S-Daten, ohne dass die Rechenkosten steigen. PathoScope ist zwar rechenintensiver, liefert jedoch die empfindlichsten und genauesten Ergebnisse aller bewerteten Pipelines, wenn es an einer Vielzahl von Scheinproben aus Bakteriengemeinschaften verwendet wird. Analysepipelines, die SILVA als Referenzbibliothek nutzten, übertrafen die mit Greengenes deutlich, und PathoScope mit SILVA lieferte die höchsten Genauigkeiten und Empfindlichkeiten. Während Referenzbibliotheken für das gesamte Genom, wie beispielsweise Kraken 2s Standard oder die repräsentativen Genome von RefSeq, im Hinblick auf die Empfindlichkeit einige Vorteile gegenüber SILVA bieten können, können sie zu mehr falschen Aufrufen auf Artenebene führen. Basierend auf der hier durchgeführten Forschung mit Schein-Mikrobengemeinschaften empfehlen wir SILVA und RefSeq gegenüber anderen Datenbanken und raten dringend davon ab, die Greengenes-Referenzbibliothek für zukünftige Analysen zu verwenden. Obwohl sie aufgrund des Veröffentlichungsdatums nicht in unserer Analyse enthalten ist, empfehlen wir Benutzern, die Greengenes230-Referenzbibliothek als phylogeniebasierte Verbesserung gegenüber Greengenes auszuprobieren. Wir empfehlen außerdem PathoScope und Kraken 2 als voll funktionsfähige, wettbewerbsfähige Optionen für die Analyse von 16S-Amplikon-Sequenzierungsdaten auf Gattungs- und Artenebene und übertreffen andere Tools bei der Verwendung von Shotgun-Metagenomikdaten
18.
In der Analyse verwendete Referenzbibliotheken sind im folgenden GitHub-Repository verfügbar: https://github.com/aubreyodom/16SBenchmarking.
Kumar, PS Microbiomics: Haben wir uns vorher alle geirrt? Parodontologie 2000 85(1), 8–11 (2021).
Artikel PubMed Google Scholar
Johnson, JS et al. Auswertung der 16S-rRNA-Gensequenzierung für die Mikrobiomanalyse auf Arten- und Stammebene. Nat. Komm. 10(1), 5029. https://doi.org/10.1038/s41467-019-13036-1 (2019).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Callahan, BJ, McMurdie, PJ & Holmes, SP Exakte Sequenzvarianten sollten operative taxonomische Einheiten in der Markergen-Datenanalyse ersetzen. ISME J. 11(12), 2639–2643. https://doi.org/10.1038/ismej.2017.119 (2017).
Artikel PubMed PubMed Central Google Scholar
Callahan, BJ et al. DADA2: Hochauflösende Probeninferenz aus Illumina-Amplikondaten. Nat. Methoden 13(7), 581–3. https://doi.org/10.1038/nmeth.3869 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Bolyen, E. et al. Reproduzierbare, interaktive, skalierbare und erweiterbare Mikrobiom-Datenwissenschaft mit QIIME 2. Nat. Biotechnologie. 37(8), 852–857. https://doi.org/10.1038/s41587-019-0209-9 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Caporaso, JG et al. QIIME ermöglicht die Analyse von Community-Sequenzierungsdaten mit hohem Durchsatz. Nat. Methoden. 7(5), 335–336. https://doi.org/10.1038/nmeth.f.303 (2010).
Artikel CAS PubMed PubMed Central Google Scholar
Schloss, PD et al. Wir stellen vor: mothur: Open-Source, plattformunabhängige, Community-unterstützte Software zur Beschreibung und zum Vergleich mikrobieller Gemeinschaften. Appl. Umgebung. Mikrobiol. 75(23), 7537–7541. https://doi.org/10.1128/AEM.01541-09 (2009).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Kopylova, E. et al. Open-Source-Sequenz-Clustering-Methoden verbessern den Stand der Technik. mSystems https://doi.org/10.1128/mSystems.00003-15 (2016).
Artikel PubMed PubMed Central Google Scholar
Westcott, SL & Schloss, PD De-novo-Clustering-Methoden übertreffen referenzbasierte Methoden zur Zuordnung von 16S-rRNA-Gensequenzen zu operativen taxonomischen Einheiten. PeerJ 3, e1487. https://doi.org/10.7717/peerj.1487 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Edgar, RC Aktualisierung der 97 %-Identitätsschwelle für 16S-ribosomale RNA-OTUs. Bioinformatik 34(14), 2371–2375. https://doi.org/10.1093/bioinformatics/bty113 (2018).
Artikel CAS PubMed Google Scholar
Amir, A. et al. Deblur löst schnell Einzelnukleotid-Gemeinschaftssequenzmuster auf. mSystems https://doi.org/10.1128/mSystems.00191-16 (2017).
Artikel PubMed PubMed Central Google Scholar
Hong, C. et al. PathoScope 2.0: Ein vollständiger Computerrahmen zur Stammidentifizierung in Umwelt- oder klinischen Sequenzierungsproben. Mikrobiom 2, 33. https://doi.org/10.1186/2049-2618-2-33 (2014).
Artikel PubMed PubMed Central Google Scholar
Francis, OE et al. Pathoskop: Artenidentifizierung und Stammzuordnung anhand nicht zusammengestellter Sequenzierungsdaten. Genomres. 23(10), 1721–1729 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Byrd, AL et al. Clinical PathoScope: Schnelle Ausrichtung und Filterung zur genauen Pathogenidentifizierung in klinischen Proben unter Verwendung nicht zusammengesetzter Sequenzierungsdaten. BMC Bioinform. 15(1), 1–14 (2014).
Artikel Google Scholar
Wood, DE, Lu, J. & Langmead, B. Verbesserte metagenomische Analyse mit Kraken 2. Genome Biol. 20(1), 257. https://doi.org/10.1186/s13059-019-1891-0 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
He, Y. et al. Stabilität operativer taxonomischer Einheiten: Eine wichtige, aber vernachlässigte Eigenschaft für die Analyse der mikrobiellen Diversität. Mikrobiom 3, 20. https://doi.org/10.1186/s40168-015-0081-x (2015).
Artikel PubMed PubMed Central Google Scholar
Nearing, JT, Douglas, GM, Comeau, AM & Langille, MGI Denoising the Denoisers: Eine unabhängige Bewertung von Ansätzen zur Korrektur von Mikrobiomsequenzfehlern. PeerJ 6, e5364. https://doi.org/10.7717/peerj.5364 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Miossec, MJ et al. Evaluierung rechnerischer Methoden zur Analyse des menschlichen Mikrobioms anhand simulierter Daten. PeerJ 8, e9688 (2020).
Artikel PubMed PubMed Central Google Scholar
Miossec, MJ, Valenzuela, SL, Mendez, KN & Castro-Nallar, E. Computergestützte Methoden zur Analyse des menschlichen Mikrobioms. Curr. Protokoll. Mikrobiol. 47(1), 141–1417 (2017).
Google Scholar
Dixit, K. et al. Benchmarking von 16S-rRNA-Gendatenbanken unter Verwendung bekannter Stammsequenzen. Bioinformation 17(3), 377–391. https://doi.org/10.6026/97320630017377 (2021).
Artikel PubMed PubMed Central Google Scholar
López-García, A. et al. Vergleich von Mothur und QIIME zur Analyse der Pansen-Mikrobiota-Zusammensetzung basierend auf 16S-rRNA-Amplikonsequenzen. Vorderseite. Mikrobiol. 9, 3010. https://doi.org/10.3389/fmicb.2018.03010 (2018).
Artikel PubMed PubMed Central Google Scholar
Almeida, A., Mitchell, AL, Tarkowska, A. & Finn, RD Benchmarking taxonomischer Zuordnungen basierend auf der 16S-rRNA-Genprofilierung der Mikrobiota aus häufig beprobten Umgebungen. Gigascience https://doi.org/10.1093/gigascience/giy054 (2018).
Artikel PubMed PubMed Central Google Scholar
Lu, J. & Salzberg, SL Ultraschnelle und genaue 16S-rRNA-Mikrobengemeinschaftsanalyse mit Kraken 2. Mikrobiom. 8(1), 124. https://doi.org/10.1186/s40168-020-00900-2 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
DeSantis, TZ et al. Greengenes, eine chimärengeprüfte 16S-rRNA-Gendatenbank und Workbench, die mit ARB kompatibel ist. Appl. Umgebung. Mikrobiol. 72(7), 5069–5072. https://doi.org/10.1128/AEM.03006-05 (2006).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Quast, C. et al. Das SILVA-Ribosomal-RNA-Gendatenbankprojekt: Verbesserte Datenverarbeitung und webbasierte Tools. Nukleinsäuren Res. 41, D590-6. https://doi.org/10.1093/nar/gks1219 (2013).
Artikel CAS PubMed Google Scholar
Cole, JR et al. Ribosomale Datenbankprojekt: Daten und Werkzeuge für die Hochdurchsatz-rRNA-Analyse. Nukleinsäuren Res. 42, D633-42. https://doi.org/10.1093/nar/gkt1244 (2014).
Artikel CAS PubMed Google Scholar
Lappan, R. et al. Eine Mikrobiom-Fallkontrollstudie zu rezidivierenden akuten Mittelohrentzündungen identifizierte potenziell schützende Bakteriengattungen. BMC Mikrobiol. 18(1), 13. https://doi.org/10.1186/s12866-018-1154-3 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
De Boeck, I. et al. Der Vergleich der gesunden Mikrobiota der Nase und des Nasopharynx zeigt sowohl Kontinuität als auch Nischenspezifität. Vorderseite. Mikrobiol. 8, 2372. https://doi.org/10.3389/fmicb.2017.02372 (2017).
Artikel PubMed PubMed Central Google Scholar
Lapidot, R. et al. Nasopharyngeale Dysbiose geht der Entwicklung von Infektionen der unteren Atemwege bei jungen Säuglingen voraus: Eine Längsschnittstudie für Säuglinge. medRxiv 2, 1 (2021).
Google Scholar
McDonald, D. et al. Greengenes2 ermöglicht ein gemeinsames Datenuniversum für Mikrobiomstudien. bioRxiv https://doi.org/10.1101/2022.12.19.520774 (2023).
Artikel PubMed PubMed Central Google Scholar
Schoch, CL et al. NCBI-Taxonomie: Ein umfassendes Update zu Kuration, Ressourcen und Tools. Datenbank 01(01), 2020. https://doi.org/10.1093/database/baaa062 (2020).
Artikel CAS Google Scholar
O'Leary, NA et al. Referenzsequenzdatenbank (RefSeq) am NCBI: Aktueller Status, taxonomische Erweiterung und funktionale Annotation. Nukleinsäuren Res. 44(D1), D733–D745. https://doi.org/10.1093/nar/gkv1189 (2016).
Artikel CAS PubMed Google Scholar
Lluch, J. et al. Die Charakterisierung neuartiger Gewebemikrobiota mithilfe einer optimierten metagenomischen 16S-Sequenzierungspipeline. PLoS ONE 10(11), e0142334. https://doi.org/10.1371/journal.pone.0142334 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Kozich, JJ, Westcott, SL, Baxter, NT, Highlander, SK & Schloss, PD Entwicklung einer Dual-Index-Sequenzierungsstrategie und Kurationspipeline zur Analyse von Amplikon-Sequenzdaten auf der MiSeq Illumina-Sequenzierungsplattform. Appl. Umgebung. Mikrobiol. 79(17), 5112–5120. https://doi.org/10.1128/AEM.01043-13 (2013).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Fouhy, F., Clooney, AG, Stanton, C., Claesson, MJ & Cotter, PD 16S-rRNA-Gensequenzierung von Schein-Mikrobenpopulationen: Einfluss der DNA-Extraktionsmethode, der Primerwahl und der Sequenzierungsplattform. BMC Mikrobiol. 16(1), 123. https://doi.org/10.1186/s12866-016-0738-z (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Karstens, L. et al. Kontrolle auf Kontaminanten in 16S-rRNA-Gensequenzierungsexperimenten mit geringer Biomasse. mSystems https://doi.org/10.1128/mSystems.00290-19 (2019).
Artikel PubMed PubMed Central Google Scholar
Oksanen, J. et al. Das Vegan-Paket: Community Ecology Package, Version 1.13-1. https://www.veganr-forger-project.org (2008).
Willis, A. Schätzung des Artenreichtums mit hoher Diversität, aber falschen Singletons. arXiv-Vorabdruck arXiv:160402598. 2016;
Lundin, D. et al. Welche Sequenzierungstiefe reicht aus, um Muster in der bakteriellen α- und β-Diversität zu beschreiben? Umgebung. Mikrobiol. Rep. 4(3), 367–372. https://doi.org/10.1111/j.1758-2229.2012.00345.x (2012).
Artikel CAS PubMed Google Scholar
Bates, D., Maechler, M., Bolker, B. & Walker, S. Anpassung linearer Mixed-Effects-Modelle mit lme4. J. Stat. Softw. 67, 1–48 (2015).
Artikel Google Scholar
Lenth, RV Mittel der kleinsten Quadrate: Das R-Paket lsmeans. J. Stat. Softw. 69, 1–33 (2016).
Artikel Google Scholar
Gill, C., van de Wijgert, JH, Blow, F. & Darby, AC Bewertung von Lysemethoden zur Extraktion bakterieller DNA zur Analyse der vaginalen Mikrobiota. PLoS ONE 11(9), e0163148. https://doi.org/10.1371/journal.pone.0163148 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Boers, SA, Jansen, R. & Hays, JP Verständnis und Überwindung der Fallstricke und Vorurteile von Next-Generation-Sequencing-Methoden (NGS) für den Einsatz im routinemäßigen klinischen mikrobiologischen Diagnoselabor. EUR. J. Clin. Mikrobiol. Infizieren. Dis. 38(6), 1059–1070. https://doi.org/10.1007/s10096-019-03520-3 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Sze, MA & Schloss, PD Der Einfluss der DNA-Polymerase und der Anzahl der Amplifikationsrunden in der PCR auf 16S-rRNA-Gensequenzdaten. mSphere https://doi.org/10.1128/mSphere.00163-19 (2019).
Artikel PubMed PubMed Central Google Scholar
Salter, SJ et al. Reagenzien- und Laborkontaminationen können sequenzbasierte Mikrobiomanalysen entscheidend beeinflussen. BMC Biol. 12(1), 1–12 (2014).
Artikel Google Scholar
Straub, D. et al. Interpretationen von Studien zur Umweltmikrobengemeinschaft werden durch die ausgewählte 16S-rRNA-(Gen)-Amplikon-Sequenzierungspipeline verzerrt. Vorderseite. Mikrobiol. 11, 550420. https://doi.org/10.3389/fmicb.2020.550420 (2020).
Artikel PubMed PubMed Central Google Scholar
Park, S.-C. & Won, S. Auswertung von 16S-rRNA-Datenbanken für taxonomische Zuordnungen mithilfe einer Schein-Community. Genom. Informieren. 16(4), e24 (2018).
Artikel Google Scholar
Yang, B., Wang, Y. & Qian, P.-Y. Sensitivität und Korrelation hypervariabler Regionen in 16S-rRNA-Genen in der phylogenetischen Analyse. BMC Bioinform. 17(1), 1–8 (2016).
Artikel CAS Google Scholar
Nygaard, AB, Tunsjø, HS, Meisal, R. & Charnock, C. Eine vorläufige Studie zum Potenzial der Nanopore MinION- und Illumina MiSeq 16S-rRNA-Gensequenzierung zur Charakterisierung von Baustaub-Mikrobiomen. Wissenschaft. Rep. 10(1), 1–10 (2020).
Artikel Google Scholar
Pearman, WS, Freed, NE & Silander, OK Testen der Vor- und Nachteile der eukaryotischen Metagenomik mit kurzen und langen Lesevorgängen mithilfe simulierter Lesevorgänge. BMC Bioinform. 21(1), 1–15 (2020).
Artikel Google Scholar
Lee, J., Park, B., Woo, SG & Park, J. Prosthecobacter algae sp. nov., isoliert aus Belebtschlamm unter Verwendung von Algenmetaboliten. Int. J. Syst. Entwicklung Mikrobiol. 64 (Teil 2), 663–667. https://doi.org/10.1099/ijs.0.052787-0 (2014).
Artikel CAS PubMed Google Scholar
Louca, S., Doebeli, M. & Parfrey, LW Die Korrektur der 16S-rRNA-Genkopienzahlen in Mikrobiomuntersuchungen bleibt ein ungelöstes Problem. Microbiome 6(1), 41. https://doi.org/10.1186/s40168-018-0420-9 (2018).
Artikel PubMed PubMed Central Google Scholar
Wang, Q. et al. Tumebacillus flagellatus sp. Nov., ein aus Maniokabwasser isoliertes α-Amylase/Pullulanase-produzierendes Bakterium. Int. J. Syst. Entwicklung Mikrobiol. 63 (Teil 9), 3138–3142. https://doi.org/10.1099/ijs.0.045351-0 (2013).
Artikel CAS PubMed Google Scholar
Lupo, V. et al. Kontamination in Referenzsequenzdatenbanken: Zeit für Teile-und-Herrsche-Taktiken. Vorderseite. Mikrobiol. 12, 755101. https://doi.org/10.3389/fmicb.2021.755101 (2021).
Artikel PubMed PubMed Central Google Scholar
Breitwieser, FP, Pertea, M., Zimin, AV & Salzberg, SL Durch die Kontamination menschlicher Bakteriengenome sind Tausende von falschen Proteinen entstanden. Genomres. 29(6), 954–960. https://doi.org/10.1101/gr.245373.118 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Steinegger, M. & Salzberg, SL Kontamination beenden: Groß angelegte Suche identifiziert mehr als 2.000.000 kontaminierte Einträge in GenBank. Genombiol. 21(1), 115. https://doi.org/10.1186/s13059-020-02023-1 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Lu, J. & Salzberg, SL Entfernen von Kontaminanten aus Datenbanken mit Entwurfsgenomen. PLoS Comput. Biol. 14(6), e1006277. https://doi.org/10.1371/journal.pcbi.1006277 (2018).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Cornet, L. & Baurain, D. Kontaminationserkennung in Genomdaten: Mehr ist nicht genug. Genombiol. 23(1), 60. https://doi.org/10.1186/s13059-022-02619-9 (2022).
Artikel PubMed PubMed Central Google Scholar
De Simone, G. et al. Kontaminationen in (Meta-)Genomdaten: Ein offenes Thema für die wissenschaftliche Gemeinschaft. IUBMB Life 72(4), 698–705. https://doi.org/10.1002/iub.2216 (2020).
Artikel CAS PubMed Google Scholar
Nasko, DJ, Koren, S., Phillippy, AM & Treangen, TJ Das Wachstum der RefSeq-Datenbank beeinflusst die Genauigkeit der k-mer-basierten Identifizierung der niedrigsten gemeinsamen Vorfahrenarten. Genombiol. 19(1), 1–10 (2018).
Artikel Google Scholar
Morfopoulou, S. & Plagnol, V. Bayesianische Mischungsanalyse zur metagenomischen Community-Profilierung. Bioinformatik 31(18), 2930–2938 (2015).
Artikel CAS PubMed Google Scholar
Kim, D., Song, L., Breitwieser, FP & Salzberg, SL Zentrifuge: Schnelle und empfindliche Klassifizierung metagenomischer Sequenzen. Genomres. 26(12), 1721–1729 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Bengtsson-Palme, J. et al. METAXA2: Verbesserte Identifizierung und taxonomische Klassifizierung von rRNA kleiner und großer Untereinheiten in metagenomischen Daten. Mol. Ökologisch. Ressource. 15(6), 1403–1414 (2015).
Artikel CAS PubMed Google Scholar
Referenzen herunterladen
TF und WEJ wurden teilweise vom NIH im Rahmen des Zuschusses R01GM127430 unterstützt. ARO und WEJ wurden teilweise vom NIH im Rahmen des Zuschusses R21AI154387 unterstützt.
Diese Autoren haben gleichermaßen beigetragen: Aubrey R. Odom und Tyler Faits.
Abteilung für Computational Biomedicine, Boston University School of Medicine, Boston, MA, USA
Aubrey R. Odom & Tyler Faits
Bioinformatikprogramm, Boston University, Boston, MA, USA
Aubrey R. Odom & Tyler Faits
Abteilung für Mikrobiologie, Fakultät für Gesundheitswissenschaften, Universität Talca, Campus Talca, Avda. Lircay S/N, Talca, Chile
Eduardo Castro-Nallar
Zentrum für Integrative Ökologie, Universität Talca, Campus Talca, Avda. Lircay S/N, Talca, Chile
Eduardo Castro-Nallar
Abteilung für Biostatistik und Bioinformatik, Computational Biology Institute, Milken Institute School of Public Health, The George Washington University, Washington, DC, USA
Keith A. Crandall
Abteilung für Infektionskrankheiten, Center for Data Science, Rutgers University – New Jersey Medical School, Newark, NJ, USA
W. Evan Johnson
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
TF, EC, KAC und WEJ konzipierten das Studiendesign. TF und ARO führten die Forschungsstudie durch, führten alle Rechenarbeiten durch, verfassten den Hauptmanuskripttext und bereiteten Abbildungen und Tabellen vor. WEJ schrieb auch den Haupttext des Manuskripts. Alle Autoren haben das endgültige Manuskript gelesen und genehmigt.
Korrespondenz mit W. Evan Johnson.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Odom, AR, Faits, T., Castro-Nallar, E. et al. Metagenomische Profiling-Pipelines verbessern die taxonomische Klassifizierung für 16S-Amplikon-Sequenzierungsdaten. Sci Rep 13, 13957 (2023). https://doi.org/10.1038/s41598-023-40799-x
Zitat herunterladen
Eingegangen: 14. September 2022
Angenommen: 16. August 2023
Veröffentlicht: 26. August 2023
DOI: https://doi.org/10.1038/s41598-023-40799-x
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.