Long-read sequencing: Oxford Nanopore en PacBio

Long-read sequencing is een verzameling sequencingtechnologieën die individuele DNA- of RNA-moleculen aflezen in leeslengtes van duizenden tot honderdduizenden basenparen — een fundamenteel ander werkingsprincipe dan de korte reads van next-generation sequencing (NGS). Twee platforms domineren dit domein: Oxford Nanopore Technologies (ONT) en Pacific Biosciences (PacBio). Elk platform heeft een eigen fysisch meetprincipe, eigen foutprofiel en eigen toepassingsgebied, maar beide leveren wat short-read NGS niet kan: directe uitlezing van lange, ononderbroken DNA- en RNA-sequenties, detectie van epigenetische modificaties zonder voorbehandeling, en ontwarring van structurele varianten en repetitieve genomische regio's.

Vergelijking van long-read sequencing platforms Oxford Nanopore en PacBio: werkingsprincipe, leeslengte en typische toepassingen

Wat is long-read sequencing?

De term long-read sequencing beschrijft technologieën van de derde generatie die individuele DNA- of RNA-moleculen aflezen zonder voorafgaande amplificatiestap. Dit onderscheidt deze platforms principieel van short-read NGS (Illumina), waarbij klusteramplificatie een vereiste is en de leeslengte beperkt blijft tot 75–300 basenparen (bp). Long-read platforms produceren reads van gemiddeld 10.000–50.000 bp, met uitschieters tot meer dan 1 megabasenpaar (Mbp) bij de nanopore-technologie.

De consequenties van deze leeslengte zijn verstrekkend. Repetitieve genomische regio's — centromeren, telomeren, tandem repeats, transposeerbare elementen — die bij short-read sequencing niet assembleerbaar zijn, kunnen met long reads als aaneengesloten sequentie worden gedekt. Structurele varianten (deleties, inserties, inversies, translocaties) van honderden tot duizenden bp worden direct zichtbaar als afwijking in één lees, in plaats van indirect beredeneerd uit gefragmenteerde short-read patronen. En RNA-moleculen worden rechtstreeks als volledige transcripten afgelezen, zonder omzetting naar cDNA en zonder het risico van amplificatiebias of splicing-artefacten.

Oxford Nanopore Technologies: nanopore-sequencing

Oxford Nanopore Technologies (ONT) introduceert een meetprincipe dat fundamenteel verschilt van alle andere sequencingtechnologieën: ionstroomdetectie door een biologische nanoporie. Een eiwit-nanoporie — doorgaans een gemodificeerde MspA- of CsgG-porie — is ingebed in een kunstmatig membraan. Wanneer een enkele DNA- of RNA-streng door de porie passeert, onderbreekt het molecuul de ionenstroom van een zoutoplossing. Elke combinatie van basen veroorzaakt een karakteristieke stroomverandering. Een getraind neuraal netwerk (basecaller, bijvoorbeeld Guppy of Dorado) vertaalt de ruwe stroomsignalen naar een basenvolgorde.

Platformoverzicht: MinION, GridION, PromethION

ONT biedt meerdere instrumentformaten. De MinION is een USB-apparaat van 90 gram dat verbinding maakt met een laptop en daarmee de kleinste volwaardige sequencer ter wereld is — inzetbaar op veldlocaties, in klinieken zonder infrastructuur of direct naast het experiment op de bank. De GridION verwerkt tot vijf flowcellen tegelijk en is geschikt voor middelgrote productieomgevingen. De PromethION is een schaalbaar hoogdoorvoer-instrument met tot 48 gelijktijdige flowcellen en genereert meerdere terabases per run, vergelijkbaar met Illumina NovaSeq-output maar met long-read leeslengtes.

Elke flowcel bevat duizenden nanoporiën die parallel actief zijn; de R10.4.1-chemie is de huidige standaard en heeft de oudere R9.4.1-chemie sinds 2024 vervangen. Flowcellen zijn verbruiksartikelen die na gebruik niet kunnen worden hergebruikt. De R10.4.1-chemie, gecombineerd met duplex-sequencing (waarbij beide strengen van hetzelfde molecuul worden afgelezen), haalt nauwkeurigheden van >Q20 (99%) per base.

Directe RNA-sequencing

Een unieke eigenschap van ONT is de mogelijkheid om RNA rechtstreeks te sequencen zonder cDNA-synthese. Bij directe RNA-sequencing (DRS) wordt een poly-A-geselecteerde RNA-populatie direct door de nanoporie gestuurd. Dit heeft twee fundamentele voordelen. Ten eerste worden splicing-isovormen, alternatieve poly-adenylering en alle post-transcriptionele modificaties (m6A-methylering, pseudouridine, inosine) behouden en kunnen zij worden gedetecteerd als signaalafwijkingen in het ruwe stroomsignaal. Ten tweede vervalt de amplificatiebias die bij iedere cDNA-synthese en PCR-stap optreedt, zodat transcriptabundanties betrouwbaarder zijn voor laag tot expressie komende transcripten. Naast poly-A-geselecteerd mRNA wordt directe RNA-sequencing ook ingezet voor volle-lengte 16S/18S rRNA-sequencing in microbioomstudies, waar de volledige variabele regio's V1–V9 in één molecuul worden afgelezen in plaats van fragmenten zoals bij short-read amplicon-NGS.

Methylatiedetectie zonder bisulfietbehandeling

ONT detecteert DNA-methylering rechtstreeks uit het ruwe nanopore-signaal. Methylcytosine (5mC) en hydroxymethylcytosine (5hmC) veroorzaken een meetbaar andere ionstroomverandering dan ongemodificeerde cytosine. Basecallers als Dorado kunnen de methylatiestatus per CpG-positie rapporteren zonder bisulfietconversie — de chemische behandeling die bij conventionele methylatieanalyse de meeste DNA-schade veroorzaakt en die het onderscheid tussen 5mC en 5hmC niet mogelijk maakt.

Pacific Biosciences: SMRT-sequencing en HiFi

PacBio gebruikt een fundamenteel ander optisch principe: single molecule real-time sequencing (SMRT). Een SMRT-cel bevat honderdduizenden nano-putten, zero-mode waveguides (ZMW's) genaamd. In elk ZMW is één DNA-polymerase-molecuul verankerd. Wanneer het polymerase een fluorescent gelabeld nucleotide inbouwt, vult de fluorescentiepuls het putvolume lang genoeg om detecteerbaar te zijn. De volgorde van kleurpulsen en de tijdsintervallen tussen inbouwen bepalen de basenvolgorde.

CCS/HiFi-reads: hoge nauwkeurigheid bij long reads

PacBio's meest gebruikte modus is Circular Consensus Sequencing (CCS), ook wel HiFi-sequencing. Hierbij wordt een cirkelvormig DNA-molecuul herhaaldelijk door het polymerase afgelezen (de cirkel wordt meerdere malen rondgelopen). De subread-passes worden bioinformatisch geconsenseerd tot één enkele HiFi-read. Bij drie of meer passes stijgt de consensusnauwkeurigheid naar >Q30 (99,9%); bij vijf of meer passes wordt Q40+ bereikt. Gemiddelde HiFi-leeslengtes liggen bij 10.000–25.000 bp, wat de combinatie van hoge nauwkeurigheid én lange leeslengte uniek maakt onder sequencingplatforms.

HiFi-data worden beschouwd als de huidige goudstandaard voor de novo genomische assemblage van diploïde organismen, omdat de reads lang genoeg zijn om repetitieve regio's te overspannen en nauwkeurig genoeg om SNP's in heterozygote genomen te onderscheiden zonder aanvullende short-read validatie.

Revio en Sequel IIe

PacBio's huidige vlaggenschip, de Revio, bereikt een doorvoer van 360 Gbp per run bij HiFi-kwaliteit, equivalent aan gemiddeld 30× genoomcoverage van meer dan tien humane genomen per run. Het oudere Sequel IIe-systeem is breed geïnstalleerd bij genomische kernfaciliteiten en produceert tot 160 Gbp HiFi per run. Voor niet-CCS-toepassingen — waarbij maximale leeslengte prioriteit heeft boven nauwkeurigheid — biedt PacBio ook CLR-modus (Continuous Long Read), met reads tot >100.000 bp maar met een hogere foutfrequentie per base (~10–15%).

Long-read versus short-read: wanneer welke kiezen?

Eigenschap	Short-read (Illumina)	Long-read ONT	Long-read PacBio HiFi
Typische leeslengte	75–300 bp	1.000–>1.000.000 bp	10.000–25.000 bp
Nauwkeurigheid per base	>99,9%	>99% (duplex/Q20+)	>99,9% (HiFi/Q30+)
Doorvoer	Zeer hoog (tot 6 Tbp)	Hoog (tot >200 Gbp)	Hoog (tot 360 Gbp)
Kostprijs per base	Laagst	Middel	Middel–hoog
De novo assemblage	Beperkt (repeats)	Goed	Uitstekend
Structurele varianten	Indirect, onvolledig	Direct, sensitief	Direct, sensitief
Methylatiedetectie	Nee (bisulfiet vereist)	Direct (native DNA, 5mC/5hmC/6mA)	Indirect (polymerase-kinetiek/IPD)
Directe RNA-seq	Nee	Ja (DRS)	Nee
Portabiliteit	Nee	Ja (MinION)	Nee

Als vuistregel geldt: kies short-read NGS voor hoge doorvoer bij bekende varianten (SNP-panels, RNA-seq-expressie, amplicon-sequencing, WGS bij grote aantallen samples); kies long-read wanneer de vraagstelling draait om structurele varianten, de novo assemblage, haplotype-resolved genotyping, volle-lengte-isoformanalyse, methylatiepatronen of complexe genomische regio's.

Toepassingen van long-read sequencing

De novo genomische assemblage

De novo assemblage — het opbouwen van een volledige genoomsequentie zonder referentie — is de toepassing waarvoor long-read technologie het meest transformatief is geweest. De eerste telomeer-tot-telomeer (T2T) assemblage van het menselijk genoom, gepubliceerd in 2022 door het T2T-consortium, was uitsluitend mogelijk met PacBio HiFi en ONT-data. Voor het eerst werden centromere satelliet-repeats, de heterochromatische regio's en de telomeersequenties volledig gesloten. Dezelfde benadering wordt nu toegepast voor plantengenomen, diergenomen en microbiële genomen in de context van Earth BioGenome-initiatieven.

Structurele variantdetectie

Structurele varianten (SV's) — genomische veranderingen groter dan 50 bp — omvatten deleties, inserties, duplicaties, inversies en translocaties. Ze zijn verantwoordelijk voor een groter deel van de populatie-genetische diversiteit (in basenparen gemeten) dan SNP's, maar waren met short-read NGS slecht detecteerbaar omdat ze zich doorgaans bevinden in repetitieve genomische contexten. Long reads overspannen deze regio's volledig, waardoor SV's direct als afwijking in de alignering zichtbaar worden. Tools als PBSV, Sniffles en SVABA zijn specifiek ontwikkeld voor SV-detectie uit long-read data. Klinische toepassingen omvatten de diagnostiek van neuromusculaire aandoeningen (expansies in HTT, FMR1, C9orf72), congenitale afwijkingen en somatische SV's in tumoren.

Methylatieanalyse op genomische schaal

Met ONT is het mogelijk om gelijktijdig de basenvolgorde en de methylatiestatus van elk CpG in het genoom te bepalen uit dezelfde native DNA-run — geen bisulfietconversie, geen aparte ChIP-stap. Dit heeft grote gevolgen voor epigenomisch onderzoek: methylatiepatronen kunnen haplotype-specifiek worden toegewezen, waardoor parentale imprinting en allel-specifieke methylering direct zichtbaar worden. Voor specifieke eiwitbinding aan chromatine blijft chromatine-immunoprecipitatie (ChIP) de geijkte methode, maar voor genoomwijde CpG-methylatie is ONT de snellere en informatievere keuze geworden.

Volle-lengte-isoformanalyse (Iso-Seq / LRTS)

Short-read RNA-seq kan alternatief gesplicede isovormen niet direct onderscheiden: het reconstrueert splicingpatronen uit gefragmenteerde reads, wat leidt tot assemblagefouten bij complexe genen. Long-read transcriptoomanalyse (PacBio Iso-Seq, ONT cDNA-seq of directe RNA-seq) leest elk transcript als één aaneengesloten molecuul. Elke unieke splicing-combinatie, alternatieve promotor of alternatief poly-A-signaal wordt als een afzonderlijk transcript geïdentificeerd. Dit is bijzonder relevant voor neuronen (met duizenden breinspecifieke isovormen), voor kankeronderzoek (fusiontranscripten, alternatieve splicingvarianten als biomarker) en voor de annotatie van nieuwe genomen.

Epidemiologie en uitbraakonderzoek

De portabiliteit van de ONT MinION heeft real-time veldsequencing mogelijk gemaakt. Tijdens de SARS-CoV-2-pandemie werd het ARTIC-netwerk-protocol — een amplicon-gebaseerde aanpak gecombineerd met MinION-sequencing — wereldwijd ingezet voor virale variantsurveillance in omgevingen zonder laboratoriuminfrastructuur. Hetzelfde principe is toegepast voor Ebola-, Mpox- en dengue-surveillance in endemische regio's. De mogelijkheid om sequencingresultaten binnen enkele uren ter plaatse te genereren is bij uitbraakrespons een kwalitatief voordeel dat geen desktop-instrument kan evenaren.

Klinische diagnostiek: herhalings-expansies en zeldzame aandoeningen

Een groeiend aantal neurodegeneratieve en neuromusculaire aandoeningen wordt veroorzaakt door expansies van tandem-DNA-repeats. Bij de ziekte van Huntington (HTT-gen), fragiel X-syndroom (FMR1), spinocerebellaire ataxieën en ALS/FTD (C9orf72) zijn de pathogene allelen duizenden basenparen lang — te groot voor Sanger-sequencing en buiten het bereik van short-read NGS. Long-read sequencing is de enige methode die dergelijke expansies direct, betrouwbaar en in volle lengte in kaart brengt, inclusief de exacte repeatsamenstelling en lengte die correleren met klinische ernst en anticipatie.

Library preparation voor long-read platforms

Long-read sequencing stelt hogere eisen aan de kwaliteit van het uitgangsmateriaal dan short-read NGS. Fragmentatie van het DNA tijdens extractie resulteert in kortere leeslengtes; de maximale leeslengte is altijd beperkt door de integriteit van het DNA-molecuul op het moment van library-bereiding. De kern van de library preparation voor long-read sequencing is dan ook DNA-extractie met behoud van molecuulintegriteit.

DNA-extractie: voor maximale leeslengtes (>100 kb) wordt genomisch DNA bij voorkeur geëxtraheerd via CTAB-methoden of gespecialiseerde kolomgebaseerde kits voor high-molecular-weight (HMW) DNA. Pijpleidingvortexen, overdreven pipetteren en langdurige centrifugatiestappen zijn de meest voorkomende oorzaken van DNA-fragmentatie. Zie ook het artikel over DNA-isolatie en DNA-extractie.
Kwaliteitscontrole: fragmentgrootteverdeling wordt gemeten met pulsed-field gelelektroforese of een Fragment Analyzer; absorbantieverhoudingen (A260/280, A260/230) worden bepaald met een spectrofotometer. Een minimum van 50 kb gemiddelde fragmentlengte is gangbaar als acceptatiecriterium voor HiFi-HMW-bibliotheken.
Adapter-ligatie: voor ONT worden specifieke Y-adaptoren (squid-adapters) geligeerd aan de uiteinden van native DNA-moleculen, wat de binding aan de nanoporie mogelijk maakt. Voor PacBio HiFi worden de DNA-fragmenten gecirculariseerd met SMRTbell-adapters voor de CCS-leesstrategie.
Verrijking: optioneel kunnen doelregio's worden verrijkt via adaptive sampling (ONT: real-time bioinformatica selecteert of verwerpt moleculen tijdens de run) of via CRISPR-Cas9-gebaseerde verrijking (Nanopore Cas9 Sequencing, NCS).

Bioinformatica voor long-read data

De bioinformatica-workflow voor long-read sequencing verschilt op meerdere punten van de short-read NGS-pijplijn. Ruwe signaaldata worden omgezet naar basensequenties door basecallers: Guppy en Dorado (ONT) of de CCS-tool (PacBio). Reads worden uitgelijnd met Minimap2, de standaardaligner voor long reads, die toleranter is voor hogere foutfrequenties en snelheidsgeoptimaliseerd is voor lange sequenties. De novo assemblage wordt doorgaans uitgevoerd met Hifiasm (PacBio HiFi), Flye (ONT of PacBio CLR) of Verkko (hybride HiFi+ONT). Voor methylatieanalyse worden tools als Modkit (ONT) of DeepMod2 ingezet om de gemodificeerde basencalls direct te extraheren uit de basecall-output.

Een belangrijk praktisch verschil met short-read NGS is de bestandsgrootte: ruwe ONT-data worden opgeslagen in POD5-formaat (5-bit gesignaleerde ruwe stroominformatie per tijdstap), wat bij een PromethION-run tientallen terabytes aan ruwe data kan genereren. Cloudgebaseerde of high-performance computing infrastructuur is bij grootschalig gebruik onmisbaar.

Long-read sequencing en methylatieanalyse: vergelijking met klassieke methoden

Klassieke methylatieanalyse berust op bisulfietconversie: niet-gemethyleerde cytosines worden omgezet naar uracil (en na PCR naar thymine), terwijl 5-methylcytosine onveranderd blijft. Bisulfiet-sequencing geeft positie-nauwkeurige methylatie-informatie maar beschadigt het DNA chemisch (>90% degradatie) en kan geen onderscheid maken tussen 5mC en 5hmC. ONT-nanopore-sequencing detecteert 5mC, 5hmC, 5fC en 6mA direct als signaalafwijkingen in native DNA, zonder chemische voorbehandeling. Dit maakt gelijktijdige sequentie- en methylatieprofiling mogelijk in één run, en verlaagt de hoeveelheid benodigde input-DNA aanzienlijk.

PacBio detecteert methylatie indirect, via kinetische parameters van het polymerase: de Inter-Pulse Duration (IPD) — de tijd tussen twee opeenvolgende nucleotide-inbouwstappen — varieert systematisch wanneer het template een gemodificeerde base bevat. Deze IPD-gebaseerde aanpak werkt goed voor 6mA en 4mC in bacterieel DNA, maar is voor 5mC en 5hmC in eukaryoten minder gevoelig dan de directe signaaldetectie van ONT. Voor genoomwijde 5mC-CpG-profilering in humane samples is ONT daarom de gangbare keuze; voor bacteriële methyloomstudies is PacBio IPD-analyse historisch sterk vertegenwoordigd.

Apparatuur en verbruiksartikelen voor long-read sequencing

Een long-read sequencingworkflow vereist de volgende klassen apparatuur en verbruiksartikelen:

DNA-extractie en -kwantificering: centrifuges voor cellyse en pelleting, spectrofotometers voor A260/280-meting, fluorescentie-gebaseerde kwantificering (Qubit-type) en een Fragment Analyzer of Bioanalyzer voor fragmentlengtecontrole. Zie ook het artikel over laboratoriumcentrifuges.
Library preparation: magnetische beadapparatuur voor AMPure XP-zuivering, thermomixers voor enzymatische incubaties en gekoelde werkblokken voor adapteligatiereacties.
Sequencingplatform: MinION, GridION of PromethION (ONT); Sequel IIe of Revio (PacBio). Flowcellen en reagentkits zijn platformspecifieke verbruiksartikelen.
Bioinformatica-infrastructuur: GPU-servers voor real-time basecalling (ONT) of high-performance computing voor assemblage-workflows.

Voor verwante moleculaire technieken die in combinatie met long-read sequencing worden ingezet, zie de artikelen over DNA-isolatie, next-generation sequencing (NGS) en chromatine-immunoprecipitatie (ChIP). Bekijk het volledige assortiment in de categorie biotechnologie & moleculaire biologie, of neem contact op voor advies over de juiste verbruiksartikelen voor uw long-read workflow.

Disclaimer: De informatie in dit artikel is bedoeld als algemene technische toelichting. Canidae Seal B.V. / Labvakhandel.nl aanvaardt geen aansprakelijkheid voor de toepassing van deze informatie in specifieke analytische, klinische of industriële situaties. Raadpleeg voor uw eigen toepassing altijd de geldende normen, vakliteratuur en de documentatie van fabrikant en apparatuur.