MAML: De AI die geneesmiddelenontwikkeling radicaal kan veranderen – diepgaande long-read over de nieuwste biomedische doorbraak

Inleiding: AI en de toekomst van medicijnen

In een tijd waarin sociale media vol staan met discussies over gezondheid, kankerbehandelingen en de rol van technologie, komt er een nieuwe ontwikkeling die de manier waarop we medicijnen maken mogelijk voorgoed verandert. Een recent wetenschappelijk artikel presenteert het AI-model MAMMAL, dat verschillende biologische gegevens tegelijkertijd begrijpt.

De video waarin dit model wordt uitgelegd, begint met een duidelijke boodschap over de huidige stand van zaken in de geneeskunde. De spreker legt uit waarom veel nieuwe medicijnen falen en hoe een nieuw AI-systeem daar verandering in kan brengen.

De uitdagingen van hedendaagse geneesmiddelenontwikkeling

Het ontwikkelen van nieuwe medicijnen is een extreem duur en tijdrovend proces. Wetenschappers investeren vaak tien jaar en ongeveer een miljard dollar in één kandidaat. Toch slaagt slechts tien procent van de nieuwe geneesmiddelen in de klinische tests. Dat betekent een faalkans van negentig procent.

“Imagine spending 10 years and a billion dollars building something and there’s a 90% chance it just doesn’t work.”

De spreker vergelijkt dit met bruggen bouwen waarbij negen op de tien bruggen instorten. Dat zou onacceptabel zijn, maar in de geneeskunde is het nog steeds de realiteit. Ondanks dat we het menselijk genoom hebben gesequenced en AI hebben die eiwitstructuren kan voorspellen, blijven we vaak fouten maken bij het maken van medicijnen.

De reden ligt in de complexiteit van het menselijk lichaam. Het bestaat uit miljarden bewegende delen die met elkaar verbonden zijn. Een medicijn dat perfect lijkt te werken op één doelwit, kan elders bijwerkingen veroorzaken die niet voorspeld waren.

Van DNA tot ziekte: hoe biologie werkt

Om te begrijpen waarom medicijnontwikkeling zo moeilijk is, legt de spreker eerst de basis van de biologie uit. Ieder levend wezen heeft DNA. Binnen dat DNA zitten genen die de instructies bevatten voor het maken van eiwitten. Eiwitten zijn de kleine machines die het meeste werk in ons lichaam doen.

“We have DNA which contains genes, which code up proteins, which are essential for the function of all living things.”

Genen zijn niet altijd even actief. De mate waarin ze actief zijn, wordt genexpressie genoemd. Deze activiteit bepaalt hoeveel eiwitten er gemaakt worden. Fouten in dit proces kunnen leiden tot ernstige ziekten zoals kanker.

De spreker beschrijft hoe kanker in eenvoudige termen werkt: een mutatie in een gen dat celdeling regelt, zorgt ervoor dat cellen blijven groeien en zich verspreiden tot een tumor. Dit is de basis waartegen medicijnen ontwikkeld worden.

Hoe medicijnen nu ontworpen worden

Wetenschappers zoeken eerst naar het specifieke deel van het ziekteproces dat misgaat. Ze zoeken als het ware de ‘bad guy’. Vervolgens proberen ze een molecuul te ontwerpen dat precies bij dat eiwit past, zoals een sleutel in een slot.

“Think of the target like a lock and the drug like a key.”

Er zijn twee hoofdtypes medicijnen die in het artikel centraal staan: kleine moleculen zoals paracetamol en antilichamen. Antilichamen zijn veel groter en werken vaak buiten de cellen of op het celoppervlak.

Het probleem is dat het lichaam niet één simpele machine is. Een medicijn dat goed bindt aan het doelwit, kan ook andere delen van het lichaam beïnvloeden en bijwerkingen veroorzaken. Daarom is het vinden van de perfecte moleculaire tool zo ingewikkeld.

De beperkingen van huidige AI-tools

Vandaag de dag hebben we krachtige AI-modellen, maar die begrijpen vaak maar één stukje van de puzzel. AlphaFold kan bijvoorbeeld eiwitstructuren voorspellen. Andere modellen zijn goed in het lezen van DNA of het screenen van chemische verbindingen.

Het probleem is dat ziekten niet in aparte mappen voorkomen. Ze lopen door het hele systeem: van DNA via genactiviteit en eiwitten naar cellen en uiteindelijk het hele lichaam. De huidige tools zijn vaak gespecialiseerd en werken los van elkaar.

“It’s like trying to solve a crime scene where one detective only has the fingerprints, another only has the security footage.”

Hier komt MAMMAL in beeld. Dit model is ontworpen om alles tegelijk te begrijpen: chemie, genetica en eiwitstructuur.

De schaal van MAMMAL: twee miljard voorbeelden

Het model is getraind op maar liefst twee miljard biologische gegevenspunten. De onderzoekers verzamelden data uit grote databases zoals Uniprot voor eiwitten, PubChem en Zinc voor kleine moleculen, en CellX Gene voor genexpressie.

Het model leerde daardoor tegelijkertijd over chemie, genetica en eiwitten. Dat is ongekend in de biomedische wereld.

Hoe MAMMAL verschillende data samenbrengt

De verschillende soorten data zijn in heel verschillende formaten. Een klein molecuul ziet er anders uit dan een gen of een eiwit. De onderzoekers losten dit op door alles om te zetten in tekstachtige reeksen.

“They forced everything into a single unified format. Sequences of characters, but each domain has its own grammar.”

Voor moleculen gebruiken ze SMILES-strings. Voor genen rangschikt het model genen op basis van hoe actief ze zijn. Voor eiwitten leest het de keten van aminozuren.

Een modulair tokenizer zorgt dat elk type data correct wordt omgezet in embeddings. Daarna worden al deze embeddings samengebracht in één gedeelde ruimte. Zo kan het model relaties leren tussen chemie, genen en eiwitten.

Resultaten op veiligheidsbenchmarks

De onderzoekers testten MAMMAL op elf strenge benchmarks die de hele pijplijn van geneesmiddelenontwikkeling beslaan. Op alle taken presteerde het model beter dan de bestaande state-of-the-art modellen.

Twee belangrijke veiligheidstests waren BBBP (bloed-hersenbarrière) en CLINTOX (klinische toxiciteit). MAMMAL versloeg hier een zeer gespecialiseerd model genaamd Molformer, dat alleen op kleine moleculen was getraind.

“Mammal was able to beat it on the blood-brain barrier penetration test.”

Dit is opmerkelijk omdat een generalist een specialist verslaat op diens eigen terrein. De spreker legt uit dat dit komt doordat alles in de biologie met elkaar verbonden is. Door alles tegelijk te leren, ontwikkelt het model een dieper begrip.

Het kankerexperiment: carfilzomib

Een van de meest indrukwekkende tests betrof vier nieuwe medicijnen die niet in de trainingsdata zaten. Een daarvan was carfilzomib, een middel dat alleen is goedgekeurd voor bloedkanker. Artsen dachten dat het niet werkte tegen vaste tumoren.

MAMMAL rangschikte carfilzomib echter als het meest effectief tegen de meeste van de 805 geteste kankercellijnen. De onderzoekers voerden vervolgens echte laboratoriumtests uit.

“The results perfectly matched Mammal’s predictions. It got the precise potency ranking exactly right.”

Carfilzomib bleek inderdaad het sterkst te zijn. Het model behield de juiste volgorde bij ongeveer 95 procent van alle geteste cellijnen. Dit toont aan dat het model echt kan generaliseren naar nieuwe chemische verbindingen.

Vergelijking met AlphaFold3 bij antilichamen

De onderzoekers vergeleken MAMMAL ook met AlphaFold3, het model dat Nobelprijswinnaars opleverde. Ze testten of antilichamen zouden binden aan zeven verschillende ziekteverwekkers.

MAMMAL presteerde beter op vijf van de zeven doelen. Dit is verrassend omdat AlphaFold3 3D-structuren kan zien, terwijl MAMMAL alleen sequenties leest.

“Mammal actually beat AlphaFold3 on five of those seven targets.”

De reden ligt in de intrinsiek ongeordende regio’s (IDR’s) die 30 tot 40 procent van het menselijk proteoom uitmaken. Deze delen hebben geen vaste 3D-vorm. AlphaFold3 heeft moeite met zulke flexibele regio’s, terwijl MAMMAL beter de onderliggende regels van eiwitten begrijpt.

Het ontwerpen van nieuwe antilichamen

MAMMAL kan niet alleen bestaande kandidaten analyseren, maar ook nieuwe antilichamen genereren. De onderzoekers gebruikten een grote dataset en verwijderden de variabele delen van bekende antilichamen.

Het model moest vervolgens voorspellen welke aminozuursequentie nodig was om aan een specifiek doelwit te binden. Vooral bij de moeilijkste regio, CDRH3, presteerde MAMMAL 19 procent beter dan eerdere methoden.

“For this region, Mammal absolutely crushed the competition. It achieved a massive 19% improvement.”

Dit betekent dat het model niet alleen patronen onthoudt, maar echt de grammatica van biologische sequenties begrijpt.

Wat betekent dit voor de toekomst?

Als MAMMAL werkt zoals de paper claimt, kan geneesmiddelenontwikkeling veel sneller, goedkoper en nauwkeuriger worden. In plaats van tien jaar en een miljard dollar met negentig procent kans op falen, kunnen we medicijnen gericht ontwerpen.

Het model opent ook de deur naar drug repurposing: bestaande medicijnen hergebruiken voor nieuwe ziekten. Daarnaast kan het bijdragen aan gepersonaliseerde geneeskunde door patiëntspecifieke genetische data te analyseren.

De spreker sluit af met de constatering dat dit een van de meest impactvolle papers van het jaar is. Het kan enorme gevolgen hebben voor de geneeskunde, de biowetenschappen en de ontdekking van nieuwe medicijnen.

Visuele context uit de video

De video bevat onder andere tabellen met benchmarkresultaten, moleculaire modellen, een Wikipedia-pagina over carfilzomib en diagrammen van genexpressie. Deze visuals ondersteunen de uitleg en maken de complexe materie toegankelijker voor een jong publiek dat gewend is aan visuele content op sociale media.

De presentatie is educatief en informatief, met een technische maar duidelijke toon die past bij trends rond AI en gezondheid op platforms als TikTok en Instagram.