Informatie

Zijn de omgekeerde problemen van systeembiologie onmogelijk op te lossen?


Ik heb Sydney Brenner een lezing [0] horen geven over hoe het hele programma van Systeembiologie verdacht is omdat, volgens hem, een man genaamd Hadamard aantoonde dat omgekeerde problemen onmogelijk op te lossen zijn, of iets in die zin.

Ik vind het een beetje vreemd dat niemand hier enige aandacht aan lijkt te besteden, en velen gaan vrolijk door met proberen biologische organismen te reverse-engineeren. Persoonlijk denk ik dat deze poging tot reverse-engineering op zijn plaats is, maar Sydney Brenner lijkt dat niet te denken en pleit ervoor om alleen het voorwaartse probleem aan te pakken. Hier is een fragment uit een samenvatting van een soortgelijke toespraak van hem:

… Deze notie van berekening is naar mijn mening de enige geldige benadering van biologische complexiteit en is tegengesteld aan veel van de ideeën die ten grondslag liggen aan wat systeembiologie is gaan heten, wat tegenwoordig erg in de mode is. Er zal worden aangetoond dat systeembiologie probeert om inverse problemen op te lossen - dat wil zeggen modellen van biologische systemen te verkrijgen uit observaties van hun gedrag - terwijl wat ik computationele biologie noem, doorgaat op de klassieke manier van het ontdekken van de machinerie van het systeem en computergedrag , het oplossen van een voorwaarts probleem.

Heeft Brenner hier gewoon ongelijk in of is er iets met zijn bezwaren?


[0] Sydney Brenner, Veel ophef om niets: systeembiologie en inverse problemen, 2009.


Het antwoord is meestal nee, en dit is niet zo storend als het lijkt.

Ik denk dat Brenner natuurlijk een punt heeft en hij is niet de enige die zich afvraagt ​​of de systeembiologie een holistisch model van levende wezens kan creëren. Toch wil ik hier niet mee zeggen dat we moeten stoppen met systeembiologisch onderzoek.

Om 18:30 illustreert brenner het omgekeerde probleem met enkele voorbeelden 1) kun je een trommel maken van alleen de geluiden die uit de trommel komen? (nee zegt hij). 2) kun je de moleculaire structuur van een molecuul oplossen vanuit een diffractieprobleem (nee zegt hij).

Natuurlijk kunnen we beide doen, maar het punt is geldig omdat we een idee moeten hebben van hoe een trommel eruit ziet. Als we al een blik op een trommel zouden hebben, kunnen we hiermee een model bouwen (cilinder van diameter d, hoogte h en met een trommelvel van een spanning t en materiaaleigenschappen alfa beta, enz.) van de geluiden is veel werk , maar het zou kunnen.

Het probleem van het oplossen van een moleculaire structuur met alleen diffractie-intensiteiten is in de jaren '60 ook opgelost voor kleine moleculen, geloof ik door zogenaamde 'directe methoden' die niet goed werken of eiwitten en grotere moleculen. Het punt is echter dat je een goed wiskundig model van moleculen en diffractie moest hebben om tot directe methoden, MIR, MAD en andere methoden met alleen diffractie te komen. Sorry dat ik hier niet in details kan treden... het zou je dood kunnen vervelen als je niet om kristallografie geeft.

In beide gevallen is de stelling dat je dat model moet hebben - hoe ziet een molecuul eruit, wat doet een röntgenfoto als het een kristal tegenkomt? Om daar te komen. Wat volkomen logisch is en waar ik het mee eens ben.

Ik zou hier echter niet te veel in lezen, want in de praktijk dit heeft nooit gedaan, maar Bragg begon met alleen het diffractiepatroon en gebruikte modellen uit andere vakgebieden. Gezien de aard van het beschreven bewijs, is er nooit een wetenschappelijke ontdekking gedaan in een wiskundig vacuüm en zal de systeembiologie dat ook niet doen.

Ik zou deze toespraak eerder lezen als zeggend dat de modellen die we gebruiken voor actie nog niet erg goed zijn. Wat er gebeurt is dat synthetische biologie (technische benaderingen), experimentele observatie en intensieve modellering (de 'omgekeerde' en 'voorwaartse' benaderingen die Brenner noemt) allemaal tegelijk plaatsvinden en elkaar informeren.

Het is moeilijk voor te stellen dat gegevens van omgekeerde benaderingen geen belangrijk onderdeel kunnen zijn van een oplossing voor de biologie. Het lijkt ook waarschijnlijker dat een wiskundig model van biologie alleen moeilijk of onmogelijk te vinden zal zijn. Wat momenteel (IMHO) werkt, is een raamwerk dat zowel conceptueel (en niet geheel kwantitatief) als analytisch (wiskundig) en datagedreven is.


Het artikel is bekend en wordt besproken onder systeembiologen. Het maakt een goed punt - observatiebiologie met een hoge doorvoer kan niet in de plaats komen van mechanistische studies die causale informatie opleveren.

Maar we weten al ontzettend veel over biologische systemen. Alle systeembiologen gebruiken impliciet informatie uit de voorwaartse benadering bij het formuleren van hun modellen. Belangrijker is echter dat de meeste systeembiologen de voorwaartse en omgekeerde benadering in hun werk combineren. Modellen worden getest en gevalideerd door de systemen te verstoren en op basis van de resultaten bijgewerkt.

Dergelijke discussies ontaarden vaak in een debat over de semantiek van systeembiologie, waarin tegenstanders proberen 'systeembiologie' in de meest onflatteuze bewoordingen te definiëren.


Reverse engineering en identificatie in systeembiologie: strategieën, perspectieven en uitdagingen

Het samenspel van wiskundige modellering met experimenten is een van de centrale elementen in de systeembiologie. Het doel van reverse engineering is om via dit samenspel de functionele en regulerende mechanismen van biologische systemen af ​​te leiden, te analyseren en te begrijpen. Reverse engineering is niet exclusief systeembiologie en is bestudeerd in verschillende gebieden, zoals inverse probleemtheorie, machine learning, niet-lineaire fysica, (bio)chemische kinetiek, regeltheorie en optimalisatie. Het lijkt er echter op dat veel van deze gebieden relatief gesloten waren voor buitenstaanders. In deze bijdrage willen we de verschillende perspectieven en bijdragen uit deze gebieden vergelijken en benadrukken, met de nadruk op twee belangrijke vragen: (i) waarom zijn reverse engineering-problemen zo moeilijk op te lossen, en (ii) welke methoden beschikbaar zijn voor de specifieke problemen die voortkomen uit systeembiologie?

1. Inleiding

In de late jaren 1960, Mesarović [1, p. 83] verklaarde iets dat vandaag de dag nog steeds relevant is: 'de echte vooruitgang in de toepassing van systeemtheorie op biologie zal pas tot stand komen wanneer de biologen vragen gaan stellen die gebaseerd zijn op de systeemtheoretische concepten in plaats van deze concepten te gebruiken om in nog steeds op een andere manier de verschijnselen die al worden verklaard in termen van biofysische of biochemische principes'.

Vier decennia later betoogden Csete & Doyle [2], die de reverse engineering van biologische complexiteit in overweging namen, dat, hoewel biologische entiteiten en geconstrueerde geavanceerde technologieën zeer verschillende fysieke implementaties hebben, ze vrij gelijkaardig zijn in hun organisatie op systeemniveau. Bovendien merkten ze ook op dat het niveau van complexiteit in technisch ontwerp dat van levende systemen naderde. Wanneer ze worden gezien als netwerken, delen biologische systemen enkele belangrijke structurele kenmerken met gemanipuleerde systemen, zoals modulariteit, robuustheid en het gebruik van terugkerende circuitelementen [3]. Vaak kunnen belangrijke aspecten van de functionaliteit van een netwerk alleen worden afgeleid uit de structuur ervan [4]. Het lijkt daarom vanzelfsprekend dat systeemtechniek en aanverwante disciplines een grote rol kunnen spelen in de moderne systeembiologie [5-9].

Vandaag, een decennium na de reverse engineering paper van Csete & Doyle, toont recent onderzoek [10] duidelijk de haalbaarheid van uitgebreide grootschalige computermodellering van hele cellen. Deze klasse van modellen bevat de nodige details om mechanistische verklaringen te geven en maakt het mogelijk om te onderzoeken hoe veranderingen op moleculair niveau het gedrag op cellulair niveau beïnvloeden [11]. Modellering op meerdere schalen, die rekening houdt met de interacties tussen metabolisme, signalering en genregulatie op verschillende schalen, zowel in tijd als in ruimte, is de sleutel tot de studie van complex gedrag en opent mogelijkheden om biologische ontdekking te vergemakkelijken [12,13]. De wisselwerking tussen experimenten en computationele modellering heeft geleid tot modellen met verbeterde voorspellende mogelijkheden [14]. In het geval van evolutionaire en ontwikkelingsbiologie, reverse engineering van genregulerende netwerken (GRN's) en numerieke (in silico) evolutionaire simulaties zijn gebruikt [15,16] om waargenomen verschijnselen te verklaren en, nog belangrijker, om nieuwe hypothesen en toekomstig experimenteel werk te suggereren. Ten slotte zijn er al modelgebaseerde benaderingen voor de volgende stap, namelijk synthetische biologie [17].

De meeste reverse engineering-studies van biologische systemen hebben microbiële cellen overwogen. In deze context is een breed scala aan modelleringsbenaderingen toegepast, die kunnen worden geclassificeerd volgens verschillende taxonomieën. Stelling [18] maakte onderscheid tussen drie grote groepen: op interactie gebaseerde (geen dynamiek, geen parameters [19,20]), op beperkingen gebaseerde (geen dynamiek, alleen stoichiometrie parameters [21,22]) en op mechanismen gebaseerde modellen (dynamisch, met zowel stoichiometrie als kinetische parameters). Andere classificaties zijn te vinden in recentere literatuur, zoals die op basis van modelleringsformalismen [23,24], waaronder Booleaanse netwerken, Bayesiaanse netwerken (BN's), petrinetten, procesalgebra's, op beperkingen gebaseerde modellen, differentiaalvergelijkingen, regel- gebaseerde modellen, op elkaar inwerkende staatsmachines, cellulaire automaten en op agenten gebaseerde modellen.

Ongeacht het gekozen type representatie moet het belang worden erkend om rekening te houden met de systeemdynamiek [25,26]. Er is gesteld dat het centrale dogma van de systeembiologie is dat het functioneren van cellen een gevolg is van systeemdynamiek [5]. Vooral regulatie - meestal bereikt door feedback - speelt een sleutelrol in biologische processen [27]. Daarom vereist de studie van het rijke gedrag van biologische systemen het gebruik van technische hulpmiddelen, namelijk van de systemen en controlegebieden [7]. Verder is betoogd dat nog interessanter dan de toepassing van systeemtechnische ideeën op biologische problemen, de inspiratie is die deze problemen bieden bij de ontwikkeling van nieuwe theorieën [8]. Systems Engineering is gericht op het ontwerpen van systemen, terwijl biologie erop gericht is ze te begrijpen (reverse engineering). Het is dan ook logisch dat deze twee gemeenschappen zich van oudsher hebben gespecialiseerd in het oplossen van verschillende problemen. De wisselwerking tussen beide disciplines kan echter voor beide partijen voordelig zijn [6] in die zin kan systeembiologie worden gezien 'niet als de toepassing van technische principes op de biologie, maar als een samensmelting van systeem- en regeltheorie met moleculaire en celbiologie' [5] ].

Dit werk bespreekt verschillende perspectieven voor het reverse engineering-probleem in biologische systemen. De eerste stap bij de identificatie van een dynamisch model is het vaststellen van de componenten en connectiviteit ervan, een taak waarvoor ofwel voorkennis ofwel gegevensgestuurde statistische methoden vereist zijn [28]. We beginnen met het bespreken van deze methoden in §2, waar we het verminderde probleem van het herstellen van interactiestructuren aanpakken. We classificeren de voorgestelde methoden voor deze taak in drie hoofdstrategieën: op correlatie gebaseerd, informatietheoretisch en Bayesiaans. Vervolgens bespreken we in §3 de verschillende perspectieven voor de reverse engineering van complete dynamische modellen, 1 groeperen ze in acht gebieden: inverse problemen, optimalisatie, systeem- en regeltheorie, chemische reactienetwerktheorie, Bayesiaanse statistiek, natuurkunde, informatietheorie en machine aan het leren. We sluiten dit overzicht af met enkele conclusies over de convergentie van deze perspectieven in §4.

2. Interactienetwerken: drie hoofdstrategieën

We behandelen nu de kwestie van reverse engineering-systemen die zijn gemodelleerd als interactienetwerken. Dit probleem kan als volgt worden geformuleerd: aan de hand van een lijst van knooppunten (variabelen) de verbanden (afhankelijkheden) ertussen afleiden met behulp van de informatie in de beschikbare datasets. Het doel is de bepaling van de bestaande interacties, niet de gedetailleerde karakterisering van deze interacties. De herstelde modellen bevatten dus geen differentiaalvergelijkingen en het is niet nodig om parameterwaarden zoals kinetische constanten te schatten. Dit probleem kan worden beschouwd als een beperkte versie van het algemene reverse engineering-probleem, dat in de volgende paragrafen zal worden besproken. Dit betekent echter niet dat het eenvoudig op te lossen is, integendeel, het is nog steeds een zeer actief onderzoeksgebied. De belangrijkste taak is om de sterkte van de afhankelijkheid tussen variabelen in te schatten met behulp van de beschikbare gegevens.

De meeste methoden die worden gebruikt om interacties af te leiden, zijn uiteindelijk gerelateerd aan statistieken. In dit verband is het vermeldenswaard dat er verschillende stromingen in de statistiek zijn: Bayesiaans, frequentistisch, informatietheoretisch en waarschijnlijkheid (de laatste is een gemeenschappelijk element in alle). Grofweg worden echter de Bayesiaanse en frequentistische benaderingen meestal als de belangrijkste paradigma's beschouwd [33,34].

De geschiedenis van de statistiek laat zien dat de Bayesiaanse benadering aanvankelijk in de achttiende eeuw werd ontwikkeld. Bayes zelf beschouwde alleen een speciaal geval van de stelling die zijn naam krijgt, die in feite onafhankelijk werd herontdekt en jaren later door Laplace in zijn moderne vorm verder werd ontwikkeld. In die tijd kreeg de theorie de naam inverse waarschijnlijkheid. Frequentistische statistiek is in de eerste decennia van de twintigste eeuw ontwikkeld door onder meer Pearson, Neyman en Fisher. De frequentistische theorie verdrong snel de inverse waarschijnlijkheidsbenadering (Bayesiaanse) en werd de dominante school in de statistiek. Bayesiaanse ideeën overleefden nauwelijks, meestal buiten de statistische afdelingen (een gedetailleerde geschiedenis wordt gegeven in [35]). Het gebruik van Bayes voorinformatie werd door veel frequentisten beschouwd als de introductie van subjectiviteit, en daarom een ​​bevooroordeelde benadering, iets wat niet acceptabel is in de wetenschappelijke methode. Hoewel verfijningen, b.v. empirische Bayes-methoden [36] (voorafgaande distributie gebaseerd op bestaande gegevens, niet op aannames), probeerden dit te overwinnen, Bayesiaanse benaderingen hadden nog een ander groot probleem: de benodigde berekeningen waren extreem veeleisend.

In de jaren tachtig veranderde de toepassing van de Markov-keten Monte Carlo (MCMC)-methoden [37,38] alles. MCMC en gerelateerde technieken [39,40] maakten veel van de complexe berekeningen die nodig zijn in Bayesiaanse methoden mogelijk en de theorie dook weer op en begon te worden toegepast op veel gebieden [41], waaronder bio-informatica en computationele systeembiologie [42-44].

Afhankelijk van de statistiek die wordt gebruikt om de interactiesterkte te meten, kunnen de meest voorkomende reverse engineering-benaderingen worden ingedeeld in drie klassen: correlatie, wederzijdse informatie en Bayesiaans (zie figuur 1). Hun belangrijkste kenmerken worden besproken in de volgende paragrafen. Meer gedetailleerde onderzoeken zijn te vinden in [45-49]. Met een meer specifieke focus werden Bayesiaanse methoden behandeld in [50,51] en informatietheoretische benaderingen in [52] (figuur 1).

Figuur 1. Benaderingen voor het afleiden van interactienetwerken. Schematische voorstelling van het proces van het afleiden van een netwerkstructuur uit gegevens, met drie benaderingen voor het meten van afhankelijkheid tussen variabelen: op correlatie gebaseerd, informatietheoretisch en Bayesiaans.

2.1. Een klassiek hulpmiddel: correlatie

De correlatiecoëfficiënt R, gewoonlijk de Pearson-correlatiecoëfficiënt genoemd, kwantificeert de afhankelijkheid tussen twee willekeurige variabelen x en Y als

Op correlatie gebaseerde methoden kunnen worden gebruikt voor ongecontroleerd leren van gegevens en zijn op grote schaal gebruikt om biologische relaties te ontdekken. Hoewel de meeste toepassingen zijn ontwikkeld voor genetische netwerken [53,54], zijn er ook voorbeelden in reverse engineering metabole netwerken. Een dergelijke methode is de constructie van correlatiemetrieken [55], die rekening houdt met vertragingen tussen soorten en met succes is getest op de glycolytische route [56]. Een meer verfijnde maatstaf voor associatie tussen variabelen is de afstandscorrelatiemethode [57,58], die theoretische voordelen heeft ten opzichte van de Pearson-coëfficiënt en die recentelijk is gebruikt in biologische toepassingen [59,60].

2.2. Perspectief vanuit de informatietheorie

Hoewel de Pearson-coëfficiënt geschikt is voor het meten van lineaire correlaties, neemt de nauwkeurigheid ervan af voor sterk niet-lineaire interacties. Een meer algemene maatstaf is wederzijdse informatie, een fundamenteel concept van informatietheorie gedefinieerd door Shannon [61]. Het is gebaseerd op het concept van entropie, wat de onzekerheid is van een enkele willekeurige variabele: let x een discrete willekeurige vector zijn met alfabet χ en kansmassafunctie P(x). De entropie is

Aangezien wederzijdse informatie een algemene maatstaf is voor afhankelijkheden tussen variabelen, kan het worden gebruikt voor het afleiden van interactienetwerken: als twee componenten sterke interacties hebben, zal hun onderlinge informatie groot zijn als ze niet gerelateerd zijn, zal het theoretisch nul zijn. Wederzijdse informatie wordt sinds de jaren negentig toegepast voor reverse engineering van biologische netwerken. In vroege toepassingen [63-67] werden genetische interacties verondersteld op basis van hoge waarden van paarsgewijze wederzijdse informatie tussen genen. Het succes van deze aanpak moedigde verder onderzoek aan en in het volgende decennium werden steeds geavanceerdere technieken ontwikkeld. Een van de meest populaire methoden voor GRN-inferentie is ARACNE [68], dat gebruikmaakt van de ongelijkheid in gegevensverwerking (DPI, [62]) om indirecte interacties te negeren. De DPI stelt dat als xYZ is een Markov-keten, dan l(x,Y) ≥ l(x,Z). ARACNE onderzoekt de gentriplets (x,Y,Z) die een significante waarde van wederzijdse informatie hebben en de rand met de kleinste waarde verwijdert, waardoor het aantal valse positieven wordt verminderd. Er is ook een tijdvertragingsversie van ARACNE beschikbaar, die vooral geschikt is voor tijdsverloopgegevens [69].

In reverse engineering-toepassingen zijn de kansmassafuncties P(x), P(ja) zijn over het algemeen onbekend, maar ze kunnen worden geschat op basis van experimentele gegevens met behulp van verschillende methoden. De eenvoudigste is om de gegevens te verdelen in bakken met een vaste breedte en de kansen te benaderen op basis van de frequenties van voorkomen. Deze naïeve oplossing heeft als nadeel dat de onderlinge informatie stelselmatig wordt overschat [70]. Om dit probleem te vermijden, kan men ofwel de bin-grootte afhankelijk maken van de dichtheid van datapunten (adaptieve partitionering, [71]), ofwel gebruik maken van schatting van de dichtheid van de kernel [72]. De invloed van de keuze van schatters op het netwerkinferentieprobleem is onderzocht in [73].

Informatietheoretische methoden hebben een rigoureuze theoretische basis op concepten die een intuïtieve interpretatie mogelijk maken. Dit vergemakkelijkt de ontwikkeling van nieuwe methoden die gericht zijn op specifieke doeleinden. Een voorbeeld is het onderscheid tussen directe en indirecte interacties, dat heeft geleid tot het ontwerp van methoden, zoals minimale redundantienetwerken [74], drieweg wederzijdse informatie [75], entropiemetrische constructie en entropiereductietechniek [76], onder andere .Een ander voorbeeld is de aanpassing van de berekening van wederzijdse informatie door rekening te houden met de achtergrondverdeling voor alle mogelijke interacties, zoals gedaan door de context-waarschijnlijkheid van verwantschapstechniek (CLR) [77]. De combinatie van CLR met een andere methode, de Inferelator [78], werd een van de toppresteerders bij het DREAM4 100-gen in silico netwerkinferentie-uitdaging [79]. In nog een ander voorbeeld heeft een recent gepresenteerde statistiek genaamd maximale informatiecoëfficiënt [80] tot doel rechtvaardigheid af te dwingen, een eigenschap die bestaat uit het toekennen van vergelijkbare waarden aan even luidruchtige relaties, onafhankelijk van het type associatie.

Kantone et al. [81] voerde in 2009 aan dat informatietheoretische methoden niet geschikt waren voor de reconstructie van kleine netwerken, omdat ze de richting van regelgeving niet konden afleiden. In de jaren na die verklaring is er echter enige vooruitgang geboekt en zijn er al enkele informatietheoretische methoden beschikbaar die aanwijzingen kunnen achterhalen [69,82].

2.3. Voorkennis opnemen: het Bayesiaanse gevolgtrekkingsperspectief

Met behulp van een Bayesiaans raamwerk kan voorkennis in de inferentieprocedure worden opgenomen. De Bayes-regel voor twee variabelen x en Y is

BN's kunnen automatisch worden afgeleid uit gegevens, een probleem dat bekend staat als Bayesiaanse inferentie. Reverse engineering van een BN bestaat uit het vinden van de DAG die de data ‘het beste’ beschrijft. De geschiktheid van de gegevens wordt bepaald door een score berekend op basis van de Bayes-regel. Opgemerkt moet worden dat het zoeken naar de beste BN een NP-hard probleem is [84], en daarom worden heuristische methoden gebruikt om het op te lossen. Bovendien is het mogelijk om te zoeken naar benaderingen die de computationele complexiteit helpen verminderen: geschatte Bayesiaanse berekeningsmethoden (ABC) schatten posterieure distributies zonder expliciet de waarschijnlijkheden te berekenen, in plaats daarvan met behulp van op simulatie gebaseerde procedures [85,86]. Een Bayesiaanse methode voor het construeren van een probabilistisch netwerk uit een database werd voor het eerst gepresenteerd in [87].

Genetische netwerken kunnen worden weergegeven als probabilistische grafische modellen, door elk gen te associëren met een willekeurige variabele. Het expressieniveau van het gen geeft de waarde van deze willekeurige variabele. Bayesiaanse benaderingen werden voor het eerst gebruikt voor reverse-engineering van genetische netwerken uit expressiegegevens in [88]. Een belangrijke beperking van BN's is dat ze acyclisch zijn, terwijl in werkelijkheid de meeste biologische netwerken lussen bevatten. Een uitbreiding van BN's, dynamische Bayesiaanse netwerken (DBN's) genoemd, kan worden gebruikt om dit probleem op te lossen. In tegenstelling tot BN's kunnen DBN's cycli bevatten en kunnen ze worden geconstrueerd wanneer tijdsverloopgegevens beschikbaar zijn [89-92].

3. Dynamische modellen: perspectieven vanuit verschillende gebieden

Hier richten we ons op dynamische (kinetische) modellen van biologische systemen. Deze modellen bestaan ​​meestal uit stelsels van differentiaalvergelijkingen. Vanuit het oogpunt van identificatie kan men onderscheid maken tussen drie hoofdprobleemklassen (in afnemende volgorde van algemeenheid):

(1) Volledige netwerkinferentie (reverse engineering of reconstructie): gegeven (high-throughput) dynamische gegevens (dwz tijdreeksen van gemeten concentraties en andere eigenschappen), zoekt men naar het volledige netwerk (kinetische modelstructuur en kinetische parameters) dat past (verklaart) de gegevens.

(2) Netwerkselectie (netwerkverfijning, retrofit): gegeven dynamische gegevens en een bestaand dynamisch model met mogelijke structurele modificaties (of een reeks alternatieve kinetische modelstructuren), is het doel om de structurele modificaties en de kinetische parameters te vinden die passen bij de gegevens.

(3) Schatting van kinetische parameters (modelkalibratie, parametrische identificatie): gegeven dynamische gegevens en een vaste kinetische modelstructuur, is het doel de kinetische parameters te vinden die bij de gegevens passen.

Probleem (1) hierboven is het meest algemeen, terwijl probleem (2) ergens in het midden ligt tussen het algemene gevolgtrekkingsprobleem en het meer gerichte parameterschattingsprobleem. Hoewel het passen van bestaande gegevens meestal het eerste doel is dat wordt nagestreefd, moet men ook kruisvalidatiestudies uitvoeren met een andere set bestaande gegevens. Uiteindelijk moet men ook proberen het afgeleide model te gebruiken om voorspellingen van hoge kwaliteit onder verschillende omstandigheden mogelijk te maken. Probleem (1) is meestal opgelost met behulp van een bilevel-benadering, waarbij eerst het interactienetwerk wordt bepaald (zoals besproken in §2) en vervolgens de kinetische details worden geïdentificeerd.

Het is algemeen erkend dat alle bovengenoemde problemen moeilijk zijn. Er zijn veel benaderingen voorgesteld om ze op te lossen, waarbij verschillende theoretische grondslagen zijn gebruikt. Verschillende auteurs hebben vergelijkingen gemaakt tussen methoden met behulp van gesimuleerde of experimentele gegevens. vroege voorbeelden zijn te vinden in [46,93]. Het is bijzonder interessant om de conclusies van de organisatoren van de DREAM-uitdaging (Dialogue for Reverse Engineering Assessment and Methods) te onderzoeken, wat waarschijnlijk de beste huidige bron is voor vergelijkingen van verschillende methoden. De DREAM-uitdagingen vinden jaarlijks plaats en proberen de interacties tussen theoretische en experimentele methoden op het gebied van cellulaire netwerkinferentie en modelbouw te bevorderen. in Prill et al. [94], stellen de organisatoren: 'De overgrote meerderheid van de voorspellingen van de teams waren statistisch gelijk aan willekeurige gissingen. Bovendien was er, zelfs voor specifieke probleemgevallen zoals genregulatienetwerkinferentie, geen pasklaar algoritme'. Met andere woorden, betrouwbare netwerkinferentie blijft een onopgelost probleem. De organisatoren identificeren twee belangrijke hindernissen die moeten worden overwonnen: gebrek aan gegevens en tekortkomingen in de inferentie-algoritmen. We zijn het eens met deze diagnose, maar zoals we hieronder laten zien, denken we ook dat er andere hindernissen zijn die net zo belangrijk zijn en die tot voor kort grotendeels werden genegeerd.

Bovenstaande problemen zijn uiteraard niet exclusief systeembiologie en zijn (en worden nog steeds) bestudeerd op verschillende gebieden, zoals statistiek, machine learning, kunstmatige intelligentie, niet-lineaire fysica, (bio)chemische kinetiek, systeem- en regeltheorie, optimalisatie ( lokaal en globaal), inverse probleemtheorie, enz. (figuur 2). Dit is nogal een AD hoc lijst, omdat er een aanzienlijke overlap is tussen deze disciplines, en sommige mensen zouden kunnen beweren dat sommige gewoon deelgebieden van andere zijn. Het is hier echter niet onze bedoeling om met een consensusclassificatie te komen, maar eerder om te benadrukken dat deze verschillende gebieden (of, misschien beter, gemeenschappen) de afgelopen decennia diepgaand hebben gekeken naar het reverse-engineeringprobleem en tot verschillende krachtige principes zijn gekomen. Ondanks het interdisciplinaire karakter van systeembiologie hebben deze verschillende perspectieven blijkbaar niet in de mate gewisseld die men zou verwachten voor een dergelijk algemeen probleem.

Figuur 2. Perspectieven op reverse engineering. Een overzicht van de verschillende perspectieven die samenkomen op het gebied van systeembiologie, met enkele van hun belangrijkste concepten en tools. (Online versie in kleur.)

In het volgende willen we de lezer de belangrijkste componenten van deze verschillende perspectieven geven. Om de leesbaarheid van de bijbehorende literatuur te vergemakkelijken, is de presentatie van de verschillende perspectieven geordend volgens de tijdlijn van hun belangrijkste ontwikkelingen. We willen in het bijzonder de verschillende antwoorden op twee hoofdvragen in overweging nemen:

— Waarom zijn de problemen (1–3) hierboven zo uitdagend?

— Welke methoden zijn beschikbaar om ze op te lossen?

3.1. Perspectief vanuit omgekeerde problemen

Inverse probleemtheorie [95,96] is een discipline die tot doel heeft het beste model te vinden om (althans bij benadering) een bepaalde reeks waargenomen gegevens te verklaren. De naam komt van het feit dat het het omgekeerde is van het directe (of voorwaartse) probleem, d.w.z. gegeven een model en zijn parameters, voorspellingen genereren door het model op te lossen. Hadamard [97] was zich al bewust van de moeilijkheden die gepaard gaan met een dergelijke oefening en definieerde goed geformuleerde problemen als problemen met de volgende eigenschappen:

— bestaan: er bestaat een oplossing

— uniciteit: de oplossing is uniek en

— stabiliteit: het gedrag van de oplossing verandert nauwelijks bij een kleine verandering in de beginconditie of parameters (de oplossing is continu afhankelijk van de gegevens).

Omgekeerde problemen zijn vaak slecht gesteld in de zin van Hadamard. Bovendien zijn veel problemen goed gesteld maar slecht geconditioneerd, wat betekent dat de oplossing van het omgekeerde probleem erg gevoelig is voor fouten en ruis in de gegevens. In deze situaties kan het oplossen van het oorspronkelijke probleem leiden tot overfitting, d.w.z. het aangepaste model zal de ruis beschrijven in plaats van de onderliggende relatie. Een overfit model kan de gegevens misschien goed beschrijven, maar heeft een slechte voorspellende waarde. Deze situatie kan worden vermeden door gebruik te maken van kruisvalidatie- en/of regularisatiemethoden.

Kruisvalidatie [98,99] probeert de prestaties van een voorspellend model in de praktijk te schatten. In zijn eenvoudigste vorm worden de beschikbare gegevens verdeeld in twee subsets, waarbij de eerste wordt gebruikt om het inverse probleem op te lossen en vervolgens de voorspellende prestaties ervan te evalueren met de tweede subset.

Regularisatie probeert de slechte conditionering te verminderen door het invoeren van aanvullende informatie via een boetefunctie in de te minimaliseren kostentermijn. Voor lineaire systemen is Tikhonov-regularisatie [100] de meest populaire benadering. Voor niet-lineaire dynamische systemen blijft het een open vraag, hoewel succesvolle toepassingen van op Tikhonov geïnspireerde schema's zijn gemeld. Engels et al. [101] bekijk deze onderwerpen in de context van systeembiologie en presenteer resultaten die het gebruik van sparsity-afdwingende regularisatie ondersteunen. We zullen hieronder terugkomen op het schaarste-afdwingende concept en de gevolgen ervan.

3.2. Perspectief vanuit optimalisatie

Identificatieproblemen worden meestal geformuleerd met behulp van een optimalisatiekader, waarbij wordt gestreefd naar het minimaliseren van een kostenfunctie die een maatstaf is voor de afstand tussen de voorspelde waarden en de werkelijke gegevens. Convexe optimalisatie [102] problemen hebben mooie eigenschappen: het minimum is uniek en algoritmen om ze op te lossen schalen goed mee met de probleemgrootte. De identificatie van niet-lineaire dynamische modellen resulteert echter in niet-convexe problemen, die een breed scala aan mogelijke valkuilen en moeilijkheden vertonen [103] wanneer men ze probeert op te lossen met standaard lokale optimalisatiemethoden: convergentie naar lokale oplossingen, slecht geschaald en niet- differentieerbare modelfuncties, vlakke objectieve functies in de buurt van oplossingen, enz. Daarom zal het gebruik van populaire lokale methoden, zoals Levenberg-Marquardt of Gauss-Newton, resulteren in verschillende oplossingen, afhankelijk van de gok voor het startpunt in de parameter ruimte.

Er wordt soms beweerd dat deze problemen kunnen worden vermeden door een lokale methode te gebruiken op een multi-start manier (d.w.z. herhaalde oplossingen van het probleem beginnend met verschillende schattingen van de parameters). Deze folkloristische benadering [104] is echter niet robuust (het faalt zelfs bij kleine problemen) noch efficiënt (dezelfde lokale optima worden herhaaldelijk gevonden omdat veel van de initiële gissingen zich binnen dezelfde aantrekkingsgebieden van lokale minima bevinden).

Als gevolg hiervan is er behoefte aan goede niet-convexe (globale) optimalisatiemethoden [105,106]. Deterministische benaderingen voor globale optimalisatie in dynamische systemen [107,108] kunnen de globale optimaliteit van de oplossing garanderen, maar de bijbehorende rekeninspanning neemt zeer snel toe met de grootte van het probleem. Dit is een gevolg van het NP-harde karakter van deze problemen. In feite zijn globale optimalisatieproblemen onbeslisbaar in onbegrensde domeinen [109], en NP-hard op begrensde domeinen [110]. Daarom zijn benaderende methoden (zoals stochastische algoritmen en metaheuristieken) op basis van de huidige status van de NP-kwestie [111] een aantrekkelijker alternatief voor problemen van realistische omvang [112-114]. De prijs die moet worden betaald is het gebrek aan garanties met betrekking tot de globale optimaliteit van de gevonden oplossing. Aangezien de te minimaliseren doelfunctie echter een ondergrens heeft, die kan worden geschat op basis van: a priori overwegingen, het verkrijgen van een waarde die dicht bij die grens ligt, geeft ons voldoende indirect vertrouwen in de bijna mondiale aard van een oplossing. Deze methoden zijn met succes toegepast op verschillende benchmarkproblemen met uitstekende resultaten [115]. Bovendien kunnen ze worden geparalleliseerd, zodat hun toepassing op grootschalige kinetische modellen haalbaar is [116]. Verdere rekenefficiëntie kan worden behaald door verdeel- en heersstrategieën te volgen [117].

Een veel voorkomende vraag in deze context is het identificeren van de best presterende methode om een ​​bepaald globaal optimalisatieprobleem op te lossen. Wolpert & Macready [118] veroorzaakten nogal wat opschudding met de publicatie van de NFL (no free lunch) stelling. Kortom, de stelling laat zien dat als methode A beter presteert dan methode B bij het oplossen van een bepaalde reeks problemen, B dan beter zal presteren dan A in een andere reeks. Dus, rekening houdend met de ruimte van alle mogelijke optimalisatieproblemen, zijn alle methoden even efficiënt (er is dus geen gratis lunch bij optimalisatie). Een aantal misvattingen uit deze stelling zijn door anderen afgeleid, waaronder (i) de bewering dat het geen zin heeft om metaheuristieken te vergelijken voor globale optimalisatie, aangezien er geen winnaar kan zijn vanwege NFL en (ii) de hele onderneming van het ontwerpen van globale optimalisatie methoden is zinloos vanwege de NFL-aard van optimalisatie. Wat fundamenteel verkeerd is aan deze beweringen, is dat de NFL-stelling ALLE mogelijke problemen in optimalisatie beschouwt, wat zeker niet het geval is in praktische toepassingen zoals parameterschatting. Bovendien beschouwt de stelling methoden zonder resampling, een veronderstelling waaraan niet wordt voldaan door de meeste moderne metaheuristieken. Ten slotte maken veel moderne metaheuristieken gebruik van de probleemstructuur om de efficiëntie te verhogen. Scatter zoeken is bijvoorbeeld een zeer efficiënte methode gebleken wanneer de lokale zoekfase wordt uitgevoerd door een gespecialiseerde lokale methode [114.116]. Nogmaals, in deze voorwaarden is de NFL-stelling niet van toepassing.

Het bovenstaande betekent op geen enkele manier dat globale optimalisatieproblemen niet extreem moeilijk kunnen zijn. Het is vrij eenvoudig om een ​​soort speld-in-een-hooiberg probleem op te bouwen, wat pathologisch moeilijk zal zijn voor elk algoritme, omdat het geen structuur heeft en daarom volledige verkenning van de zoekruimte vereist (of veel geluk). Voor dit soort problemen wordt het duidelijk dat gemiddeld geen enkele methode beter presteert dan puur willekeurig zoeken, en daarom zouden we in de verleiding kunnen komen om aan te nemen dat de NFL-stelling toch juist is. Gelukkig komen naald-in-een-hooiberg problemen in de praktijk niet voor, en als ze dat wel doen, zullen ze zeer waarschijnlijk het gevolg zijn van extreem slechte modellering.

Samenvattend kan de NFL-stelling worden beschouwd als een van die onmogelijkheidsstellingen die, hoewel waar voor de algemene aannames die worden beschouwd, niet echt grote implicaties hebben in een reëel praktijkkader, en daarom biedt het een pessimistische kijk die het gevolg is van zijn universaliteit ('alle mogelijke problemen'). Dit is vergelijkbaar met de onvolledigheidsstellingen van Godel, die de vooruitgang in de wiskunde niet hebben gestopt [119]. Zoals we hieronder zullen zien met nog een andere onmogelijkheidsstelling, stelt het feit dat onze praktische problemen een structuur hebben die kan worden uitgebuit, ons in staat om aan zo'n pessimistische val te ontsnappen.

3.3. Perspectief vanuit systeem- en regeltheorie

Systeemidentificatietheorie [120,121] is ontwikkeld en toegepast in de regeltechniek met als doel dynamische modellen van systemen te bouwen uit gemeten gegevens. Deze theorie is goed ontwikkeld voor lineaire systemen, maar blijft een zeer actief onderzoeksgebied voor het niet-lineaire dynamische geval [122].

Hoewel het gebied systemen en regelsystemen zich voornamelijk heeft gericht op technische systemen (mechanisch, elektrisch en chemisch), kent het ook een lange staat van dienst in de biologie. Zo publiceerden Bekey & Beneken [123] in 1978 een overzichtsartikel over de identificatie van biologische systemen. In feite zouden we ook de pioniersbijdragen van Wiener [124] en Ludwig von Bertalanffy [125] kunnen beschouwen als baanbrekende voorbeelden van de interacties tussen biologie en systemen en regeltheorie. Er wordt steeds meer opgemerkt dat deze interacties een hulpmiddel kunnen zijn bij het oplossen van relevante problemen op gebieden zoals geneeskunde en biotechnologie [126].

Een sleutelbegrip bij systeemidentificatie is de eigenschap van identificeerbaarheid: ruwweg is een systeem identificeerbaar als de parameters uniek kunnen worden bepaald uit de gegeven input/output-informatie (data). Men kan onderscheid maken tussen structurele [127] en praktische herkenbaarheid [128]. In het structurele geval is identificeerbaarheid een eigenschap van de modelstructuur (zijn dynamiek), en de observatie- en stimuli (controle-ingangen) functies (perfecte metingen worden verondersteld). In het geval van praktische identificeerbaarheid is de eigenschap gerelateerd aan de beschikbare experimentele gegevens (en hun informatieve inhoud). Ondanks het belang ervan, hebben de meeste modelleringsstudies in de systeembiologie de identificeerbaarheid over het hoofd gezien. Gelukkig corrigeert recente literatuur dit (bijv. [129-140]). Ondanks de frequente problemen van gebrek aan volledige identificeerbaarheid, kunnen modellen nog steeds nuttig zijn om interessante variabelen te voorspellen [141,142]. Om de problemen van schaarse en lawaaierige gegevens aan te pakken, stellen Lillacci & Khammash [143] een combinatie voor van een uitgebreid Kalman-filter (een recursieve schatter die bekend is in de regeltechniek) met achteraf identificeerbaarheidstesten en moment-matching optimalisatie. De resulterende benadering kan worden gebruikt voor het verkrijgen van nauwkeurigere schattingen van de parameters en voor modelselectie.

Een nauw verwant onderwerp is dat van optimaal experimenteel ontwerp (OED), dwz hoe we experimenten moeten ontwerpen die zouden resulteren in de maximale hoeveelheid informatie om een ​​model te identificeren met de best mogelijke statistische eigenschappen (die door de gebruiker worden gedefinieerd en gerelateerd kunnen worden aan tot precisie, decorrelatie, enz.). De voordelen voor een efficiënte planning van biologische experimenten liggen voor de hand en zijn in de praktijk aangetoond. Bijvoorbeeld, Bandara et al. [144] toonde aan dat twee cycli van optimalisatie en experimenten voldoende waren om de identificeerbaarheid van parameters aanzienlijk te vergroten. Het onderwerp van optimaal ontwerp van dynamische experimenten in biologische systemen krijgt steeds meer aandacht [144-152]. balsa et al. [145] presenteerde computationele procedures voor OED, die werd geformuleerd als een dynamisch optimalisatieprobleem en opgelost met behulp van controlevectorparametrisatie. Hij et al. [148] vergeleek twee robuuste ontwerpstrategieën, maximin (worst-case) en Bayesiaans, en vond een compromis tussen beide: terwijl het Bayesiaanse ontwerp tot minder conservatieve resultaten leidde dan het maximin, had het ook hogere rekenkosten.

Het verbeteren van de kwaliteit van parameterschattingen is niet het enige doel van OED, het kan ook worden gebruikt voor het afleiden van de netwerktopologie. Tegner et al. [153] stelde een reconstructieschema voor waarbij genen in het netwerk iteratief werden verstoord, waarbij bij elke iteratie de verstoring werd geselecteerd die de hoeveelheid informatie van het experiment maximaliseerde.

Een andere veel voorkomende toepassing van OED is discriminatie tussen concurrerende modellen [147].Met dit doel, Apgar et al. [129] stelde een op controle gebaseerde formulering voor, waarbij de stimulus voor elk kandidaatmodel wordt ontworpen, zodat de outputs een doeltraject volgen. De kwaliteit van een model wordt vervolgens beoordeeld aan de hand van de trackingprestaties. In [149] werden drie verschillende benaderingen overwogen, die elk de beginvoorwaarden, invoerprofielen of parameterwaarden optimaliseerden die overeenkwamen met structurele veranderingen in het systeem. Andere methoden hebben gebruik gemaakt van sigmapuntbenaderingen [151] of Kullback-Leibler-optimalisatie [150,152].

OED met dynamische stimuli is daarom een ​​krachtige strategie om de informatieve waarde van experimenten te maximaliseren en tegelijkertijd het aantal en de bijbehorende kosten te minimaliseren. Ingolia & Weissman [154] benadrukken het belang van het kiezen van de manier om biologische systemen te verstoren, omdat het bepaalt welke kenmerken van die systemen kunnen worden waargenomen en geanalyseerd, zoals geïllustreerd in [155,156]. Samenvattend is er behoefte aan technologieën die een breed scala aan verstoringen mogelijk maken en aan OED-methoden die er het beste uit kunnen halen.

Een onderwerp dat speciale aandacht verdient, is de analyse van kinetische modellen onder onzekerheid. Kaltenbach et al. [157] bieden een interessant onderzoek gericht op epistemische onzekerheid (gebrek aan kennis over de cellulaire netwerken) vanwege praktische beperkingen. Deze auteurs ondersteunen het idee dat de structuur van deze netwerken belangrijker is dan de fijnafstemming van hun snelheidswetten of parameters. Als gevolg hiervan kunnen methoden die zijn gebaseerd op structurele eigenschappen, zelfs uit gedeeltelijk waargenomen en lawaaierige systemen nuttige informatie extraheren. Kaltenbach et al. [157] bieden ook een uitstekend overzicht van methoden uit verschillende gebieden, waarbij wordt gewezen op de 'culturele' verschillen die in de systeembiologie moeten worden aangepakt. Vanlier et al. [140] bieden een inleiding tot verschillende methoden voor onzekerheidsanalyse (gericht op parametrische onzekerheid). Naast het geven van een overzicht van de huidige methoden (inclusief frequentistische en Bayesiaanse benaderingen), benadrukken deze auteurs hoe de toepasbaarheid van elk type methode is gekoppeld aan de eigenschappen van het beschouwde systeem en de aannames die door de modelleur zijn gemaakt. Dit type onderzoek is van groot belang omdat het systeembiologen een evenwichtig beeld geeft van de eisen en resultaten die bij elke methode worden verwacht. Ensemble-modellering is een bijzonder interessant type Monte Carlo-methodologie die is gebruikt om onzekerheid op veel gebieden te verklaren, van weersvoorspellingen tot machine learning. Toepassingen in de systeembiologie zijn al verschenen [158,159]. Een andere verwante succesvolle benadering voor robuuste gevolgtrekking is de wijsheid van menigten [160].

Ten slotte leidt vooruitgang in de identificatie van biologische systemen uiteindelijk tot hun controle [8], en hier zijn de mogelijkheden enorm, vooral in de synthetische biologie [161-167].

3.4. Perspectief vanuit de theorie van het chemische reactienetwerk

De fundamenten van de chemische reactienetwerktheorie (CRNT) werden in de jaren zeventig vastgesteld door Horn, Jackson en Feinberg [168-170]. De theorie bleef nogal sluimerend totdat auteurs als Bailey [171] het potentieel ervan voor de analyse van biologische netwerken benadrukten. Het basisidee is dat we met behulp van CRNT kinetische modellen (multi-stabiliteit, oscillaties, enz.) kunnen karakteriseren zonder de precieze waarden van de kinetische parameters te kennen. In de afgelopen tien jaar is onderzoek op basis van CRNT in een stroomversnelling gekomen [172-178], wat heeft geleid tot belangrijke bijdragen [179].

Met betrekking tot de identificatie van biologische systemen biedt CRNT verschillende resultaten die van aanzienlijk belang zijn. Craciun & Pantea [180] maken gebruik van CRNT om aan te tonen dat, gegeven een (massa-actie) reactienetwerk en zijn dynamische vergelijkingen (ODE's), het misschien onmogelijk is om zijn snelheidsconstanten uniek te identificeren (zelfs met perfecte metingen van alle soorten). Bovendien laten ze ook zien dat het, gezien de dynamiek, misschien onmogelijk is om het reactienetwerk uniek te identificeren.

Szederkenyi et al. [181] maak gebruik van CRNT-principes om inherente beperkingen in de inferentie van biologische netwerken te onderzoeken. Hun resultaten laten zien dat, naast de door Prill . gesignaleerde obstakels, et al. [94] (gebrek aan gegevens en tekortkomingen in de inferentie-algoritmen), moeten we ons ook bewust zijn van fundamentele problemen met betrekking tot de uniciteit en onderscheidbaarheid van deze netwerken (zelfs voor het utopische geval van volledig geobserveerde netwerken zonder ruis). Belangrijker is dat uniciteit en onderscheidbaarheid van modellen kan worden gegarandeerd door zorgvuldig extra randvoorwaarden en/of voorkennis toe te voegen. Een onderwerp dat nader onderzoek verdient, is het effect van het opleggen van een schaarse netwerktopologie. Gegevens van mobiele netwerken suggereren zo'n schaarse topologie, dus het is een veelvoorkomende prioriteit die in veel gevolgtrekkingsmethoden wordt afgedwongen [182.183]. Echter, Szederkenyi et al. [181] laten zien dat de aanname van schaarste alleen niet voldoende is om uniciteit te garanderen. Bovendien kunnen in het geval van lineaire dynamische genetische netwerkmodellen te schaarse structuren schadelijk zijn.

3.5. Perspectief van Bayesiaanse statistieken

Zoals eerder vermeld, gaat de oorsprong van de Bayesiaanse benadering terug tot de achttiende eeuw, en de statistische methoden die in de negentiende eeuw werden gebruikt, waren ook grotendeels Bayesiaans. In de twintigste eeuw domineerde het frequentistische paradigma echter duidelijk de statistieken [184]. Frequentisme was de standaardbenadering die werd gebruikt voor schatting en gevolgtrekking van kinetische (dynamische) modellen, waarbij de meeste studies (geciteerd in de vorige subparagrafen) de maximale waarschijnlijkheid en gerelateerde metrieken beschouwden als de kostenfuncties om te optimaliseren. Echter, gevoed door belangrijke ontwikkelingen in MCMC-methoden in de jaren negentig, was het begin van de eenentwintigste eeuw getuige van een Bayes-revival, en studies over Bayesiaanse methoden voor dynamische modellen begonnen te verschijnen als gevolg van theoretische en computationele vooruitgang en de grotere beschikbaarheid van krachtigere computers. Tegelijkertijd nam de systeembiologie een vlucht met de nieuwe eeuw, waarbij methoden nodig waren die de biologische complexiteit aankonden. Bayesiaanse methoden, die vooral nuttig zijn om informatie te extraheren uit onzekere en lawaaierige gegevens (het meest voorkomende scenario in bio-informatica en computationele systeembiologie), kregen meer aandacht [42,44,185]. Bayesiaanse schatting in stochastische kinetische modellen werd overwogen in verschillende baanbrekende werken met betrekking tot diffusiemodellen [186.187]. Evenzo, in het geval van deterministische kinetische modellen, heeft het laatste decennium een ​​snelgroeiende Bayesiaanse literatuur gezien. Baanbrekend werk met behulp van Monte Carlo-methoden werd gepresenteerd door Battogtokh et al. [188] en Brown & Sethna [189]. Sanguinetti et al. [190] presenteerde een Bayesiaanse methode voor genoom-brede kwantitatieve reconstructie van transcriptionele regulatie, rekening houdend met een discrete tijdtoestand-ruimtemodel. Girolami [191] illustreerde het gebruik van het Bayesiaanse raamwerk om onzekerheid systematisch te karakteriseren in modellen die zijn gebaseerd op gewone differentiaalvergelijkingen. Vyshemirsky & Girolami [192] vergeleken vier methoden voor het schatten van marginale waarschijnlijkheden, en onderzochten hoe deze de Bayes-factorschattingen beïnvloeden, die worden gebruikt voor het rangschikken en selecteren van kinetische modellen.

Wanneer het formuleren van een waarschijnlijkheidsfunctie moeilijk of onmogelijk is, kunnen ABC-achtige benaderingen worden toegepast [85]. ABC-schema's vervangen de evaluatie van de waarschijnlijkheidsfunctie door een maat voor de afstand tussen de waargenomen en gesimuleerde gegevens. Kort gezegd, ABC-algoritmen bemonsteren een parametervector uit de distributie en gebruiken deze voor het genereren van een gesimuleerde dataset. Vervolgens berekenen ze de afstand tussen deze dataset en de experimentele data, en als deze onder een bepaalde drempel ligt, accepteren ze de kandidaatparametervector. De zwakte van deze benadering, althans in zijn eenvoudigste vorm, is dat het een lage acceptatiegraad kan hebben wanneer de prior en de posterieure zeer verschillend zijn. Om dit probleem op te lossen, Marjolein et al. [193] presenteerde een MCMC-algoritme (ABC MCMC) dat waarnemingen vaker accepteert en geen berekening van waarschijnlijkheden vereist. De prijs die moet worden betaald, is het genereren van afhankelijke resultaten en het risico om voor lange tijd vast te komen te zitten in regio's met een lage waarschijnlijkheid van de staatsruimte. Een alternatief is het gebruik van sequentiële Monte Carlo (SMC)-technieken, die een ensemble van deeltjes gebruiken om de posterieure dichtheid weer te geven, waarbij elk monster een gewicht heeft dat de waarschijnlijkheid van het monster weergeeft. SMC-deeltjes zijn ongecorreleerd en de aanpak vermijdt vast te zitten in regio's met een lage waarschijnlijkheid. Sisson et al. [194] stelde een waarschijnlijkheidsvrije ABC-sampler voor op basis van SMC-simulatie (ABC SMC) en een verwante formulering werd voorgesteld door Toni et al. [195,196], die het toepaste voor parameterschatting en modelselectie in verschillende biologische systemen.

ABC-schema's kunnen ook worden gebruikt om de rekenefficiëntie te verbeteren, wat een belangrijk probleem is bij Bayesiaanse benaderingen. Het gebruik van de volledige kansverdeling van parameters in plaats van enkele schattingen van parameterwaarden houdt in dat de waarschijnlijkheid over de hele parameterruimte moet worden berekend, een stap die erg kostbaar kan zijn.

De beschikbaarheid van deze theoretische en computationele vooruitgang heeft geleid tot hun succesvolle toepassing in combinatie met biologische experimenten. Bijvoorbeeld, Xu et al. [197] beschouwde de ERK-celsignaleringsroute en vond onverwachte nieuwe resultaten van biologische betekenis, die het vermogen van Bayesiaanse benaderingen demonstreren om routetopologieën in praktische toepassingen af ​​te leiden, zelfs wanneer metingen luidruchtig en beperkt zijn. In een andere recente aanvraag, Eydgahi et al. [198] gebruikte Bayes-factoranalyse om onderscheid te maken tussen twee alternatieve kinetische modellen van apoptose. Het is interessant om op te merken dat de benadering deze auteurs in staat stelde een veel grotere plausibiliteit toe te kennen aan een van de modellen, hoewel beide even goede gegevens lieten zien. Bovendien is het ook opmerkelijk dat, ondanks de niet-identificeerbaarheid van de modellen, de Bayesiaanse benadering resulteerde in voorspellingen met kleine betrouwbaarheidsintervallen. Met betrekking tot experimenteel ontwerp, Liepe et al. [199] illustreerde de combinatie van Bayesiaanse gevolgtrekking met informatietheorie om experimenten met maximale informatie-inhoud te ontwerpen en paste deze toe op drie verschillende problemen.

Onlangs heeft Raue et al. [200] presenteerde een interessant onderzoek waarin de frequentistische en de Bayesiaanse benaderingen werden gecombineerd. Deze auteurs merken op dat voor kinetische modellen met een gebrek aan identificeerbaarheid (structureel en/of praktisch), de Markov-keten in op MCMC gebaseerde Bayesiaanse methoden geen convergentie kan garanderen en zal resulteren in onnauwkeurige resultaten. Om dit te overwinnen, stellen ze een procedure in twee stappen voor. In de eerste stap wordt een frequentistische profiel-waarschijnlijkheidsbenadering gebruikt in iteratieve combinatie met experimenteel ontwerp totdat de identificeerbaarheidsproblemen zijn opgelost. Vervolgens, in de tweede stap, kan de MCMC-aanpak betrouwbaar worden gebruikt.

Een andere belangrijke vraag betreft de schaalbaarheid van Bayesiaanse benaderingen, d.w.z. kunnen ze grootschalige kinetische modellen aan? In een recente bijdrage, Hug et al. [201] bespreek de conceptuele en computationele problemen van Bayesiaanse schatting in hoogdimensionale parameterruimten en presenteer een multi-keten bemonsteringsmethode om ze aan te pakken. De haalbaarheid en efficiëntie van de methode wordt geïllustreerd met een signaaltransductiemodel met meer dan 100 parameters. Het onderzoek is een belangrijk proof of principle en tevens een goed voorbeeld van de zorgvuldigheid die betracht moet worden bij de verificatie van resultaten.

De bestaande literatuur wijst op het belang van een adequate selectie van priors. Gauss-processen (GP's) kunnen worden gebruikt om een ​​prior direct boven de functieruimte te specificeren, wat vaak eenvoudiger is dan via de parameterruimte. Een GP [202] is een stochastisch proces waarvoor elke reeks variabelen een gezamenlijke multivariate Gauss-verdeling heeft. Gauss-processen zijn generalisaties van Gauss-kansverdelingen: ze beschrijven de eigenschappen van functies in plaats van scalairen of vectoren. Ze zijn ook toegepast bij de ontwikkeling van efficiënte en betrouwbare steekproefschema's. Hier, Calderhead et al. [203] illustreerde hoe huisartsen kunnen worden gebruikt om Bayesiaanse inferentie in niet-lineaire dynamische modellen aanzienlijk te versnellen. Andere opmerkelijke recente ontwikkelingen in bemonsteringsmethoden zijn gepresenteerd door Girolami & Calderhead [204.205] en Schmidl et al. [206].

3.6. Perspectief vanuit de natuurkunde

De natuurkunde heeft talrijke en zeer relevante bijdragen geleverd aan inferentie en wiskundige modellering in het algemeen. In feite is de oorsprong van veel van de ideeën die in de bovenstaande paragrafen zijn geclassificeerd, terug te voeren op ontwikkelingen in de natuurkunde. Het is daarom niet onze bedoeling om hier een overzicht te geven van zo'n omvangrijke geschiedenis.

In plaats daarvan zullen we ons concentreren op recent onderzoek dat heeft geleid tot een brede discussie over de vraag of er fundamentele beperkingen zijn met betrekking tot dynamische modellering van biologische systemen. Gutenkunst et al. [207] bespreken het concept van slordige modellen (geïntroduceerd door Brown & Sethna [189]), dwz multiparametrische modellen waarvan het gedrag (en voorspellingen) slechts afhangt van een paar combinaties van parameters, met vele andere slordige parameterrichtingen die in wezen onbelangrijk zijn . Deze auteurs testten een verzameling van 17 systeembiologische modellen en concludeerden dat (i) slordigheid universeel is in systeembiologische modellen en (ii) slordige parametergevoeligheden helpen verklaren hoe moeilijk het is om nauwkeurige parameterschattingen te extraheren uit collectieve passingen, zelfs uit uitgebreide gegevens. De vorige studie van Brown & Sethna [189] presenteert een degelijke theoretische analyse op basis van statistische thermodynamica en Bayesiaanse gevolgtrekkingen.

Dit werk heeft veel aandacht gekregen van de systeembiologische gemeenschap. Hier willen we enkele openstaande vragen uitlichten en commentaar geven op mogelijke misvattingen eromheen. Enkele van onze opmerkingen hieronder zijn ook terug te vinden in de correspondentie van Apgar et al. [208] en gerelateerde opmerkingen [209.210].

Hoewel het werk van Gutenkunst et al. [207] is een waardevolle bijdrage die mooi de moeilijkheden illustreert die parameterschattingsproblemen in dynamische modellen teisteren, we geloven dat:

(i) er hadden verbanden moeten worden gelegd tussen slordigheid en eerdere werken over identificeerbaarheid (die niet worden geciteerd). Onze eigen bevooroordeelde mening is dat identificeerbaarheid waarschijnlijk een beter kader is om de bovengenoemde uitdagingen te analyseren. Om te beginnen lijkt slordigheid het gebrek aan structurele en praktische herkenbaarheid op één hoop te gooien. Structurele problemen kunnen echter worden aangepakt door herformulering of reductie van het model. Praktische identificeerbaarheidsproblemen kunnen worden overwonnen door meer informatieve gegevens en, idealiter, door OED (zie gerelateerde opmerkingen van Apgar et al. [208]). Identificeerbaarheid lijkt dan ook een krachtiger concept in die zin dat het ons ook richtlijnen geeft om het te verbeteren.

(ii) aangezien de slordigheid van het model kan worden verminderd door de bovenstaande strategieën, is het geen universele eigenschap in systeembiologie. Zie ook Apgar et al. [208] voor meer hierover. Om eerlijk te zijn, Gutenkunst et al. [207] stellen duidelijk dat 'universeel' een technische betekenis heeft vanuit de statistische fysica (een gedeelde eigenschap met een diepe onderliggende oorzaak), dus universaliteit in deze zin betekent niet dat alle modellen noodzakelijkerwijs de eigenschap moeten delen. Maar uit gesprekken met veel collega's blijkt dat de laatste onjuiste betekenis vaak is aangenomen en

(iii) gerelateerd aan (i), concludeert de studie van Brown & Sethna [189] dat slordigheid niet het gevolg is van een gebrek aan gegevens. Betekent dit dat het alleen te maken heeft met een gebrek aan structurele herkenbaarheid? Deze indruk krijgen we niet, omdat b.v. in de studie van Apgar et al. [208] en gerelateerde opmerkingen [209.210], lijken de besproken problemen alleen verband te houden met praktische identificeerbaarheid.

In zekere zin heeft slordigheid een enigszins pessimistische kijk op parameterschatting in dynamische modellering gecreëerd, vergelijkbaar met die gecreëerd door de NFL-stelling in optimalisatie zoals hierboven beschreven. Maar in dit geval is er geen stelling en zijn er manieren om structurele en praktische identificeerbaarheidsproblemen te overwinnen (modelherformulering en/of betere experimenten kunnen inderdaad leiden tot goede parameterschattingen). Wij zijn van mening dat een integratieve studie van slordigheid en identificeerbaarheid zeer waardevol zou zijn. We zijn ook van mening dat in veel situaties het gebrek aan informatieve gegevens de bron is van een dergelijk gebrek aan identificeerbaarheid, omdat de meeste biologische systemen van belang slechts gedeeltelijk worden waargenomen en de huidige meettechnologieën vaak tot grote fouten leiden. Vooruitgang in dergelijke technologieën, gekoppeld aan nieuwe manieren om verstoringen te introduceren en het gebruik van OED-methoden, zou echter moeten leiden tot identificeerbare dynamische modellen [208,211], dus we moeten optimistisch zijn over de kalibratie van deze modellen.

3.7. Perspectief vanuit de informatietheorie

Informatietheorie werd geïnitieerd door het werk van Shannon [61], die geïnteresseerd was in het vinden van fundamentele grenzen aan signaalverwerkingsprocessen in communicatie en compressie van gegevens. De zogenaamde bemonsteringsstelling (vaak toegeschreven aan Shannon & Nyquist [212]) is een van zulke fundamentele resultaten: de informatie van een signaal blijft behouden als het uniform wordt bemonsterd met een snelheid die minstens twee keer sneller is dan de Fourier-bandbreedte (hogere frequentie) . Of, met andere woorden, een in de tijd variërend signaal zonder frequenties hoger dan N hertz kan perfect worden gereconstrueerd door het signaal te bemonsteren met regelmatige tussenpozen van 1/(2N) seconden. Daarom, als we geen bemonstering boven deze drempel hebben, kunnen we niet precies het oorspronkelijke signaal herstellen.

We vinden opnieuw een stelling die een fundamentele beperking oplegt aan wat we uit gegevens kunnen afleiden. Nogmaals, dit lijkt weer een geval te zijn van een pessimistische kijk die kan worden vermeden als we andere informatie over het systeem exploiteren. Recent werk [213-215] toonde inderdaad aan hoe sparsiteitspatronen kunnen worden gebruikt om signalen perfect te reconstrueren met bemonsteringsfrequenties onder de Shannon-limiet. Deze werken hebben het ontluikende nieuwe veld van gecomprimeerde (of compressieve) detectie gecreëerd, waarvoor al een groot aantal werken is gepubliceerd, niet alleen met betrekking tot de methodologie en de uitbreidingen, maar ook met toepassingen. In het geval van biologische data zijn ze met succes toegepast in de bioinformatica [216]. Zeer recentelijk, Pan et al. [217] presenteerde een zeer interessante compressieve detectiebenadering voor de reverse engineering van biochemische netwerken, uitgaande van volledig waargenomen netwerken. Een belangrijke vraag blijft open: kunnen we dit raamwerk toepassen op gedeeltelijk geobserveerde netwerken?

3.8. Perspectief vanuit machine learning

Machine learning, algemeen beschouwd als een deelgebied van kunstmatige intelligentie, heeft tot doel systemen te bouwen (meestal programma's die op computers worden uitgevoerd) die kunnen leren van gegevens en kunnen handelen volgens de vereisten. Met andere woorden, het is gebaseerd op datagedreven benaderingen waarbij de systemen leren van ervaring (data). Methoden voor machinaal leren zijn op grote schaal gebruikt in de bio-informatica [218.219] en computationele en systeembiologie [220.221].Traditioneel werden de datagestuurde modellen die worden gebruikt in machine learning beschouwd aan de andere kant van het spectrum van mechanistische modellen. Recente ontwikkelingen op het gebied van machinaal leren hebben het echter mogelijk gemaakt om beide op de een of andere manier te koppelen en het automatisch genereren van mechanistische modellen via gegevensgestuurde methoden te overwegen. In deze lijn betogen Kell & Oliver [222] dat datagestuurde benaderingen moeten worden beschouwd als complementair aan de meer traditionele hypothesegestuurde programma's.

Gedurende het laatste decennium zijn er verschillende studies gepresenteerd die de volledige automatisering van reverse engineering onderzoeken, van het genereren van hypothesen tot experimenten en terug, in wat machinewetenschap wordt genoemd [223]. Een prominent voorbeeld is de door King . ontwikkelde robotwetenschapper et al. [224-226] en zijn toepassingen in functionele genomica, illustrerend hoe een machine op een volautomatische manier nieuwe wetenschappelijke kennis kan ontdekken.

Een geautomatiseerd proces voor reverse engineering van niet-lineaire dynamische systemen werd gepresenteerd door Bongard & Lipson [227], en illustreerde hoe de methode kan worden gebruikt voor geautomatiseerde modellering in systeembiologie, inclusief het automatisch genereren van toetsbare hypothesen. Meer recent presenteerden Schmidt & Lipson [228] een benadering om automatisch vrije natuurwetten te genereren uit experimentele gegevens. Ondanks deze succesverhalen zal de grootschalige en gedeeltelijk waargenomen aard van de meeste biologische systemen ongetwijfeld een grote uitdaging vormen voor de wijdverbreide toepassing van deze procedures in het laboratorium.

4. Conclusie: lessen uit convergerende perspectieven

Reverse engineering kan ons helpen de mechanismen van biologische systemen af ​​te leiden, te begrijpen en te analyseren. In die zin is modelleren een systematische manier om onze huidige kennis van deze systemen efficiënt in te kapselen. De waarde van modellen kan (en moet) echter verder gaan dan hun verklarende waarde: ze kunnen worden gebruikt om voorspellingen te doen, en ook om nieuwe vragen en hypothesen te suggereren die experimenteel kunnen worden getest. Systeembiologie zal slagen als de praktische waarde van theorie wordt gerealiseerd [5].

Bovenstaande perspectieven vanuit verschillende gebieden laten duidelijk overlap en convergerende ideeën zien. Bijvoorbeeld, de slecht gestelde aard van veel identificatieproblemen, zoals beschreven in de inverse probleemtheorie, heeft duidelijke parallellen in optimalisatie (multimodaliteit, vlakheid van kostenfuncties), systeemidentificatie (gebrek aan identificeerbaarheid) of CRNT (niet-uniekheid) . Evenzo kunnen sommige regularisatietechnieken worden beschouwd als Bayesiaanse benaderingen waarbij bepaalde eerdere distributies worden afgedwongen. Andere overlappingen en synergieën zijn niet zo voor de hand liggend (bijvoorbeeld de rol van schaarste bij gevolgtrekkingen) en zullen zorgvuldig bestudeerd moeten worden.

Uit de verschillende perspectieven die we kort hebben besproken, kunnen verschillende basislessen worden getrokken. De eerste les is dat het modelleren moet beginnen met vragen die verband houden met het beoogde gebruik. Deze vragen zullen ons ook helpen bij het kiezen van het beschrijvingsniveau dat moet worden geselecteerd [229]. We moeten ons concentreren op het maken van de juiste vragen, zelfs als we ze slechts bij benadering kunnen beantwoorden (een exact antwoord op de verkeerde vraag heeft weinig zin [230]).

De tweede les is dat deze reverse engineering-problemen buitengewoon uitdagend zijn, dus pessimistische opvattingen zijn begrijpelijk (bijv. Brenner [231] denkt dat ze niet oplosbaar zijn). Maar, zoals mooi betoogd door Noble [232], de geschiedenis van de wetenschap bevat veel onjuiste beweringen over onmogelijkheid. In feite hebben we in eerdere paragrafen gezien dat het bestaan ​​van verschillende pessimistische stellingen vooruitgang op verwante gebieden niet heeft uitgesloten. Brenner [231] citeert een artikel [233] over omgekeerde problemen om zijn scepsis te rechtvaardigen. In dat werk becommentarieert Tarantola [233] de moeilijkheden die inverse problemen in de geofysica teisteren, en concludeert dat waarnemingen niet moeten worden gebruikt om een ​​bepaalde oplossing af te leiden, maar om mogelijke oplossingen te vervalsen. Naar onze mening, zelfs als dit geldt voor inverse problemen in de systeembiologie (wat twijfelachtig is), betekent dit niet dat we gedoemd zijn te mislukken (Popper beschouwt wetenschap als falsificatie, en Tarantola's visie bouwt daarop voort). Trouwens, gelukkig zijn er ook optimistische opvattingen in de gemeenschap, en moderne statistische methoden zijn hier om te helpen (zie bijvoorbeeld het uitstekende voorwoord in het boek van Stumpf et al. [185]).

In dit verband is het ook vermeldenswaard dat, zoals beschreven door Silver [41], modellering en simulatie in sommige gebieden zeer succesvol zijn geweest (met name kortetermijnweersvoorspellingen), maar dramatisch hebben gefaald in andere (bijv. aardbevingsvoorspellingen) . In beide onderwerpen is tientallen jaren aan onderzoek geïnvesteerd. In het geval van het weer hebben we echter betere gegevens en een diepere kennis van de betrokken fysisch-chemische mechanismen. De atmosfeer en haar grenzen zijn veel gemakkelijker te verkennen dan de spanningen en verplaatsingen onder de grond. De optimistische systeembioloog zal zich verheugen in de beschrijving van systeembiologie als cellulaire weersvoorspelling [5]. Maar we moeten ook in gedachten houden dat het vele jaren heeft geduurd om de theoretische en computationele methoden achter de huidige weermodellen te ontwikkelen.

De derde les is dat benaderingsmethoden ons redelijk goede oplossingen kunnen bieden voor veel van deze moeilijke problemen. We hebben met name gezien hoe gerandomiseerde algoritmen van verschillende typen (bijvoorbeeld stochastische methoden voor globale optimalisatie of MCMC-samplingmethoden in Bayesiaanse inferentie) goede resultaten kunnen opleveren in redelijke rekentijden. Onnodig te zeggen dat dit niet betekent dat deterministische algoritmen moeten worden opgegeven (ze boeken bijvoorbeeld goede vooruitgang bij globale optimalisatie). Het zal eerder heel interessant zijn om te zien hoe hybriden tussen deterministische en stochastische methoden resulteren in technieken die goed opschalen met de probleemomvang.

De vierde les is dat, hoewel de controverse over Bayesiaans versus frequentisme voortduurt [234], Bayesiaanse methoden waarschijnlijk beter geschikt zijn voor veel van de inferentieproblemen in de systeembiologie. Stumpf et al. [185] noemen de moeilijkheden van klassieke statistiek met een gebied dat rijk is aan gegevens, maar ook rijk aan hypothesen. Overigens is het interessant op te merken dat Lindley [235] een Bayesiaanse eenentwintigste eeuw voorspelde. Echter, zoals het is gebeurd in andere wetenschapsgebieden, kan het bundelen van krachten een strategie zijn die het onderzoeken waard is, zoals onlangs werd geïllustreerd door Raue et al. [200].

De vijfde les is dat we verbanden moeten leggen tussen identificeerbaarheid, zoals ontwikkeld op het gebied van systemen en controle, en verwante concepten die op andere gebieden zijn ontwikkeld, zoals slordigheid [207]. De Bayesiaanse visie zal ook helpen bij het vaststellen van de praktische limieten voor reverse engineering van kinetische modellen [236].

De zesde les is dat we de structuur van dynamische modellen moeten benutten. Naast CRNT, Kaltenbach et al. [157] noemt ook de theorie van monotone systemen [237] als een veelbelovende weg, en benadrukt de noodzaak van verder onderzoek om deze theorieën toe te passen op biologische netwerken van realistische complexiteit.

Een laatste zevende les is dat, hoewel systeembiologie een echt interdisciplinair gebied is, we meer inspanningen moeten coördineren en meer notities moeten uitwisselen. Verschillende gemeenschappen hebben theorieën en instrumenten ontwikkeld die grote implicaties hebben voor de identificatie en reverse-engineering van biologische systemen, maar in veel gevallen hebben ze dit geïsoleerd van elkaar gedaan. Er zijn verschillende opmerkelijke voorbeelden waar samenwerkingen zeer succesvol zijn geweest, zoals SBML [238], BioModels Database [239] of de DREAM-uitdagingen [94]. Zoals aangegeven door Kitano [240], kunnen internationale allianties voor kwantitatieve modellering in systeembiologie nodig zijn. Voor modellen met hele cellen zijn robuuste en schaalbare inferentie- en schattingsmethoden nodig. Er ligt veel reverse engineering in het verschiet.


Onopgeloste problemen in celbiologie: reverse engineering van de collectieve actie van macromoleculen

Moleculaire biologie conceptualiseert biologie door de chemie van individuele macromoleculen of discrete complexen. Celbiologie is vager. Het conceptualiseert door middel van de biologie van cellen, en zijn moleculaire arm richt zich op ensembles binnen of tussen cellen waar meerdere macromoleculen gezamenlijk werken om een ​​assemblage te bouwen en een proces uit te voeren. Het lidmaatschap en de tijdruimtelijke grenzen van deze ensembles zijn vaak slecht gedefinieerd en aan verandering onderhevig. Zelfs als we een betrouwbare onderdelenlijst hebben, staan ​​we nog steeds voor een grote uitdaging om het opkomende gedrag te begrijpen van dynamische ensembles die meerdere macromoleculen omvatten, met name die welke zijn opgebouwd uit zwakke bindingen en energie dissiperen. Ik zal de term 'reverse engineering' gebruiken om te verwijzen naar de uitdaging om van een lijst van componenten en individuele moleculaire functies naar een begrip van opkomend gedrag en fysiologie te gaan.

Mitotische spindelassemblage is al lang een paradigma voor zelforganisatie en collectieve actie (Figuur 1A). Met behulp van microscopie om dynamiek en defecten te meten die worden veroorzaakt door het verlies van afzonderlijke eiwitten, kon het veld in de jaren negentig en 2000 een ruw moleculair beeld van spindels opbouwen. Maar ik denk niet dat we de conceptuele kern van het probleem hebben begrepen. Wiskundige modellen hielpen, maar ze hadden de neiging om ongeteste aannames te doen en hadden moeite met driedimensionale organisatie. We kennen nu alle eiwitten die betrokken zijn bij mitose, en iets over hun functies, maar er ontbreekt nog veel op conceptueel niveau. Dit jaar zal mijn groep de concentratie en spindel/cytoplasmaverhouding van alle spindeleiwitten rapporteren op basis van massaspectrometrie. Dit is een stap voorwaarts, maar hoe komen we van zelfs een kwantitatieve lijst naar een diep begrip van assemblageprincipes, stabiele dynamiek, opkomende mechanica en reactie op verstoring? Hoe gaan we het spilproteoom reverse-engineeren? Ik ben enthousiast over een recent artikel van Thomas Surrey's groep1 waar de overgang tussen monopolaire en bipolaire spilorganisatie opnieuw werd voorgesteld als tussen polaire en nematische netwerken, gereconstitueerd met twee sleuteleiwitten (tubuline en Kif11) en geanalyseerd met een fysiek plausibel model. Dit is een stap voorwaarts in het begrijpen van een centraal opkomend gedrag, maar het is nog steeds onduidelijk hoe we de volledige complexiteit van de spil zullen reverse-engineeren.

Een ander gebied waar mijn groep diepgaand is uitgedaagd om collectieve actie te begrijpen, is de signalering van biologie en de connectie met farmacologie. Figuur 1B conceptualiseert het systeem. Om te begrijpen hoe cellen reageren op door geneesmiddelen geïnduceerde verstoring van microtubuli, werpen we een breed net, waarbij we tijdafhankelijke veranderingen in eiwitfosforylering en genexpressie meten met behulp van "omics" -technologie. We observeerden duizenden fosforyleringsplaatsen en honderden genen die veranderden als reactie op een medicijn (vaste groene pijl). Deze gegevens onthulden het bestaan ​​van complexe netwerken van controleroutes die de medicijnrespons orkestreren (grijze tekst). Onze uitdaging is reverse-engineering van de metingen om deze netwerken te ontcijferen, en de voortgang wordt momenteel stopgezet bij het rode kruis in figuur 1B. We weten niet hoe we significante signalen van ruis moeten onderscheiden, of hoe we de gegevens moeten ordenen in coherente paden en input-outputrelaties. We proberen te begrijpen hoe de cel 'denkt' en we hebben veel relevante metingen, maar niet de tools en concepten die nodig zijn om het probleem op te lossen. Dezelfde vragen kunnen worden gesteld aan elk medicijn, of zelfs elke fysiologische input.

Vanuit het oogpunt van ziektebehandeling geven we misschien niet om de details van collectieve actie die worden geïmpliceerd in het grijze centrale kader in figuur 1B. We hebben alleen medicijnen nodig die werken. Misschien kunnen we genetica, met zijn geweldige vereenvoudigende kracht, gebruiken om rechtstreeks van moleculaire verstoring naar fenotypische respons te gaan, zonder de complexiteit daartussenin. Maar die houding ontwijkt onze fundamentele verantwoordelijkheid als celbiologen. Moleculaire verstoringen rimpelen naar buiten door de cel en verstoren een onderling verbonden netwerk van signaalroutes en genen. Een van die rimpelingen kan onverwachts uitgroeien tot een tsunami die de reactie op medicijnen domineert. Reacties verschillen vaak tussen ziektemodellen of soorten om onduidelijke redenen, wat het ontdekken van medicijnen moeilijk en faalgevoelig maakt. Momenteel is het bijna onmogelijk om het effect in het menselijk lichaam van een medicijn te voorspellen met een nieuw mechanisme. Ik ben ervan overtuigd dat de manier waarop cellen en organen 'denken' niet onmogelijk complex is, dat er logica en voorspelbaarheid zal zijn zodra we weten hoe we het kunnen vinden, en dat kennis de ontdekking van geneesmiddelen voorspelbaarder zal maken. Ik zie dit als een nieuwe uitdaging bij het reverse-engineeren van de collectieve actie van macromoleculen.

Verwijzing
1Roostalu J, Rickman J, Thomas C, Nédélec F, Surrey T (2018). Determinanten van polaire versus nematische organisatie in netwerken van dynamische microtubuli en mitotische motoren. Cel 18, 796–808.

Over de auteur
Tim Mitchison is Hasib Sabbagh hoogleraar systeembiologie aan de Harvard Medical School.


Zijn de omgekeerde problemen van systeembiologie onmogelijk op te lossen? - Biologie

Kirk Dolan behaalde diploma's in landbouwtechniek aan de U. of FL (BS), UC Davis (MS) en Michigan St. U. (Ph.D.). Hij werkte 6 jaar in China als Asian Director for Pharmaceutical and Food Specialists, San Jose, CA, een adviesbureau voor voedselveiligheid en procesautoriteit. Hij was assistent (2000)/associate (2005) hoogleraar voedingstechnologie aan de Michigan State University, met gezamenlijke benoemingen in de afdeling Voedingswetenschappen en Humane Voeding, en de afdeling Biosystemen en Landbouwtechniek. Zijn verlengingsaanstelling om de MI-voedselindustrie te helpen, biedt de mogelijkheid om veel voedselfabrieken te bezoeken en workshops te houden over verschillende voedselveiligheidskwesties. Zijn onderzoek en onderwijs gaan over thermische verwerking, inverse problemen en parameterschatting onder dynamische omstandigheden. Hij doceert een niet-gegradueerde techniekles over biologische vloeistofverwerking en een afgestudeerde techniekles over numerieke technieken en parameterschatting met behulp van MATLAB.

Yinjie J. Tango Universiteit van Washington

Ik deed mijn doctoraat in chemische technologie aan de Universiteit van Washington. Ik heb aan DOE GTL-projecten gewerkt tijdens mijn postdoctorale periode in het Lawrence Berkeley National Laboratory (met Dr. Jay Keasling). Sinds mijn verhuizing naar de Washington University in St. Louis, richt mijn onderzoek zich op het karakteriseren en ontwikkelen van micro-organismen in de omgeving. De bereikte mijlpalen zijn onder meer 13C-metabole route-analyse, metabole fluxmodellering en systeemgenetische manipulatie van E.coli en cyanobacteriën voor chemische producties. Ik heb de NSF CAREER Award (2010) en de Ralph E. Powe Junior Faculty Enhancement Award (2010) ontvangen. Ik doceer Process Dynamics and Control, Fluid Mechanics, Bioprocess Engineering en Metabolic Engineering aan de Washington University. Ik ben ook mededocent geweest bij Advanced Energy Laboratory (2011) en International Experience in Bioenergy (2012). In 2013 ontving ik een Department Chair's Award for Outstanding Teaching.

Wei Liao Michigan State universiteit

Abstract

Verbetering van bio-engineeringcursussen door middel van systeembiologie en kinetische fermentatieprocesmodellering. Samenvatting In dit gezamenlijke project werden MATLAB en Simulink toegepast om de cursussen voor Metabolic Engineering, Parameter Estimation for Engineering, Process Dynamics and Control en ProcessControl Laboratory in de _________ in _________ in 2011 te verbeteren. Het project verbeterde ook de bestaande cursussen bio-engineering in de _______ bij __________, met name Microbial Systems Engineering and Engineering Analysis and Optimization of Biological Systems in 2012. In deze cursussen werden zowel MATLAB als Simulink gebruikt. Meer dan 100 undergraduate en graduatestudenten van beide universiteiten hebben de afgelopen twee jaar deelgenomen aan de lessen. De onderwijsaanpak was om MATLAB en Simulink kennis te laten maken met bio-engineeringcursussen. Met behulp van computationele modelleringstools ontwikkelden studenten de vergelijkingen voor verschillende toepassingen in systeembiologie en bio-engineering, losten de voorwaartse en de inverse problemen op, gebruikten Simulink om procescontrole / ontwerp van technische projecten uit te voeren en ten slotte geoptimaliseerde bioprocessen (zowel statische als dynamische modi) met behulp van MATLAB-tool dozen. Bovendien werden studenten blootgesteld aan echte experimenten in het bioreactielab waar gegevens werden verzameld. Voor alle cursussen had elke student een door MathWorks geleverde licentie om alle benodigde toolboxen te gebruiken. De beoordeling vond plaats door middel van huiswerk, projecten, examens op MATLAB/Simulink en opmerkingen van studenten en andere docenten. Verschillende van de studenten hebben nu MATLAB/Simulink in hun onderzoek geïmplementeerd en nieuwe methoden geïntroduceerd bij hun adviseurs. De resultaten omvatten een webpagina met dia's en notities die voor het publiek zijn geplaatst, twee gepubliceerde tijdschriftartikelen, één boekhoofdstuk gepubliceerd en twee ingezonden, en één afstudeercursus over MATLAB/Simulink die een verplichte cursus werd voor afgestudeerde studenten op ______. 2Introductie Modellering wordt gebruikt om gegevens samen te vatten, te optimaliseren, snelle voorspellingen mogelijk te maken en om processen te ontwerpen, zoals 'wat-als'-scenario's. In de afgelopen tien jaar zijn computermodellering en -simulatie veel meer gebruikt in de industrie. De explosie van interesse in modellering is deels te danken aan de toegang tot betere en goedkopere software en aan de potentiële besparingen in inspanning, tijd en kosten bij experimenteel werk. Zowel niet-gegradueerde als afgestudeerde ingenieursstudenten moeten enige vaardigheid hebben in het gebruik van modellerings- en technische computersoftware voordat ze de arbeidsmarkt betreden. Het doel van dit project was dan ook om de bestaande ingenieursopleidingen in Chemical and Biosystems Engineering te verbeteren door gebruik te maken van MATLAB en Simulink. De ervaring van de studenten met het schrijven van code in MATLAB en het inrichten van een systeem in Simulink was een uitstekende voorbereiding op het begrijpen van de computationele algoritmen. Uiteindelijk zullen studenten systeemtechnische vaardigheden ontwikkelen om problemen in de ontluikende biotechnologie-industrie op te lossen. Achtergrond en cursusbeschrijving Industriële biotechnologie gebruikt vaak micro-organismen en enzymkatalysatoren om bruikbare producten te synthetiseren. De voordelen van biologische reacties in grote hoeveelheden kunnen niet worden gerealiseerd zonder gebruik te maken van systeembiologie, bioprocescontrole en modelleringstheorie. De kritische grenzen voor studenten bioproceskunde zijn directe ervaring met systeembiologische analyse, bioreactoroperaties en het modelleren van dynamisch gedrag van metabole reacties onder gecontroleerde variabelen. Het door MathWorks gesubsidieerde project van systeembiologie en kinetische procesmodellering was gebaseerd op fundamentele kennis in biologie, scheikunde, wiskunde, statistiek, kinetiek en chemische procestechniek, die werd geïntegreerd in het curriculum voor vier hoofdvakken aan de ________ Universiteit en de ________ Universiteit. 1. Metabolic engineering (ChE596) aan de _________ University richt zich op de analyse van complexe interacties in biologische systemen en de introductie van metabole veranderingen om de gewenste cellulaire eigenschappen te bereiken [1]. Momenteel zijn er tal van chemische verbindingen, variërend van geneesmiddelen tot biobrandstof, geproduceerd met behulp van biologische hulpmiddelen. Het vermogen om natuurlijke of synthetische producten efficiënt te synthetiseren, vereist inzicht op systeemniveau van het metabolisme.Deze klas leert moleculaire hulpmiddelen voor padwijzigingen, systeembiologie en metabole modellering. Er zijn in totaal 30 afgestudeerde / niet-gegradueerde studenten die hebben deelgenomen aan de lessen van 2011 en 2012. 2. Process Control (ChE 462) en Process Control Laboratories (ChE 463) aan de ______ University, doceert de theorie van de procescontrole van chemische ingenieurs en leidt de studenten op in controletechnieken die in de industrie worden gebruikt. Procesbeheersing (CheE462) richt zich op de regeldynamiek en modelsimulatie van chemische processen [2]. De Control 3-laboratoria (ChE463) bestaan ​​uit 5 controle-experimenten met behulp van een ultramoderne elektronische controller van EMERSON en werkstations om processen zoals stroom, niveau, druk en temperatuur te regelen. Realtime procesgegevens zijn beschikbaar in EXCEL en MATLAB (inclusief Simulink). Een bioproceslaboratorium (een zesde controle-experiment) wordt opgezet om zich te concentreren op de werking en modellering van de bioreactor (

30 afgestudeerde / niet-gegradueerde studenten / jaar). Studenten gebruiken de regeltheorie en modelleervaardigheden om de problemen in de industriële biotechnologie op te lossen. 3. Microbial Systems Engineering (BE 360) aan de _______ University leidt biosysteemingenieurs op in het ontwerpen, modelleren en simuleren van bio-engineeringprocessen. Onderwerpen zijn onder meer toepassing van technische grondbeginselen, biologische principes en rekenhulpmiddelen voor de analyse van microbiële processen, kinetische analyse van biologische processen, modellering van microbiële processen, eenheidsbewerkingen en opschaling. Toepassingen op biobrandstof en voedselproductie worden gegeven. In deze cursus is gebruik gemaakt van MATLAB en Simulink. Ontwikkeling van een fermentatielaboratoriumoefening en uitgebreidere modelleringservaring met MATLAB en Simulink hebben de studentenervaring verbeterd. Er waren 30 niet-gegradueerde studenten in 2011 en 42 studenten in 2012. 4. Technische analyse en optimalisatie van biologische systemen (BE 835) aan de _______Universiteit. Deze cursus op graduaatniveau bestaat uit twee delen: 1) Numerieke technieken en het voorwaartse probleem en 2) Parameterschatting en inverse problemen. Andere onderwerpen binnen deze twee zijn onder meer optimaal experimenteel ontwerp, sequentiële parameterschatting, modeldiscriminatie en Monte Carlo-simulatie. Studenten worden getest op het kunnen gebruiken van MATLAB om systemen van ODE's op te lossen wanneer alle parameters worden gegeven (het voorwaartse probleem), en om deze parameters te schatten wanneer experimentele gegevens worden gegeven (het inverse probleem). Er waren 15 studenten in 2011 en 17 studenten in 2012. Onderwijsaanpak Zowel MATLAB als Simulink werden in deze cursussen gebruikt om parameters voor fermentatiekinetiek (een groep gewone differentiaalvergelijkingen) te schatten, om kinetische modellen numeriek op te lossen (ode-functies), om de bio-ethanol te simuleren /biomassaproductie (Systems BiologyToolbox), en het modelleren van een bioreactor die massa- en warmteoverdracht combineert (Basic Simulink). In elke cursus leerden de studenten de principes en vergelijkingen voordat ze de MATLAB en Simulink gebruikten, om een ​​'black-box'-benadering te vermijden. MATLAB en Simulink werden gepresenteerd als tools die het oplossen van de vergelijkingen sneller en gemakkelijker maken. Er werden parameters gegeven om eerst voorwaartse problemen op te lossen. Voor het inverse probleem werden gesimuleerde of echte gegevens gegeven om de parameters te schatten. Simulink werd gebruikt om systemen van ODE's op te lossen en vervolgens het proces te optimaliseren op basis van geselecteerde parameters of variabelen. Hieronder vindt u de details per cursus. 1. Metabolic engineering (ChE596) 4 Studenten van ______ University hadden teamprojecten om de bioreactor te gebruiken voor ethanol- en butanolfermentaties, en ontwikkelden modellen om de biomassa- en alcoholproductiegegevens te beschrijven (Figuur 1a). Voor zowel bachelor- als masteropleidingen werden computerlabs ingericht voor studenten, zodat MATLAB/Simulink overal kon worden gedemonstreerd en gebruikt. Fluxanalyse is bijvoorbeeld een belangrijk systeembiologisch hulpmiddel voor fysiologische voorspelling van enzymatische snelheden in metabole netwerken, en maakt op kennis gebaseerd ontwerp van cellulaire functies mogelijk. De celbrede kwantificering van intracellulaire fluxen kan worden uitgevoerd via Flux Balance Analysis (FBA), die de stoichiometrie van de metabole reacties en een reeks biologische beperkingen gebruikt om de haalbare fluxen te verkrijgen. In deze klas hebben studenten geleerd hoe ze het FBA-model kunnen ontwikkelen en MATLAB kunnen gebruiken om het onderbepaalde fluxmodel op te lossen met behulp van de functie (fmincon).a) Ethanolfermentaties met behulp van gist. b) Kinetisch model voor ethanol fed-batch fermentatie Figuur 1: Fermentatielab en modellering aan de ________ Universiteit 2. Procesdynamica en controle- en procescontrolelaboratoria In beide klassen, stabiel en onstabiel gedrag van chemische processen, fundamentele feedback- en feedfoward-controlestrategieën, en moderne regeltheorie en toepassingen werden onderwezen. Na het volgen van deze cursus begrijpen studenten niet alleen de theorie van procesbeheersing en laboratoriumoperaties, maar leerden ze ook de vaardigheden voor het ontwikkelen van modellen om de procesdynamiek te analyseren en te voorspellen. Tijdens het semester leerde de student gedurende ongeveer een maand zowel Simulink als MATLAB in het computerlab. Ze voltooiden een computerproject over alcoholfermentatie met behulp van de feitelijke experimentele gegevens die door de instructeur waren verstrekt. Studenten ontwikkelden de kinetische modellen (met behulp van gewone differentiaalvergelijkingen) en voeren de parameteraanpassing en statistische analyse uit met behulp van MATLAB (ode45 gekoppeld aan nlinfit-functies) (Figuur 1b). Er zijn vier tot vijf variabelen in het model, waaronder glucose, biomassa, alcohol, acetaat (als de remmende bijproducten) en stikstofbronnen (gistextract). De studenten moeten de parameters die zijn verkregen uit verschillende fermentatieomstandigheden vergelijken om de alcoholproductie onder invloeden van zuurstofniveau, substraatconcentratie en chemische remmingen te schatten. Het project zal de studenten ook vragen om de regelkring (PID-regeling) op te nemen om de werking van bioreactorfermentatie onder verschillende zuurstofcondities te simuleren. Volgens de feedback van studenten is het computerlab het meest waardevolle onderdeel van deze klas, omdat het hun rekenvaardigheden ontwikkelt voor hun toekomstige academische en industriële banen. 3. Microbial Systems Engineering (BE 360) De benadering van deze cursus was het integreren van de introductie van microbiële processen met wiskundige modellering van microbiële kinetiek. De cursus begon met het doceren van toepassingen van microbiële systemen in de milieu-, voedsel- en energie-industrie. Na bespreking van de fundamentele microbiële fysiologie en de massa/energiebalans van microbiële processen, werd microbiële kinetiek geïntroduceerd in de klas. Vanwege de gecompliceerde aard van microbiële kinetiek was een groep differentiaalvergelijkingen nodig om de kinetiek te beschrijven. Vaak zijn er geen algebraïsche oplossingen voor dergelijke kinetiek. Studenten gebruikten wiskundige modellering om de componenten engineering en microbiologie met elkaar te verbinden. De MATLAB-functie ode45 en een oplossingsbenadering voor een groep differentiaalvergelijkingen werden aan studenten voorgesteld. Een demonstratie fermentatielab werd gegeven om de modellering toe te passen. Alle parameters zoals specifieke groeisnelheidsconstante, onderhoudscoëfficiënten, product/biomassa opbrengst en remmingscoëfficiënt die nodig waren voor de modellering werden verkregen uit het demonstratielab. De studenten moesten een model construeren om een ​​gecompliceerd microbieel proces te beschrijven met behulp van de parameters uit het demonstratielab. Volgens de antwoorden van de studenten verbeterde deze benadering het begrip van de studenten in het gebruik van wiskundige hulpmiddelen om oplossingen te vinden voor toepassingen in de echte wereld. 4. Technische analyse en optimalisatie van biologische systemen (BE 835). Alle colleges werden gegeven in een computerlokaal waar elke student twee monitoren had. De les was dinsdag en donderdag van 16.10-17.30 uur. De eerste helft van de cursus, het voorwaartse probleem, werd aan de hand van dit leerboek gegeven [3]. De belangrijkste onderwerpen die werden aangeleerd waren numerieke technieken om het gebied onder functies te integreren om root-finding te doen, en om systemen van ODE's op te lossen voor beginwaarde- en randwaardeproblemen voor lineaire en niet-lineaire ODE's, met behulp van ode45 en de eindige-verschilmethode. Het scherm van de instructeur werd live gedeeld op het scherm van de student, zodat studenten de code van de instructeur konden zien en tegelijkertijd op hun andere schermen konden testen met behulp van MATLAB. De lezingen waren gebaseerd op powerpoint-slides (gemaakt door Michael Gustafson, Duke University) voor elk hoofdstuk, geleverd door Mathworks. De eerste 4 lezingen waren een inleiding tot coderen inMATLAB, hoofdstukken 2-4. Nadat de studenten praktische kennis hadden van MATLAB-codering, zou een atypische lezing bestaan ​​uit het geven van een powerpoint-lezing door de instructeur waarin het concept voor die dag wordt uitgelegd, zoals hoe ODE's met initiële waarde worden opgezet en opgelost in MATLAB. De instructeur stopte met gepaste tussenpozen om te demonstreren hoe de MATLAB-code moest worden uitgevoerd, zodat de studenten het konden uitproberen en vragen konden stellen. De instructeur had alle dia's en codevoorbeelden geüpload, zodat studenten alle materialen zouden hebben wanneer elke les begon. 6 Nadat de leerlingen al onder de knie hadden hoe ze ode45 moesten gebruiken om een ​​ODE met beginwaarde op te lossen, werd Simulink geïntroduceerd. Van de studenten werd verwacht dat ze weten hoe ze Simulink kunnen gebruiken om een ​​systeem van ODE's met beginwaarde op te lossen. De tweede helft van de cursus, Parameter Estimation, was gebaseerd op [4] en een update van Hoofdstuk 6 met MATLAB-code erin [5]. De instructeur ontwikkelde zijn eigen aantekeningen en powerpoint-slides om lezingen te geven en te laten zien hoe de MATLAB-code moet worden uitgevoerd. De belangrijkste onderwerpen waren parameterschatting door gewone kleinste kwadraten (OLS) met ode45 en nlinfit, sequentiële schattingsmatrixformulering en statistieken voor de modeldiscriminatie van parameterfouten, en optimaal experimenteel ontwerp. Omdat de MATLAB-code voor deze onderwerpen vrij lang en ingewikkeld was, leverde de docent deze allemaal als generieke codes en ging hij door elke cel in de code om er zeker van te zijn dat de studenten deze begrepen. Van studenten werd verwacht dat ze wisten hoe ze de code moesten aanpassen voor elk huiswerk of examenprobleem. Beoordeling De beoordeling werd gemaakt door middel van huiswerk, projecten, examens op MATLAB/Simulink, vereiste numerieke studentevaluaties en opmerkingen van studenten en andere instructeurs. Op basis van klasevaluaties van studenten kregen al onze cursussen zeer positieve feedback. Verschillende van de studenten hebben nu MATLAB/Simulink in het onderzoek geïmplementeerd en nieuwe methoden geïntroduceerd bij hun adviseurs. De resultaten waren onder meer een webpagina met dia's en notities die voor openbare toegang werden geplaatst. Een nieuwe website over parameterschatting met behulp van MATLAB één tijdschriftartikel ingediend door een student rechtstreeks op basis van zijn gegevens en wat hij leerde in de cursus met instructeur _____ en één graduate cursus over MATLAB/Simulink die een verplichte cursus voor afgestudeerde studenten aan de___ Universiteit. De instructeurs van ____ en _____ bereiden twee hoofdstukken in het boek voor (een hoofdstuk gaat over enzymkinetiek en het andere hoofdstuk gaat over metabolische en bioreactormodellen) voor een nieuw tekstboek "Bioenergy: Principles and Applications". Het doel van het boek zal de kloof overbruggen tussen bio-energieonderwijs en industriële toepassingen. Een derde boekhoofdstuk op basis van de paragraaf over parameterschattingen van BE 835 werd onlangs gepubliceerd. Hieronder vindt u enkele details. 1. Metabolic engineering (ChE596)Eén huiswerk was gewijd aan de component fluxmodellering van de cursus. De studenten werd gevraagd om een ​​eenvoudig FBA-model te ontwikkelen met 20 reacties in de centrale stofwisseling om de alcoholfermentatieroutes te beschrijven. 2. Procescontrole en procescontrolelaboratoria (ChE 462/463) Twee huiswerk- en twee computerprojecten werden toegewezen aan studenten om modelleervaardigheden te oefenen met behulp van MATLAB en Simulink. Ze leerden parameterschatting met behulp van Excel en de MATLAB curve fitting Toolbox kinetische modellering (met behulp van ode45, ode23 en ode15s functies) Simulink (bouwen en uitvoeren van simulaties) Parameteraanpassing en procesoptimalisatie (met behulp van 7fmin functie en nlinfit). Een voorbeeld van een klasproject werd door studenten op YouTube geplaatst: http://www.youtube.com/watch?v=kL-qoKvNesU 3. Modellering van microbiële systemen (BE 360) Er werden twee huiswerkopdrachten gewijd aan de modelleringscomponent van de cursus. De studenten werd gevraagd om onafhankelijk een groep differentiaalvergelijkingen af ​​te leiden om de kinetiek van twee microbiële processen, een bacterieel denitrificatieproces en een gist-ethanolfermentatieproces te beschrijven. De studenten moesten ook MATLAB gebruiken om numerieke oplossingen voor hen te vinden. De instructeur ontdekte dat de studenten geïntrigeerd waren door het gebruik van de wiskundige hulpmiddelen die ze net hadden geleerd om toepassingen uit de echte wereld te modelleren. 4. Technische analyse en optimalisatie van biologische systemen (BE 835). Wekelijks huiswerk telde voor 50% van de klas, omdat studenten MATLAB het beste kunnen leren door veel voorbeeldproblemen op te lossen. Sommige moeilijkheden bij het doen van klassikale examens op de computer waren onder meer ongeplande technische problemen met bepaalde computers en de tijd die nodig was om codes te debuggen. Nadat hij de cursus twee keer had gegeven, ontdekte de instructeur dat als een tussentijds klassikaal examen (25%) wordt gebruikt, dit ofwel gebaseerd moet zijn op korte antwoorden, ofwel een beperkt aantal eenvoudige programmeervragen moet hebben, of beide. Een take-home midterm wordt beschouwd als een betere optie. Voor het eindexamen (25%) werden zowel een take-home-examen als een project in twee aparte klassen uitgeprobeerd. De instructeur gaf de voorkeur aan het project, omdat studenten de omgekeerde probleemmethoden zullen gebruiken om parameters te schatten voor de gegevens van de studenten of gegevens die uit de literatuur zijn geselecteerd, waardoor de studenten praktijkervaring krijgen. Ten slotte hebben studenten van deze bio-engineeringlessen bij WUSTL en MSU geholpen bij het indienen van verschillende onderzoeksartikelen en boekhoofdstukken:  Kinetische modellering en isotopisch onderzoek van isobutanolfermentatie door twee gemanipuleerde Escherichia coli-stammen. Industrieel en technisch chemieonderzoek. 2012. 51 (49): 15855-15863.  Constructie van een spaarzaam kinetisch model om microbiële dynamiek vast te leggen via parameterschatting. 2013. Inverse problemen in wetenschap en techniek. Geaccepteerd.  Boek Hoofdstuk 14. Microbiële metabolismes en metabole modellering voor de productie van biobrandstoffen in "Bio-energie: principes en toepassingen". Onder beoordeling.  Boek Hoofdstuk 15. Enzymatische hydrolyse in “Bioenergy: Principles and Applications”. Onder beoordeling. ^ "Hoofdstuk 7: Identificatie van parameters onder dynamische temperatuuromstandigheden in inactivatiekinetiek", Progress on Quantitative Approaches of Thermal Food Processing, New York, New York: Nova Science Publishers, 2012. Gepubliceerd. Resultaten 8 1. Zowel niet-gegradueerde als afgestudeerde ingenieursstudenten zijn bekwaam in MATLAB en Simulink, waardoor ze concurrerender zijn voor banen. 2. Dia's en cursussyllabus worden gratis geplaatst op de website: http://tang.eece.wustl.edu/MATLAB_WUSTL.htm 3. Gepubliceerde tijdschriftartikelen (over Industrial & Engineering Chemistry Research, Inverse Problems in Science & Engineering) of ) door de student met behulp van de methoden die in de cursus zijn geleerd. 4. BE 835 geselecteerd in 2012 als verplichte cursus voor afgestudeerde studenten in de afdeling. 5. Toegenomen gebruik van MATLAB en Simulink in niet-gegradueerde projecten en afstudeeronderzoek, en verbetering van de kwaliteit van het academisch onderzoek. Conclusies Alle vier de lessen waren significant verbeterd door lesgeven en hands-on probleemoplossing met MATLAB en Simulink. De individuele studentenlicenties die door Mathworks werden verstrekt, zorgden ervoor dat gereedschapskisten te allen tijde konden worden gebruikt. Dankbetuigingen Dit project werd ondersteund door Mathworks' Curriculum Development Education Grant.Bibliografie[1] Stephanopoulos, G., A.A. Aristidou en J.H. Nielsen, Metabolic engineering: principes en methodologieën, San Diego: Academic Press, 1998. [2] Seborg, DE, T.F. Edgar, DA Mellichamp en FJ Doyle, III, Process Dynamics and Control, Hoboken, NJ: John Wiley and Sons, 2011. [3] Chapra, SC, Toegepaste numerieke methoden met MATLAB voor ingenieurs en wetenschappers, 2e ed., Boston: McGraw-Hill Higher Education, 2008. [4] Beck, J.V. en K.J. Arnold, Parameterschatting in techniek en wetenschap, New York: Wiley, 1977. [5] Beck, J.V. en K.J. Arnold, Parameter Estimation in Engineering and Science, herzien hoofdstuk 6, www.beckeng.com, 2007.

Citaat

Dolan, K.D., & Tang, YJ, & Liao, W. (2014, juni), Verbetering van cursussen bio-engineering door middel van systeembiologie en bioprocesmodellering Paper gepresenteerd op 2014 ASEE Annual Conference & Exposition, Indianapolis, Indiana. 10.18260/1-2--20605


Referenties

Geciteerde werken

Wikipedia-bijdragers. "Systeembiologie." Wikipedia, de gratis encyclopedie. Wikipedia, The Free Encyclopedia, 20 aug. 2016. Web. 12 sep. 2016.

Primaire referenties

Aanvullende referenties

Bosch, TCG en MJ Mc-Fall-Ngai. 2011. "Metaorganizsms als de nieuwe grens." zoölogie. 114(4): 185-190. September 2011. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3992624/

Dollery, C. en R. Kitney. 2007. Systeembiologie: een visie op techniek en geneeskunde. Londen: The Academy of Medical Sciences en The Royal Academy of Engineering. Beschikbaar op https://www.acmedsci.ac.uk/viewFile/publicationDownloads/1176712812.pdf

Endy, D. 2005. "Fundamenten voor technische biologie." Natuur. 438(7067): 449-453. 24 november 2005. Beschikbaar op: http://www.nature.com/nature/journal/v438/n7067/abs/nature04342.html

Harvard Medical School. 2010. "Afdeling Systeembiologie." Cambridge, MA: Harvard Medical School, Harvard University. Beschikbaar op: https://sysbio.med.harvard.edu/

Kitano, H. 2002. "Systeembiologie: een kort overzicht." Wetenschap. 295 (5560): 1662-1664. 01 maart 2002. Beschikbaar op: http://science.sciencemag.org/content/295/5560/1662.

Sauser, B., J. Boardman en D. Verma. 2010. "Op weg naar een biologie van systemen van systemen." IEEE-transacties op systemen, mensen en cybernetica, deel A: systemen en mensen. 40(4): 803 - 814. Beschikbaar op: http://ieeexplore.ieee.org/document/5467221/

Wikipedia-bijdragers. "Systeembiologie." Wikipedia, de gratis encyclopedie. Wikipedia, The Free Encyclopedia, 20 aug. 2016. Web. 12 sep. 2016.


Postdoctoraal onderzoeker in Wellcome Trust DBT India Alliance-project bij NII, New Delhi

  • Geconsolideerde beurs: Volgens de voorwaarden van de Wellcom trust DBT India Alliance en het National Institute of Immunology (minimaal Rs. 40.000 / - per maand).
  • Project titel : Onderzoek naar de rol van een ontwikkelingsregulator bij inflammatoire immuunrespons onder Wellcome Trust DBT India Alliance
  • Functieomschrijving/ervaring: De kandidaat is klaar om veranderingen in het signalerings- en transcriptienetwerk van de gastheercel te onderzoeken als reactie op pathogene verstoringen. De kandidaat moet over gedegen technische vaardigheden op het gebied van celcultuur en biochemie beschikken en moet beschikken over theoretische kennis op het gebied van celsignalering. De kandidaat moet in het bezit zijn van een Ph.D-graad (of moet zijn / haar scriptie hebben ingediend voor het behalen van een Ph.D-graad) en meer dan 5 jaar ervaring in onderzoekslaboratoria.

var gaJsHost = ((“https:” == document.location.protocol) ? “https://ssl.&#8221 : “http://www.&#8221) document .write(unescape(“%3Cscript src='” + gaJsHost + “google-analytics.com/ga.js’ type=’text/javascript’%3E%3C/script%3E' 8221)) var pageTracker = _gat._getTracker(“UA-2697320-3”) pageTracker._initData() pageTracker._trackPageview()


Zijn de omgekeerde problemen van systeembiologie onmogelijk op te lossen? - Biologie

Arfath Pasha is een software-engineer in het Computational Science Initiative van Brookhaven Lab, waar hij de infrastructuur ontwikkelt voor een computerplatform dat is ontworpen om wetenschappers in staat te stellen te voorspellen en uiteindelijk te ontwerpen en engineering-biologische functies voor duurzame bio-energie en milieuoplossingen te ontwikkelen. In zijn vrije tijd coacht hij een jeugdroboticateam via FIRST LEGO League.

Samenwerken met anderen om problemen op te lossen is wat Arfath Pasha doet als een geavanceerde applicatie-ingenieur in het Computational Science Initiative bij het Brookhaven National Laboratory van het Amerikaanse Department of Energy (DOE). Sinds hij in januari 2017 bij Brookhaven Lab kwam, heeft Pasha geholpen bij het uitbouwen van de infrastructuur voor een webgebaseerd bio-informaticaplatform voor voorspellende biologie. Dit open-source data- en softwareplatform, DOE's Systems Biology Knowledgebase, of KBase, is de afgelopen zes jaar in ontwikkeling geweest door middel van een samenwerking tussen meer dan 30 onderzoekers van vier nationale DOE-laboratoria: Argonne, Brookhaven, Lawrence Berkeley en Oak Ridge. #8212en verschillende partnerorganisaties, waaronder Cold Spring Harbor Laboratory en de University of Tennessee.

KBase integreert systeembiologische gegevens voor planten en microben, evenals tools voor het beheren, analyseren en delen van deze gegevens. Systeembiologie verwijst naar de studie van de structuren en interacties van complexe biologische systemen, van de kleinste eenheden (atomen, moleculen, cellen) tot de grootste (organismen, populaties, soorten). KBase is ontworpen om de samenwerking tussen biologen en bio-informatici te vergemakkelijken, waardoor ons begrip van de biologische functies binnen plant- en microbiële systemen wordt verbeterd. Het uiteindelijke doel is om dit inzicht toe te passen om duurzame biobrandstoffen te produceren, koolstof vast te leggen in het ecosysteem, vervuilde omgevingen op te ruimen en andere energie- en milieu-uitdagingen op te lossen.

KBase combineert informatie over planten, microben en de complexe biomoleculaire interacties die binnen deze organismen plaatsvinden in een enkele, geïntegreerde kennisbank, samen met computationele analysetools.

&ldquoKBase&rsquos-integratie van gegevens en tools heeft het potentieel om wetenschappers in een breed scala van toepassingsgebieden voor systeembiologie te machtigen, waaronder milieuanalyse, biosysteemontwerp en bio-energie,&rdquo, legt Nomi Harris uit, KBase-communicatieleider en bioinformatica-projectmanager bij Lawrence Berkeley National Laboratory . &ldquoDe mogelijkheden om te delen versterken dit potentieel door wetenschappers met verschillende expertises in staat te stellen gemakkelijk samen te werken en gebruik te maken van elkaars werk. KBase-gebruikers hebben het systeem toegepast om een ​​reeks wetenschappelijke problemen aan te pakken, waaronder het vergelijken van genomen van plantensoorten, het voorspellen van microbioominteracties en het modelleren van het metabolisme van omgevings- en gemanipuleerde microben.&rdquo

Een speld in een hooiberg zoeken

Om ervoor te zorgen dat gebruikers het maximale uit KBase kunnen halen, moeten ze kennis kunnen benutten uit relaties binnen de diverse datasets die door gebruikers worden gedeeld en verbindingen tussen entiteiten kunnen maken. Ze moeten bijvoorbeeld publicaties vinden die bepaalde genomen bespreken die bepaalde genen bevatten met specifieke eiwitfuncties die afhankelijk zijn van een bepaald type omgeving. Microbiële genomen bestaan ​​uit enkele miljoenen DNA-basenparen, bijvoorbeeld de bacterie E coli heeft drie miljoen en planten hebben aanzienlijk grotere genomen, waarvan sommige meer dan 100 miljard basenparen bevatten. Het doorzoeken van deze DNA-sequenties om genen te vinden die coderen voor enzymen die uniek zijn voor specifieke metabole routes, levert een soort naald-in-een-hooiberg-probleem op.

Hier komt Pasha om de hoek kijken. Hij werkt met een team van software-engineers om een ​​kennisengine te bouwen, zodat gebruikers gemakkelijk de informatie kunnen vinden waarnaar ze op zoek zijn. Volgens Pasha brengt het uitbouwen van de backend-infrastructuur voor deze zoekmogelijkheid een aantal technische uitdagingen met zich mee: &ldquoBioinformatica-experimenten vereisen grote hoeveelheden gegevens, veel maatwerk en meerdere stappen om tot de uiteindelijke resultaten te komen. Het tonen van deze datatrails en het toestaan ​​van maatwerk voegt een niveau van complexiteit toe aan het onderliggende systeem, aangezien elke stap de toepassing van verschillende configuraties kan vereisen.&rdquo

Hoewel er al een zoekmogelijkheid bestaat binnen KBase, werken Pasha en collega-software-ingenieurs samen om de reactietijd voor vragen, de gebruikerservaring en de kwaliteit van de zoekresultaten te verbeteren. Dit werk omvat het vertalen van productbeschrijvingen op basis van gebruikersbehoeften naar functionaliteiten en het regelmatig communiceren met wetenschappers die over de juiste domeinkennis beschikken om ervoor te zorgen dat het platform zinvolle resultaten oplevert.

Voor Pasha biedt KBase hem niet alleen de mogelijkheid om zijn technische vaardigheden toe te passen, maar ook om te leren. Het afgelopen jaar heeft hij inleidende online cursussen genomics gevolgd. De kennis die hij opdeed in RNA-sequencing hielp uiteindelijk bij het verbeteren van KBase-toepassingen op dit gebied.

"Het feit dat DNA werkt als een kleine machine en informatie bevat die nodig is om zoveel functies op zo'n microscopisch niveau uit te voeren, is gewoon verbijsterend", zei Pasha. &ldquoHet is zeer de moeite waard om deel uit te maken van dit project en om kennis te nemen van alle wetenschappelijke ontdekkingen die mogelijk zijn gemaakt door KBase.&rdquo

Volgens Harris is de wetenschap binnen KBase gepubliceerd in meer dan 30 peer-reviewed publicaties. Deze wetenschap omvat de reconstructie van meer dan 8000 modellen van het kernmetabolisme van bacteriesoorten en de reconstructie van semi-curated metabolische modellen voor 773 menselijke darmmicroben. Een deel van het onderzoek is openbaar gedeeld als reproduceerbare workflows, Narratives genaamd, die elke gebruiker kan bekijken, kopiëren en opnieuw uitvoeren.

"Via deze openbare verhalen kunnen wetenschappers snel de voorbeelden volgen van hun collega's om vergelijkbare benaderingen toe te passen op nieuwe gegevens en scenario's," zei Harris. &ldquoKbase gaat dus verder dan het ondersteunen van reproduceerbare wetenschap om snelle herbestemming, hertoepassing en uitbreiding van wetenschappelijke technieken mogelijk te maken.&rdquo

"Bij het KBase-project draait alles om teamwerk", zegt Pasha. &ldquoWat we hier bouwen, kan alleen worden bereikt door samenwerking, en het platform zelf is ontworpen om samenwerking te vergemakkelijken. Het streven om zowel KBase te bouwen als het te gebruiken om ons begrip van planten en microben te vergroten, kan alleen worden gedaan. Hoe goed je ook bent als individu, als je in een team kunt werken, is een succesvol resultaat onmogelijk.&rdquo

Geleerde lessen toepassen in teamwerk

Pasha's sterke geloof in teamwerk komt deels voort uit zijn ervaringen met het coachen van basisschoolkinderen, waaronder zijn zoon die deelnemen aan de FIRST LEGO League. Deze internationale roboticawedstrijd brengt teams van kinderen van de vierde tot en met de achtste klas en volwassen coaches samen om echte wetenschappelijke problemen te onderzoeken en mogelijke oplossingen te ontwikkelen. Onderdeel van de wedstrijd is het bouwen en programmeren van een autonome LEGO Mindstorms-robot om bepaalde missies rond het gekozen thema voor dat jaar te voltooien.

Pasha en co-coach Joshua Peskay coachen de afgelopen vijf jaar het team van de vijfdeklassers van hun zoons in het kader van de Forest Hills Robotics League, een vrijwilligersorganisatie zonder winstoogmerk. In maart nam het team, genaamd H7O, het op tegen 64 teams tijdens het FIRST LEGO League Robotics Championship in New York City, dat werd gehouden in het City College van New York. Bij deze stadsbrede competitie, die slechts één niveau onder het wereldkampioenschap ligt, won H7O de eerste prijs voor programmering.

Het thema van 2017 en 2018 was hydrodynamica en H7O bouwde een vraag-en-antwoordspel dat is ontworpen om spelers te informeren over watermisbruik. Om het onderwerp te onderzoeken, spraken ze met game-ontwerpers, een militaire officier die 40 dagen zonder douche ging, en een persoon die na de recente orkaan vers water probeerde te krijgen voor de inwoners van Puerto Rico. Inmiddels is de competitie voor dit seizoen afgelopen, maar het team blijft aan het project werken.

Hoewel de technologische componenten van de competitie uitdagend zijn, vindt Pasha dat de moeilijkste lessen om de jonge geesten te leren, verband houden met kernwaarden. De teams worden niet alleen beoordeeld op de kwaliteit van hun onderzoek en robotontwerp, maar ook op hun prestaties als team.

Het H7O-team met hun trofee na het winnen van de eerste prijs voor programmering op het NYC FIRST LEGO League Citywide Championship op 11 maart.

"Het is niet gemakkelijk voor 10-jarigen om te leren samenwerken en functioneren in een samenwerkingsomgeving, maar het vermogen om met anderen samen te werken vormt de basis voor al het andere dat ze zullen gaan doen," zei Pasha. &ldquoDe ervaring om hen kernwaarden bij te brengen is zeer verrijkend. Ik herken veel van de gebieden waar ze mee worstelen in mijn eigen werk, en ik merk dat ik over deze gebieden nadenk en bepaalde ideeën versterk om mijn teamworkvaardigheden te verbeteren. Deze ervaring heeft me geleerd hoeveel u kunt profiteren door naar de ideeën van anderen te luisteren en deze aan te moedigen en geduld te oefenen.&rdquo

Op zoek naar creatieve technische mogelijkheden

Robotica is altijd al een passie van Pasha's geweest. Al sinds hij een kind was dat opgroeide in India, is hij gefascineerd door de mechanica van systemen, zoals hoe autowielen draaien. Hij studeerde werktuigbouwkunde aan de Universiteit van Mysore in India en behaalde vervolgens masterdiploma's in computerwetenschappen en werktuigbouwkunde en ruimtevaarttechniek aan de Universiteit van Florida. Hij specialiseerde zich in robotica als afgestudeerde student en werkte als onderzoeksassistent bij het Center for Intelligent Machines and Robotics, waar hij algoritmen ontwikkelde voor autonome systemen die worden gebruikt in nucleaire installaties voor de verwijdering van besmet afval.

Na zijn afstuderen bouwde hij zeven jaar lang onbemande systemen als senior software engineer bij de Advanced Robotics Group van het Air Force Research Laboratory, Tyndall Air Force Base. Daarna werkte hij korte tijd in de industrie aan de ontwikkeling van cloudinfrastructuur voordat hij bij Columbia University's Center for Computational Learning Systems kwam werken. Hier leidde hij een team van ontwikkelaars om commerciële natuurlijke taalverwerkingstools voor het Arabisch te bouwen. Drie jaar later keerde hij terug naar de industrie als software-ingenieur bij een opstartend softwarebeveiligingsbedrijf.

&ldquoIk werk graag in gebieden waar ik mijn creativiteit kan uiten,&rdquo, zei Pasha. &ldquoIn mijn carrière heb ik projecten uitgezocht waarvan ik dacht dat ze heel leuk zouden zijn om nieuwe dingen te leren. KBase is een van die projecten. Ik had sinds de middelbare school geen biologie meer aangeraakt. Mijn eerdere werk in robotica heeft niets met biologie te maken, maar ik draag mijn technische vaardigheden over en pas ze creatief toe om de prestaties, efficiëntie, eenvoud en onderhoudbaarheid van KBase te verbeteren. Het is opwindend om deel uit te maken van een team dat bestaat uit echt getalenteerde mensen die allemaal werken aan hetzelfde doel: het oplossen van complexe biologische problemen.&rdquo


5. Conclusies

We presenteerden drie krachtige methoden voor globale optimalisatie die geschikt zijn voor computationele systeembiologische toepassingen. We hebben de voor- en nadelen van de onderzochte benaderingen benadrukt en we hebben referenties gegeven voor hun verbeteringen die mogelijk beter passen bij specifieke taken.

We hebben de multi-startbenadering gepresenteerd voor een niet-lineaire kleinste-kwadratenmethode [14] die geschikt is voor parameterschatting wanneer het om deterministische simulaties gaat, evenals voor statistische regressie. De kleinste-kwadratenmethoden hebben veel aantrekkelijke eigenschappen, zoals de gegarandeerde lokale convergentie onder specifieke hypothesen of de waardevolle beëindigingscriteria die de convergentie van de methode beoordelen. De multi-startbenadering herhaalt de kleinste-kwadratenprocedure vanuit verschillende startpunten om de ruimte van parameters te verkennen bij het zoeken naar de globale oplossing. Deze methoden kunnen echter niet worden toegepast in het geval van niet-continue objectieve functies of discrete parameters. We hebben ook de random walk Markov-keten Monte Carlo-methode [15] geïllustreerd die kan worden toegepast voor veel statistische gevolgtrekkingen, inclusief parameterschatting, en die geschikt is voor het raamwerk van Bayesiaanse gevolgtrekking. Deze methode kan worden toegepast bij continue en niet-continue doelfuncties, maar ook bij stochastische simulaties. Bovendien is de asymptotische convergentie naar de globale oplossing verzekerd onder milde hypothesen. Desondanks biedt de asymptotische convergentie geen beëindigingscriteria en daarom kan de convergentie niet worden gecertificeerd. Ten slotte hebben we een eenvoudig genetisch algoritme [74] geïllustreerd, een heuristische, op de natuur geïnspireerde methode die kan worden toegepast op een breed scala aan problemen. Eenvoudig genetisch algoritme is geschikt voor problemen met continue en niet-continue objectieve functies, evenals continue en discrete parameters. Er zijn echter geen garanties voor de convergentie voor het meest algemene geval, dus het vereist een voorzichtige evaluatie van de resultaten.

We hebben ons gericht op de algemene ideeën achter elke methode, zonder de beschrijving te vertroebelen met veel details. Om deze reden hebben we eenvoudige implementaties opgenomen die, naar onze mening, beter zouden kunnen helpen bij het begrijpen van de algoritmen en de benaderingen. Daarom bevat onze beschrijving niet alle nieuwste verbeteringen en uitbreidingen van de overwogen optimalisatietechnieken. Deze verbeteringen omvatten nauwkeurigere versies van kleinste-kwadratenprocedures [14] en genetische algoritmen [75], implementaties van MCMC-methoden die discrete variabelen ondersteunen [71] en hybride methoden die MCMC en genetische algoritmen samenvoegen [92]. Deze en vele andere verbeteringen hebben het toepassingsgebied van deze methoden vergroot en hun nauwkeurigheid en convergentie verbeterd, wat echter heeft geleid tot complexere procedures.

De gepresenteerde benaderingen bestaan ​​naast een uitgebreide literatuur van exacte en heuristische methoden. Zo bestaan ​​er de simplex [9] en de gradiënt [14] methoden, evolutionaire strategieën [88], de branch and bound [93], de deeltjeszwerm [94] of de gesimuleerde annealing [95], en talloze andere benaderingen. . Omwille van de eenvoud en de kortheid hebben we niet het hele spectrum van bestaande deterministische en stochastische methoden behandeld. We erkennen dat andere reviews al hebben gewezen op het belang van globale optimalisatie in computationele systeembiologie [5, 67, 96�]. Voor de meeste van hen waren de inspanningen van de auteurs echter gericht op één bepaalde methodologie. Integendeel, deze review is bedoeld om een ​​gids te bieden voor het oplossen van veelvoorkomende problemen in het veld, zonder zich te concentreren op één specifieke benadering.


Invoering

Bij gezonde mensen worden de bloedglucosespiegels stabiel gehandhaafd en vertonen ze slechts een lichte postprandiale stijging. 1 Er treden echter enorme postprandiale verhogingen van de bloedglucosespiegels op bij patiënten met type 2 diabetische mellitus (T2DM) en een verminderde glucosetolerantie. 2 Deze postprandiale hyperglykemie vereist preventie en behandeling, omdat deze gepaard gaat met een verhoogd risico op cardiale en cerebrovasculaire complicaties. 3 Postprandiale bloedglucose is afkomstig van koolhydraten in de voeding. 4 Enkele benaderingen om postprandiale hyperglykemie te voorkomen waren tot dusverre het verminderen van het koolhydraatgehalte in de voeding, een verandering in het type koolhydraten in de voeding en de inname van voedingsvezels tijdens de maaltijden. 5 Het ideale patroon voor de inname van koolhydraten dat postprandiale hyperglykemie minimaliseert, is echter onbekend.

Insuline, uitgescheiden door de -cellen van de pancreas, speelt een cruciale rol bij de homeostatische regulering van de bloedglucosespiegels. Insuline werkt in op de doelorganen zoals spieren en lever, om de opname van glucose uit het bloed te bevorderen en de glucoseproductie door de lever te onderdrukken. Dientengevolge verlaagt insuline de bloedglucosespiegels en bevordert het het snelle herstel van de stijging van de postprandiale bloedglucose. Naarmate de bloedsuikerspiegel daalt, neemt ook de insulinesecretie af. Het bloedglucosegehalte wordt dus binnen een nauw normaal bereik gehouden door de feedbackrelatie tussen bloedglucose en insuline. 6

Hoewel de insulinesecretie voornamelijk wordt gereguleerd door bloedglucose, wordt het ook gereguleerd door een familie van circulerende hormonen die incretines worden genoemd. 7 Incretines zijn hormonen die door het maagdarmkanaal worden uitgescheiden bij voedselopname. Deze hormonen werken in op β-cellen van de pancreas om de insulinesecretie te bevorderen. Maagremmend polypeptide (GIP) en glucagon-achtig peptide-1 (GLP-1) zijn incretines. 7,8,9,10 GIP wordt uitgescheiden door K-cellen van de bovenste dunne darm 11,12 GLP-1 wordt uitgescheiden door L-cellen van de onderste dunne darm. 13,14 Oraal ingenomen glucose bevordert de secretie van incretine in de dunne darm, waar het wordt geabsorbeerd en in het bloed terechtkomt. Bloedglucose en incretine werken samen op -cellen van de alvleesklier om de insulinesecretie te bevorderen en de circulerende insulinespiegels te verhogen. 15

Postprandiale hyperglykemie wordt geïdentificeerd met een orale glucosetolerantietest (OGTT), waarbij het vermogen van een proefpersoon om een ​​glucosebelasting (glucosetolerantie) te verdragen wordt geëvalueerd door de bloedglucosespiegel te meten na een nacht vasten en opnieuw 2 uur na een orale glucose van 75 g laden. 16 Met behulp van tijdsverloopgegevens van glucose en insuline in het bloed tijdens de OGTT hebben veel wiskundige modellen de relatie tussen de bloedglucose en insuline bij mensen kwantitatief geëvalueerd. 17,18,19,20,21,22,23,24,25,26 Deze modellen bestaan ​​uit bloedglucose en insuline, maar niet uit incretines. 17,18,27,28,29 Andere wiskundige modellen nemen de incretines op. 24,26,30,31,32 In sommige modellen werken bloedglucose en incretine onafhankelijk van elkaar op insulinesecretie tijdens de OGTT 30,31,32 in andere werken bloedglucose en incretine samen. 24,26 De effectieve werking van incretines op de insulinesecretie in wiskundige modellen moet nog worden bepaald.

Een toepassing van wiskundige modellen is het vermogen om voorspellingen te doen. Gepubliceerde wiskundige modellen van bloedglucose en insuline zijn gebruikt om de bloedglucosespiegels na glucosetoediening te voorspellen. We hebben een oplossing nodig van een paar voorwaartse en inverse problemen om een ​​optimaal ontwerp van het invoerpatroon te verkrijgen. Ten eerste hebben we een dynamisch model nodig om het temporele patroon als gevolg van een bepaald invoerpatroon te voorspellen. Deze voorspellingsmodus is een voorwaarts probleem: de voorspelling is een "uitvoerpatroon" gerelateerd aan het invoerpatroon.Ten tweede moet een optimaal invoerpatroon worden bepaald om de uitkomst te minimaliseren die wordt gedefinieerd als een willekeurig bepaalde objectieve functie van het voorspelde uitvoerpatroon. Deze voorspellingsmodus is een omgekeerd probleem: de voorspelling is een "invoerpatroon" dat een optimaal uitvoerpatroon produceert. Er zijn veel gevestigde methoden die complexe gewone differentiaalvergelijkingen gebruiken om het voorwaartse probleem van het voorspellen van uitvoerpatronen op te lossen, maar er zijn maar weinig methoden om het inverse probleem van het voorspellen van invoerpatronen op te lossen. Onlangs hebben we een wiskundig raamwerk voorgesteld om een ​​invoerpatroon te schatten dat een gedefinieerd uitvoerpatroon oplevert. 33

Hier hebben we wiskundige modellen geconstrueerd met glucose-onafhankelijke en / of glucose-coöperatieve rollen van incretines op insulinesecretie. We gebruikten de modellen om een ​​optimaal glucose-opnamepatroon te voorspellen dat de bloedsuikerspiegel regelt. Omdat de bloedglucosespiegel het outputpatroon is, vertegenwoordigt dit het gebruik van het model om een ​​omgekeerd probleem op te lossen. We maten bloedglucose, insuline, GIP en GLP-1 voor en na orale glucose-inname met verschillende doses en innameduur voor drie proefpersonen. Als een voorwaarts probleem hebben we een wiskundig model van bloedglucose (output) geconstrueerd als reactie op oraal ingenomen glucose (input) voor elk onderwerp. Als een omgekeerd probleem hebben we het glucose-opnamepatroon optimaal ontworpen dat de piekwaarde van de bloedglucosespiegel voor elk onderwerp minimaliseert. Merk op dat de termen voorwaartse en inverse problemen een beperkte betekenis hebben in sommige onderzoeksgebieden, maar we gebruiken de termen voorwaartse en inverse problemen in meer algemene zin. Met andere woorden, ervan uitgaande dat het probleem dat gewoonlijk wordt gebruikt op het gebied van systeembiologie, namelijk het schatten van modelparameters die bij de gegevens passen, een voorwaarts probleem is, waarbij een invoerpatroon wordt voorspeld dat een tijdreeks realiseert die voldoet aan een bepaalde objectieve functie van model en parameters kan worden beschouwd als een omgekeerd probleem. Elke proefpersoon had een geoptimaliseerd patroon van inname dat intermitterend was. We valideerden de bloedglucosespiegel aan de hand van het voorspelde patroon van intermitterende inname voor elke proefpersoon en ontdekten dat het patroon van intermitterende inname de piekwaarde van de bloedglucosespiegel verlaagde in vergelijking met de bloedglucosespiegels die optraden bij bolus- of 1-h-continue innamepatronen. Zo bieden we het logische ontwerp van een oraal glucose-opnamepatroon dat de piekwaarde van de bloedglucosespiegel bij mensen minimaliseert, met behulp van een benadering van een combinatie van een voorwaartse en een inverse problemen, die op grote schaal kan worden toegepast om optimale voedingsopnamepatronen voor de mens te ontwerpen. Gezondheid.


Nieuwe benaderingen van kwantitatieve metabolomics

In dit exclusieve online symposium ontdekt u nieuwe en nieuwe benaderingen van kwantitatieve metabolomics terwijl u presentaties bekijkt van wereldwijde metabolomics-gedachten.

Professor Wolfram Weckwerth, "Green Systems Biology" en hoe metabolomics de wereld kunnen helpen voeden

Wolfram Weckwerth, Ph.D, hoogleraar Ecogenomics and Systems Biology aan de Universiteit van Wenen, Oostenrijk, is de oprichter van het Vienna Metabolomics Center (VIME), waar zijn laboratorium de zogenaamde "biochemische Jacobiaan" heeft opgelost om causale correlaties van metabolomics-gegevens met behulp van een inverse modelleringsaanpak. 11,12,13,14

Door statistische kenmerken van metabolomics-gegevens te combineren met metabole reconstructie en voorspelling van genoomsequenties en variabele genotypen, stelt zijn team de systematische analyse van de GxExP op, waarbij deze concepten worden toegepast in ecologie, evolutie en ontwikkeling, evenals in biotechnologie. 9,15 Dit raamwerk wordt “Groene Systeembiologie” genoemd. 10

Weckwerth legt uit: De gegevens die zijn verzameld uit genoomsequencing-projecten vereisen interpretatie om genotype-fenotype-vergelijkingen te begrijpen. In ecologie was het belangrijk om het de juiste terminologie te geven, en dat was de reden voor de naam "Green Systems Biology". 10 Het is net zo belangrijk om deze technologieën toe te passen in de geneeskunde als in ecologische studies of in antropogene landbouwsystemen, vooral met klimaatverandering, de bijbehorende plantproductiviteitscrisis en duurzaamheidsproblemen die we tegenwoordig zien.

In het Weckwerth-lab is het nu mogelijk om kiemplasmacollecties van duizenden verschillende genotypen voor gewassen, zoals tarwe, maïs, gierst, aardappel of kikkererwten, te sequencen. De kikkererwt is bijvoorbeeld een peulvrucht en een hoofdvoedsel. Het fixeert stikstof met behulp van bacteriën. In dit systeem wordt de CO2 fixatie wordt uitgevoerd door het fotosynthetische systeem en de Calvin-cyclus, en de stikstoffixatie door het wortelstelsel van bacteriën.

Het is deze symbiotische relatie die wordt gebruikt om de biomassa van de plant te maken, en het eiwitrijke zaad dat we kunnen eten. In de Weense serre heeft het laboratorium van Weckwerth nu kiemplasmacollecties van 3.000 genotypen van kikkererwten. Door deze gegevens te combineren met metabolomics-analyse, kunnen ze ook de bijbehorende fenotypes interpreteren. Weckwerth zegt: Wat we nu willen begrijpen is hoe dit genotype zich vertaalt in dit specifieke fenotype, en wat de causale processen zijn. Als zodanig combineert dit "Green Systems Biology"-technologieplatform de genoominformatie van multigene eigenschappen (rekening houdend met 3.000 genotypen van kikkererwten), en vervolgens, door middel van genoombrede associatiestudies, transcriptomics, proteomics, metabolomics en genoomschaalmodellering, probeert een volledige causale keten van het genotype tot het fenotype te integreren in de specifieke omgeving waar de plant wordt gekweekt.”

Het lab heeft een nieuwe bacterie ontdekt die in het blad van de kikkererwtenplant voorkomt en een mutualistische of symbiotische relatie heeft met de plant, maar in het blad en niet in de wortel (zoals alle andere bacteriën tot nu toe weten). Weckwerth zegt: "We hebben het genoom gesequenced en vervolgens het hele metabolische netwerk gereconstrueerd, waarbij we een volledige genoom-metabolische reconstructie hebben gemaakt met behulp van wiskundige en computermodellen." Hij vervolgt: "We kennen de capaciteiten van de plant, en we kennen de capaciteiten van de bacterie, en we kunnen zien hoe de interactie daadwerkelijk werkt. Je hebt bijvoorbeeld suikerimport in de bacterie, omdat je veel suikertransporters in het membraan van de bacterie daarentegen heb je aminozuurtransport van de bacterie naar de plant, je ziet dus het interactieve netwerk van de plant-bacterie-interactie.”

Kikkererwten. Krediet: Pixabay

Het resultaat van genotype-metaboloomanalyse is een relatie tussen functie en oorzakelijk verband, en hoe dit het systeemnetwerk beïnvloedt. Dit leidt tot de voorspelling van het fenotype uit het genotype. Weckwerth vervolgt door te zeggen: We hebben nu een database van duizenden genotypen waarvan de sequentie volledig is bepaald en we kennen ook de oorsprong van de genotypen, of beter: ecotypen, op de wereldkaart, en wat we zien is dat ze heel verschillend zijn in hun genetische variaties.” Dit betekent dat het nu mogelijk is om alle globale plantvariaties te correleren met het fysiologische fenotype en het moleculaire fenotype. Weckwerth legt uit dat het werk van zijn laboratorium "vergelijkbaar is met genoombrede associatiestudies en deze combineert met metabolomics.” Het is wat hij noemt: metabolische genoom-brede associatiestudies.”

Het voorspellen van de metabolietdynamiek van het genotype

Het uiteindelijke doel van het werk van Weckwerth en zijn team is “het voorspellen van een metabool profiel, of de metabolietdynamiek, op basis van het genotype. Hij geeft het voorbeeld van twee cultivars van kikkererwten. Met hun aanpak laten de wetenschappers zien dat de ene droogteresistent is en de andere droogtegevoelig. We kennen nu de genotypevariatie en we kunnen ook het effect op het metaboloom zien, en hoe dit metaboloom correleert met de fenotypische variatie. Hij legt uit dat "zo uiteindelijk de causale relatie van de genetische variatie met het metabolische fenotype wordt gedefinieerd, maar ook het fysiologische fenotype, wat dan uiteindelijk resulteert in het soort resistentie- of gevoeligheidsfenotype van de plant."

Het werk van Weckwerth en zijn collega's wijst op grote veranderingen in de toekomst van de landbouw. Hoe lang duurt het voordat we voldoende inzicht hebben in telers en natuurlijke gewassen om klimaatbestendige duurzame systemen te creëren? Weckwerth zegt: "Tien jaar geleden, toen ik het lab in Wenen startte met het metabolomics-proteomics-platform, was het systeembiologieprogramma vrij ver weg, maar nu hebben we deze enorme hoeveelheid genoominformatie en kunnen we veel genotype en omgevingsfenotype-analyse." Hij vervolgt: "We doen al onderzoek naar duizend verschillende genotypen, op proteoom- en metaboloomniveau."

Weckwerth zegt: "Het volgende punt waarop we ons richten, is het beoordelen van de voedingskwaliteit van basisvoedingsmiddelen in combinatie met het verbeteren van hun productiviteit en groei onder zeer zware omstandigheden."

Als zodanig is het nu mogelijk om de technologie van het systeembiologieplatform te combineren met snelle veredeling en marker-geassisteerde veredeling om veel verschillende soorten genotypen met specifieke eigenschappen te genereren. Deze kunnen vervolgens worden geselecteerd, de beste kunnen worden gecombineerd en in het veld worden gezet. Zo kan metabolomics de wereld helpen voeden.

Referenties:

ADDIN NL.REFLIST 1. Clarke CJ en Haselden JN. Metabolische profilering als een hulpmiddel voor het begrijpen van mechanismen van toxiciteit. Toxicologische pathologie. 200836:140-147.

2. Bujak R, Struck-Lewicka W, Markuszewski MJ en Kaliszan R. Metabolomics voor laboratoriumdiagnostiek. J Pharm Biomed Anal. 2015113:108-20.

3. Weckwerth W. Metabolomics in systeembiologie. Annu Rev Plant Biol. 200354:669-689.

4. Pearson H. Maak kennis met het menselijke metaboloom. Natuur. 2007446:8.

5. Li C, He J, Li S, Chen W, Bazzano L, Sun X, Shen L, Liang L, Shen Y, Gu X en Kelly TN. Nieuwe metabolieten worden geassocieerd met Augmentation Index en Pulse Wave Velocity: bevindingen uit de Bogalusa Heart Study. Ben J Hypertens. 201932:547-556.

6. Bagget L. Studie koppelt leefstijlfactoren en verharde slagaders. 201909/09/2019.

7. Rattray NJW, Deziel NC, Wallach JD, Khan SA, Vasiliou V, Ioannidis JPA en Johnson CH. Beyond genomics: het begrijpen van exposotypes door middel van metabolomics. Hum Genomica. 201812:4.

8. Wenen Uo. VIME-missie. 201920/09/19.

9. Lus. Wolfram Weckwerth, Ph.D. 201920/09/2019.

10. Weckwerth W. Groene systeembiologie - Van afzonderlijke genomen, proteomen en metabolomen tot ecosysteemonderzoek en biotechnologie. Journal of Proteomics. 201175:284-305.

11. Nagele T, Mair A, Sun XL, Fragner L, Teige M en Weckwerth W. Het oplossen van de differentiële biochemische Jacobiaan uit Metabolomics Covariantiegegevens. Plos One. 20149.

12. Wilson JL, Nägele T, Linke M, Demel F, Fritsch S, Mayr HK, Cai Z, Katholnig K, Sun X, Fragner L, Miller A, Haschemi A, Popa A, Bergthaler A, Hengstschläger M, Weichhart T en Weckwerth W. Inverse datagestuurde modellering en multiomics-analyse onthult Phgdh als een metabolisch controlepunt van polarisatie en proliferatie van macrofagen. Mobiele rapporten. 2019 http://dx.doi.org/10.2139/ssrn.3441909

13. Nagler M, Nägele T, Gilli C, Fragner L, Korte A, Platzer A, Farlow A, Nordborg M en Weckwerth W. Eco-metabolomics en metabolische modellering: de sprong maken van modelsystemen in het laboratorium naar inheemse populaties in de Veld. Front Plant Sci. 20189:1556-1556.

14. Sun X en Weckwerth W. COVAIN: een toolbox voor uni- en multivariate statistieken, tijdreeksen en correlatienetwerkanalyse en inverse schatting van de differentiële Jacobiaan uit metabolomics-covariantiegegevens. Metabolomics. 20128:81-93.

15. Weckwerth W. Op weg naar een unificatie van systeemtheoretische principes in biologie en ecologie - de stochastische Lyapunov-matrixvergelijking en de omgekeerde toepassing ervan. Grenzen in Toegepaste Wiskunde en Statistiek. 20195.


Bekijk de video: Introduction to the class and overview of topics (Januari- 2022).