
I dag kender vi genomet for cirka 50.000 bakterier, men den bakterielle verden er langt større, og vil, tror man, gemme på artige hemmeligheder, der kan anvendes og udvikles til mange forskellige formål.
Vurderingen er, at der er mellem 10 og helt op til 100 mio. bakterie-arter, og nu vil forskere fra Institut for Kemi og Biovidenskab og Institut for Datalogi på Aalborg Universitet, med hjælp fra 15 mio kr. fra Villum Fonden, fortsætte et projekt, der netop skal sætte skub i kortlægningen af de ukendte bakterier.
I spidsen for arbejdet med mikrobiologien står professor Mads Albertsen, der i en årrække har arbejdet med at gensekventere og kortlægge bakterier i den danske natur. En af de helt store udfordringer ved DNA-sekventering er at finde ud af, hvilken bakterie et bestemt stykke DNA stammer fra. I projektet vil Mads Albertsen derfor implementere nyt måleudstyr, der kan identificere særlige karakteristika ved de enkelte genomer. Han forklarer:
Der er et kæmpe uudnyttet potentiale i naturen, og vores hypotese er, at vi med det nye udstyr kan adskille DNA på nye måder og dermed gøre det nemmere at differentiere forskellige arter af bakterier. Men når vi begynder at bruge disse metoder, genererer vi så meget data, at vi har brug for avanceret datavidenskab til at trække al værdien ud af det.
Derfor har Mads Albertsen allieret sig med professor Katja Hose og professor MSO Thomas Dyhre Nielsen fra Institut for Datalogi. De har begge stor erfaring med at håndtere massive datamængder.
Thomas Dyhre Nielsen forklarer, at maskinlæring er forudsætningen for, at forskerne på baggrund af de enorme mængder biologisk data kan identificere potentielle nye arter:
Vi skal udnytte biologernes oplysninger om, hvordan forskellige DNA-fragmenter er relateret, og det bruger vi til at lave en maskinlæringsmodel, der kan bla. kan gruppere arvematerialet i klynger. Det nye er, at vi vil lave endnu bedre og mere nuancerede grupperinger på baggrund af de nye karakteristika, som Mads og hans hold finder.
På sigt håber forskerne, at deres nye metoder vil danne grundlag for en komplet database, der indeholder et genom per art. Et vigtigt element bliver at sikre, at det ikke kun er eksperter, der kan bruge og udnytte den genererede data.
Vi skal kunne forklare, hvordan og hvorfor systemet kommer med bestemte svar – hvilken data er blevet brugt, hvor kommer det fra, og hvordan er det blevet håndteret. Hvis brugerne skal stole på et system, er det normalt ikke nok bare at stille en black box til rådighed. Derudover må vi ikke glemme, at data og viden udvikler sig over tid – og det skal systemet også tage højde for, siger Katja Hose.
Projektet løber i de næste fem år, og da forskerne allerede har samlet over 10.000 prøver fra hele Danmark i regi af projektet MicroFlora Danica, er skinnerne ifølge Mads Albertsen.
Kilde: Aalborg Universitet