• Facebook
  • LinkedIn
  • KONTAKT
  • ANNONCERING
  • OM KEMIFOKUS
  • PARTNERLOGIN

KemiFOKUS

Fokus på kemi

  • Analytisk kemi
  • Arbejdsmiljø/Indeklima
  • Biokemi
  • Biologi
  • Bioteknologi
  • Branchenyt
  • Energi
  • Fødevarekemi
  • Historisk kemi
  • Kemiteknik
  • Kemometri
  • Klikkemi
  • Klima og miljø
  • Lovgivning og patenter
  • Medicinalkemi
  • Nanoteknologi
  • Organisk kemi
  • Artikler fra Dansk Kemi

Kemometri01. 08. 2010 | Katrine Meyn

Jack-knifing – ”cut the crap”

Kemometri01. 08. 2010 By Katrine Meyn

Jack-knifing er en generel statistisk metode, som kan bruges til at beregne usikkerheder. Den kan f.eks. bruges til at fjerne støjfyldte variable.

Læs originalartiklen her

Artiklen har været bragt i Dansk Kemi nr. 8, 2010 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.

Af Rasmus Bro, Lars Nørgaard og Søren Balling Engelsen, Institut for Fødevarevidenskab, Det Biovidenskabelige Fakultet, Københavns Universitet

I de seneste klummer har vi arbejdet med at udvælge variable. En typisk variabel selektionsmetode fungerer ved at man finder et sæt af variable, som giver gode prædiktioner. I denne klumme beskrives en lidt anderledes metode, som mere ser på, hvordan man kan fjerne variable med store usikkerheder og som derfor ikke bidrager konstruktivt til den multivariate model.

Jack-knifing
Jack-knifing er en generel metode til at beregne usikkerheder af parametre [1]. Navnet stammer fra John Tukey, der ville angive, at metoden var bredt anvendelig uden dog at være prangende god i alle situationer (som en foldekniv, der kan tjene mange formål). Metoden er velegnet, når man ikke har en klassisk statistisk metode til direkte at beregne usikkerheder. Det er netop tilfældet i de fleste multivariate regressionsmodeller såsom PLS. Der findes f.eks. ikke en almen accepteret metode til at beregne usikkerheder på regressionskoefficienterne, men dette kan man gøre ved hjælp af jack-knifing.
Metoden fungerer som følger. Når man krydsvaliderer en PLS-model, betyder det implicit, at man beregner PLS-modeller på en række forskellige datasæt. Laver man f.eks. fuld krydsvalidering, hvor en prøve udelades ad gangen, så vil man først fjerne prøve et og beregne en PLS-model på de resterende prøver. Dernæst fjerner man prøve to, tilbagelægger prøve et, og beregner en PLS-model og så fremdeles (Dansk Kemi 3, 2009). Hvis man f.eks. har tyve prøver, har man således efter endt krydsvalidering beregnet tyve forskellige PLS-modeller. Normalt anvendes disse kun til at beregne en RMSECV-værdi, hvorefter modellerne ”smides ud”. Men i jack-knifing anvender man de tyve modeller til at beregne usikkerheder af bl.a. regressionskoefficienterne. I figur 1 kan man se beregnede jack-knifing-resultater for en PLS-model af øldata (præsenteret første gang i Dansk Kemi 8, 2008 og anvendt i de seneste klummer).
Figuren er en smule forvirret, men vi gennemgår den del for del. Øverste plot viser et gennemsnitsspektrum (grønt) og regressionsvektoren, som man får med normal PLS. Gennemsnitsspektret er blot vist for at kunne orientere sig. Normalt antager man, at absolut store regressionskoefficienter angiver vigtige variable, men nu vil vi gerne beregne usikkerheden på hver koefficient ved at se på resultatet af jack-knifing. Det bemærkes, at de laveste og højeste bølgelængder er udeladt af plottet for at fokusere på den vigtige del af spektret (Dansk Kemi 3, 2010).
Det midterste plot viser de forskellige regressionsvektorer, man får, når man laver en ti-segmenteret krydsvalidering. For hvert segment får man et bud på regressionsvektoren, og det er disse ti bud, man anvender i jack-knifing. Ud fra disse kan man beregne standardafvigelsen på PLS-regressionsvektoren [1].
Det nederste plot viser regressionsvektoren baseret på alle prøver og usikkerheden for hver koefficient beregnet vha. jack-knifing. Hvis de grønne kurver for en variabel ligger både over og under nul, så er den pågældende koefficient så usikker, at den formentlig lige så vel kunne være nul. De koefficienter, hvor usikkerheden inkluderer nul, udelades tentativt, for at se om modellen forbedres.
Som det kan ses, er der herefter kun ganske få variable tilbage, og vi har faktisk fået udeladt alle irrelevante (ift. ekstrakt i øl) variable. Anvendes en PLS-model baseret på de valgte (røde) variable fås en prædiktionsfejl på testsættet på 0,20.
Det skal bemærkes, at man udmærket kan anvende jack-knifing iterativt ved at genberegne modellen og eliminere yderligere variable. I det konkrete tilfælde bliver modellen ikke bedre, men ofte kan man nå frem til den bedste model ved at fjerne dårlige variable lidt ad gangen og holde skyldigt øje med outliere undervejs.
Jack-knifing adskiller sig på to markante områder fra mange andre former for variabelselektion. For det første er de valgte variable baseret på en model af hele datasættet. Jack-knifing kan derfor kun anvendes i en situation, hvor man kan lave en valid model på hele datasættet. Viser krydsvalidering, at modellen på hele datasættet slet ikke kan prædiktere, så betyder det direkte, at de beregnede parametre såsom regressionskoefficienter ikke giver mening, og dermed at jack-knifing heller ikke giver mening. Et andet vigtigt aspekt ved jack-knifing er at man ikke direkte søger efter variable, der prædikterer godt. Man fjerner simpelthen blot variable, som muligvis har en regressionskoefficient på nul. Dvs. at man fjerner variable, der har koefficienter tæt på nul eller har så stor usikkerhed, at det ikke kan udelukkes, at de er nul. Ideen bag dette, er at regressionskoefficienter, der er nul, ikke bidrager til prædiktionen. Uanset, hvad den pågældende variabel er, så bliver den multipliceret med nul og indgår således ikke. At fjerne sådanne variable gør, at risikoen for overfit er langt mindre end ved f.eks. forward selection (Dansk Kemi 6/7, 2010).

Den eksplorative del
Jack-knifing kan bruges til andet og mere end at beregne usikkerheder. Resultatet fra jack-knifing kan visualiseres på et hav af måder, som giver mulighed for at forstå data og detektere outliere [2,3].
Når vi i ovenstående eksempel krydsvaliderede vores PLS-model i ti segmenter, så fik vi, ud over de almindelige scores for hver prøve, også scores for enhver prøve i de ni tilfælde, hvor prøven ikke er med i det segment, der udelades. Disse scores kan plottes sammen med de ”rigtige” scores, for at se om nogle prøver påvirker modellen markant.
I det konkrete tilfælde (figur 2) er der ikke nogle markante variationer, bortset fra at de prøver, der er forholdsvis ekstreme, forventeligt har større usikkerhed end de, der er mere normale.

Outro
Vi garanterer, at der ikke kommer mere om variabelselektion foreløbig. Den eneste ting, vi ønsker at nævne her, er, at der findes en relateret metode, der kaldes bootstrapping. Det er et interessant, men mere beregningstungt alternativ til jack-knifing [1], som vi dog vil gemme til en anden god gang.

Referencer
1. B. Efron & G. Gong. A leisurely look at the Bootstrap, the Jackknife, and the cross-validation. American Statistician, the 37:36-48, 1983.
2. H. Martens & M. Martens. Modified Jack-knife estimation of parameter uncertainty in bilinear modelling by partial least squares regression (PLSR). Food Quality and Preference 11 (1-2):5-16, 2000.
3. J. Riu & R. Bro. Jack-knife technique for outlier detection and estimation of standard errors in PARAFAC models. Chemometrics and Intelligent Laboratory Systems. 65 (1):35-49, 2003.

Figur 1.
Øverst: Regressionsvektor fra PLS-model (blå) og gennemsnitsspektrum (grøn).
Midt: Jack-knife-beregnede regressionsvektorer fra en ti-segmenteret krydsvalidering (altså 10 forskellige regressionsvektorer).
Nederst: Konfidensintervaller beregnet ved jack-knifing er vist sammen med regressionvektoren. Koefficienter, der er signifikant forskellige fra nul, er markeret med røde cirkler.

Figur 2. Scoreplot fra PLS-model. Scores er farvet efter ekstrakt-værdi. For hver prøve er der også vist scores som fundet under krydsvalideringen.

Skrevet i: Kemometri

Seneste nyt fra redaktionen

Der er brug for lange måleserier af miljøparametre

Artikler fra Dansk KemiKlima og miljøTop26. 05. 2025

Kontinuerlige, kvalitetssikrede målinger af kemiske, fysiske og biologiske miljøparametre giver uundværlig information. Det gælder også for Grønland. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen

Chemical ionization mass spectrometry in atmospheric studies

AktueltAnalytisk kemiArtikler fra Dansk Kemi19. 05. 2025

Advances in chemical ionization mass spectrometry can improve our understanding of atmospheric composition. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Varun Kumar, Institut for

Gamle processer, nye muligheder: Nyt kemisk-biologisk koncept til CO2-fangst og omdannelse

AktueltArtikler fra Dansk KemiBioteknologi14. 05. 2025

Oldgamle CO2-ædende mikroorganismer kan fange CO2 direkte fra skorstensrøg og omdanne kulstoffet til grønne molekyler. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Mads Ujarak Sieborg1 og

Centrotherm clean solutions bliver til Pfeiffer Vacuum+Fab Solutions

AktueltBranchenyt14. 05. 2025

Busch Group annoncerer, at deres brand centrotherm clean solutions bliver en del af Pfeiffer Vacuum+Fab Solutions. Fra september 2025 vil gasreduktionssystemerne til Semicon-industrien, som tidligere blev tilbudt under dette mærke, blive integreret i Pfeiffer-porteføljen og fremover være

I dag får professor Per Halkjær Nielsen Videnskabernes Selskabs Guldmedalje

Branchenyt14. 05. 2025

For blot fjerde gang i dette årtusinde uddeles Videnskabernes Selskabs Guldmedalje. Det sker i dag, hvor bakterieforsker Per Halkjær Nielsen, professor ved Institut for Kemi og Biovidenskab ved Aalborg Universitet, får den fine hæder for sit livsværk og sin holdånd. Han er manden, der kortlægger

Atmosfærisk transport af PFAS til Højarktis

AktueltArtikler fra Dansk KemiKlima og miljø28. 04. 2025

Tilstedeværelsen af PFAS-forbindelser skyldes ikke kun lokale kilder, men de kan langtransporteres i luften til selv meget fjerntliggende arktiske egne. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen

Biotek-firma bag fedme-medicin på tabletform har lagt en klar plan om samarbejde eller opkøb

AktueltMedicinalkemi21. 04. 2025

I dag er det frem med nålen, hvis man er i behandling med diverse former for fedme-medicin. Det hæmmer imidlertid udbredelsen på specielt asiatiske og afrikanske markeder, hvor der er en udtalt nålefobi. Derfor arbejder det danskstiftede biotekselskab Pila Pharma med at få udvikle deres

Dansk virksomhed vil vende produktionen af ammoniak på hovedet – ned i en lille container

AktueltBioteknologiFødevarekemi07. 04. 2025

NitroVolt, en dansk biotech-virksomhed, vil vende produktionen af ammoniak på hovedet. I stedet for den velkendte løsning, der bygger på den energitunge Haber-Bosch-proces, vil produktionen nu foregå i en container, der fx kan stå direkte ude hos en landmand. Ammoniak til kunstgødning er en slags

En EU-historie om nomenklatur – og ginseng til hunde, katte og heste!

AktueltArtikler fra Dansk KemiHistorisk kemi01. 04. 2025

Artiklen har været bragt i Dansk Kemi nr. 6, 2024 og kan læses uden illustrationer, strukturer og ligninger herunder. Læs originalartiklen her Nomenklaturudvalget får indimellem henvendelser om dansk kemisk nomenklatur fra de oversættere i EU, hvis opgave det er at oversætte EU-lovgivning på

Tysk elektrolyseanlæg er som det første i verden blevet integreret direkte i kemisk produktion

AktueltEnergi31. 03. 2025

Efter en byggeperiode på omkring to år, er BASF nye 54 megawatt elektrolyseanlæg blevet indviet. Udover at være Tyskland største, med en kapacitet til at producere op til 8.000 ton grøn brint årligt, skriver det også historie på et andet område. Brinten skal primært anvendes som råmateriale i

Tilmeld Nyhedsbrev

Tilmeld dig til dit online branchemagasin/avis





Få fuld adgang til indlægning af egne pressemeddelelser...
Læs mere her

/Nyheder

  • DENIOS ApS

    Sådan vælger du det rigtige opbevaringsskab til farlige stoffer

  • MD Scientific

    Mød MD Scientific på ESOC 2025

  • Busch Vakuumteknik A/S

    Busch Group præsenterer innovative vakuumløsninger på Battery Show Europe 2025 i Stuttgart

  • DENIOS ApS

    Sådan transporterer du lithiumbatterier sikkert

  • Kem-En-Tec Nordic

    Opnå rent DNA/RNA på få minutter og på bæredygtig vis!

  • Kem-En-Tec Nordic

    Sikker gelfarvning på kun 15 minutter?

  • DENIOS ApS

    Her er den oversete vej til et sundere arbejdsmiljø

  • Busch Vakuumteknik A/S

    Pfeiffer Vacuum+Fab Solutions lancerer den nye HiCube Neo RGA

  • Busch Vakuumteknik A/S

    centrotherm clean solutions bliver til Pfeiffer Vacuum+Fab Solutions

  • DENIOS ApS

    Ved du, hvornår det er tid til at vedligeholde, udskifte eller flytte dit opsamlingskar?

Vis alle nyheder fra vores FOKUSpartnere ›

Seneste Nyheder

  • Der er brug for lange måleserier af miljøparametre

    26.05.2025

  • Chemical ionization mass spectrometry in atmospheric studies

    19.05.2025

  • Gamle processer, nye muligheder: Nyt kemisk-biologisk koncept til CO2-fangst og omdannelse

    14.05.2025

  • Centrotherm clean solutions bliver til Pfeiffer Vacuum+Fab Solutions

    14.05.2025

  • I dag får professor Per Halkjær Nielsen Videnskabernes Selskabs Guldmedalje

    14.05.2025

  • Atmosfærisk transport af PFAS til Højarktis

    28.04.2025

  • Biotek-firma bag fedme-medicin på tabletform har lagt en klar plan om samarbejde eller opkøb

    21.04.2025

  • Dansk virksomhed vil vende produktionen af ammoniak på hovedet – ned i en lille container

    07.04.2025

  • En EU-historie om nomenklatur – og ginseng til hunde, katte og heste!

    01.04.2025

  • Tysk elektrolyseanlæg er som det første i verden blevet integreret direkte i kemisk produktion

    31.03.2025

  • Dansk innovation blander sig i toppen over lande med de fleste patentansøgninger

    31.03.2025

  • Ny grundbog tager studerende på videregående uddannelser ind i den basale kemi

    26.03.2025

  • Nedrivningsarbejdere i kontakt med PCB slipper med skrækken – kun lave niveauer i blodet

    25.03.2025

  • Styrkelse af nyfundet gen kan gøre kartoflen resistent over for svampeangreb

    24.03.2025

  • Fra forskning i nanosikkerhed til mere sikker håndtering af nanomaterialer i det danske arbejdsmiljø

    21.03.2025

Alle nyheder ›

Læs Dansk Kemi online

Annoncering i Dansk Kemi

KONTAKT

TechMedia A/S
Naverland 35
DK - 2600 Glostrup
www.techmedia.dk
Telefon: +45 43 24 26 28
E-mail: info@techmedia.dk
Privatlivspolitik
Cookiepolitik