• Facebook
  • LinkedIn
  • KONTAKT
  • ANNONCERING
  • OM KEMIFOKUS
  • PARTNERLOGIN

KemiFOKUS

Fokus på kemi

  • Analytisk kemi
  • Arbejdsmiljø/Indeklima
  • Biokemi
  • Biologi
  • Bioteknologi
  • Branchenyt
  • Energi
  • Fødevarekemi
  • Historisk kemi
  • Kemiteknik
  • Kemometri
  • Klikkemi
  • Klima og miljø
  • Lovgivning og patenter
  • Medicinalkemi
  • Nanoteknologi
  • Organisk kemi
  • Artikler fra Dansk Kemi

Kemometri01. 06. 2001 | Katrine Meyn

Multiblokmetoder til eksplorativ »data mining«

Kemometri01. 06. 2001 By Katrine Meyn

Her beskrives multiblokmetoder, der kan håndtere, visualisere og kvantificere store mængder af grupperede data på en intuitiv måde. Ideen med disse metoder er at skaffe en grafisk oversigt over en omfattende mængde af information og samtidig opretholde den naturlige struktur i data (blokstruktur). 

Læs originalartiklen her

Artiklen har været bragt i Dansk Kemi nr. 6/7, 2001 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.

Af Frans van den Berg1, , Vibeke T. Povlsen1), Anette Thybo2)
1) KVL, Mejeri- og Levnedsmiddelinstituttet, Levnedsmiddelteknologi
2) Danmarks JordbrugsForskning, Afd. for Prydplanter og Vegetabilske Fødevarer

Inden for kemiområdet er de nye metoder samlet under betegnelsen kemometri. Velkendte teknikker som Principal Komponent Analyse (PCA) og Partial Least Squares Regression (PLSR) er designet til at håndtere mange og korrelerede variable [1]. Den bedst kendte metode er multivariat kalibrering, der anvendes inden for Nær Infrarød (NIR) spektroskopi. Absorbansværdier ved forskellige bølgelængder kan f.eks. bruges til at forudsige proteinindholdet i bygprøver [2]. Til 2D-teknikker såsom fluorescens-emissions-excitations-spektroskopi og gaschromatografi-massespektroskopi (GC-MS) er der udviklet nye metoder som Parallel Factor Analysis (PARAFAC), Tucker-modeller og Multilineær-PLS [3]. Teknikker, der er designet til at modellere data, hvor hver prøve giver et 2D-signal. Fællesnævneren i disse forskellige metoder er, at de kan udtrykkes grafisk (kvalitativt) såvel som kvantitativt.
Her diskuteres en række værktøjer, som kan håndtere multivariate blokke af data, de såkaldte multiblokmodeller. De kan betragtes som en udvidelse af »enkelt-blok«-PCA og -PLSR. Multiblokmetoder anvendes, hvor der er store mængder af data, som kan arrangeres i meningsfulde undergrupper (blokke). Et eksempel på »naturlige blokke« kan være data fra forskellige instrumentelle teknikker (NIR, GC, fysisk/reologiske parametre etc.) alle målt på det samme sæt af prøver. Det første skridt i håndteringen af mange variable kan være at samle datasættet i en stor tabel og analysere hele blokken. Denne fremgangsmåde vanskeliggør ofte fortolkningen af modellen. Multiblokmodeller bestræber sig på at opretholde den naturlige orden i data. De forsøger at forklare den sammenhæng, der er mellem de forskellige blokke og blokkenes relative bidrag til modellen. Samtidig fastholdes undermodeller af de enkelte blokke, der giver en detaljeret indsigt i strukturen indenfor hver enkelt blok.
Multiblokmodeller kan opfattes som »data mining«-redskaber. De kan give en (grafisk) oversigt over omfattende mængder af data med det sigte at opnå mere gennemskuelige modeller, navnlig ved at reducere kompleksiteten af data-repræsentationen. Multiblokmodeller kan betragtes som »eksplorative« og er velegnede til indledende undersøgelser af data, til intelligent reduktion af mængden af data og til at finde en mere dedikeret matematisk model baseret på det reducerede datasæt.

PCA og PLSR – to specifikke metoder
For at give en bedre forståelse af multiblok-algoritmen er her givet en kort beskrivelse af PCA- og PLSR-algoritmerne [4]. Ved PCA er udgangspunktet at beskrive data i en tabel X. I tabellen består hver række af prøver, mens kolonnerne består af målinger (variable). Måles f.eks. NIR-spektre fra et sæt prøver, fås en datamatrix X med størrelsen prøver x bølgelængder. Den første principale komponent giver et komprimeret billede af den originale datamatrix X (boks 1a) og består af en score-vektor (t) og en loading-vektor (p). Yderligere information findes ved at beregne flere komponenter.

PCA-modellen
PCA-modellen giver information om sammenhængen mellem prøver og variable. Score-værdierne er nye variable, som er vægtede gennemsnit af de oprindelige variable. De oprindelige variable erstattes af en score-vektor, som bedst muligt sammenfatter variationen i disse. Dette muliggør visualisering og kvantitativ analyse. Prøver med ens score-værdier er meget lig hinanden, mens prøver med forskellige scorer er meget forskellige. I den grad score-vektoren ikke kan sammenfatte al information i de oprindelige variable, kan flere komponenter beregnes, men typisk anvendes få komponenter (<10) uanset antallet af oprindelige variable.
Ud over scorer er der til hver komponent også en loading-vektor. Loading-vektoren fortæller, hvordan score-værdierne beregnes. For hver variabel er der en loading, som er vægten hvormed variablen indgår i beregningen af score-værdien. En høj værdi betyder, at variablen er vigtig for komponenten, og en lav værdi betyder, at den er uvæsentlig. Variable med næsten ens værdier er korrelerede. Dvs., at når den ene variabel stiger, vil den anden typisk også stige. Variable, der har modsat fortegn, er modsat korrelerede.
PCA bruges altså til at studere det fulde datasæt i en model, hvor kompleksiteten er reduceret i form af et lavt antal scorer og loadings. Det kan være meget svært at drage konklusioner udfra rå NIR-datatabeller, men ved at kigge på data i form af de komprimerede vinduer givet ved scorer og loadings, er det muligt at få et rationelt komprimeret indblik i variationen mellem prøver såvel som variable.

PLSR-modellen
I PLSR ser man på sammenhængen mellem en blok X og en respons-blok Y (boks 1b). I NIR-eksemplet kunne Y f.eks. være koncentrationer af komponenter, hvor koncentrationerne er bestemt ved referencemetoder. Den første PLSR-komponent består af to modeller (en af X og en af Y). Disse modeller består af score- og loading-vektorer, som kan fortolkes som i PCA. Forskellen er at de bestemmes ved at bestemme/prædiktere Y-scorer ud fra X-scorer. Vha. denne sammenhæng kan man derfor, for fremtidige prøver, bestemme/prædiktere Y-blok-data alene ud fra X-blok-data. Dvs., at man kan måle et NIR-spektrum og ud fra PLSR-modellen bestemme koncentrationerne i den målte prøve, hvorved referencebestemmelserne spares.

Multiblokmodeller
For multiblokdata er der mere end en X-blok. Princippet i multiblokmodellerne er at lave PCA-lignende modeller for hver blok, så den fælles information ekstraheres. I multiblok-PCA (MB-PCA) er der ingen Y-blok, og blokkene modelleres som i PCA. Hver datablok giver en separat type information, og formålet med multiblokmodellen er at udtrykke den generelle struktur imellem alle prøver og variabelblokkene. Denne »konsensus«-struktur er beskrevet ved et superniveau, et overordnet lag, der kombinerer informationen fra alle X-blokkene fra det nedre dataniveau. På superniveau findes den samlende datablok. På det lavere niveau er de individuelle blokke. Her beskrives den enkelte blok af specifikke scorer og loadings ganske som i almindelig PCA. De er dog bestemt, så de er beskrivende for konsensus over alle blokke. På superniveau dannes en model for alle score-værdierne fra de enkelte blokke. Supermodellen består også af scorer og loadings og giver et komprimeret billede af samtlige blokke. F.eks. vil blokke med meget ens loadings indeholde samme type af information osv. (boks 1c).
Ønskes en kvantitativ analyse, findes der en tilsvarende multiblok-kalibreringsmodel kaldet multiblok-PLSR (MB-PLSR). I denne model findes en regressions-model mellem responsblok Y og en række X-blokke (boks 1d). Som for MB-PCA laves individuelle modeller for hver X-blok, og scorer fra disse individuelle blokke kombineres i en supermodel.

Eksperimentelt fra jordbrugs- og fødevareforskningen
Ovenstående teori bruges her i et eksempel fra jordbrugs- og fødevareforskningen.
Fem forskellige kartoffelsorter blev høstet i september 1999 og analyseret i november 1999 og maj 2000. Udbyttet blev sorteret ved densitetssortering i saltbade i to eller tre tørstof-intervaller. Det resulterede i hhv. tretten og ti forskellige såkaldte tørstofklasser for de to lagringstider. Fra disse klasser blev kartoffelknolde udvalgt til laboratorieanalyser og sensorisk evaluering. Laboratoriemålingerne bestod af uniaxial kompressionsmåling på rå og kogte kartofler (figur 1). Ved denne teknik bliver en veldefineret kartoffelcylinder (d=12mm, h=10mm) komprimeret 75% ved konstant hastighed. Målingerne blev gentaget for ti kartoffelknolde fra hver sort. De uniaxiale kompressionskurver – gennemsnittet over de ti gentagelser for at reducere den naturlige variation i klasser – danner blokkene rå X1 og kogt X2 i multiblokmodellen. Kompressionskurverne udtrykker »modstandskraften fra kartoflen« – en funktion af den kemiske og fysiske sammensætning af knolden. Kompressionsmålinger er korreleret til de sensoriske tekstur-målinger [5] og forventes at kunne at relateres til forbrugernes opfattelse af produktet.
Sensorisk evaluering af de samme prøver udgør Y-blokken i kalibreringsproblemet. Et trænet sensorisk panel bestående af ti dommere bedømte et antal sensoriske egenskaber på de kogte kartofler. Her bruges to af disse egenskaber: Fasthed og Melethed. Panelet bedømte de to egenskaber på en skala fra nul til femten, og gennemsnittet af bedømmelserne er brugt som Y-blok-data.
I alt er 23 prøver analyseret. Målingerne er givet ved to X-blokke af kompressionskurver, og en Y-blok med den sensoriske bedømmelse af Fasthed eller Melethed. X-blokkene er skaleret til blok-varians, og alle tre datablokke er centrerede. Det korrekte antal komponenter bestemmes ved krydsvalidering, og den overordnede prædiktionsfejl bestemmes som »Root Mean Squared Error of Prediction« (RMSEP), som i reglen har et minimum for den optimale models kompleksitet.

Resultater
Figur 2 viser den primære information fra modellerne af henholdsvis Fasthed og Melethed.
Fasthed: Ud fra RMSEP-kurve, fundet ved krydsvalidering (figur 2c) ses det, at to komponenter giver minimal prædiktionsfejl. Super loadings (ws) tolkes som at en høj værdi (tæt på en) indikerer, at en blok er vigtig i denne faktor, mens en lav værdi fortæller, at blokken har ringe indflydelse. For en to-komponents model for Fasthed (figur 2b) ses, at de to X-blokke er af ca. samme vigtighed, med en lille fordel fra kompressionskurverne fra de kogte prøver (grøn søjle). Ud fra den procentvist forklarede varians kan vi se, at kun en lille del af X-blokken for de rå prøver (X1) bruges i den første komponent (figur 2a).
RMSEP-værdierne for Melethed indikerer også en to-komponents model. Fra ws ses det, at den første komponent fortrinsvis afhænger af X1-blokken, mens den anden komponent domineres af X2-blokken (kogte prøver). Den forklarede varians er høj i starten, grundet den relative lave modelkompleksitet.
Figur 3 viser de målte sensoriske egenskaber mod de prædikterede bestemt ved krydsvalidering. Prædiktionen af Fasthed (korrelationskoefficient R2 = 0.77) og Melethed (R2 = 0.81) betragtes som acceptabel (figur 3a) [5]. Ud fra X-blok loadings pXi ses, at den information, der ekstraheres for kompressionskurverne fra de rå kartoffelprøver, er omtrent den samme, dog med et skift i komponentrækkefølgen (figur 3b). Kurverne fra de kogte kartoffelprøver viser, at Melethed har mere skæve loading-vektorer (figur 3c).
I figur 4 ses et scoreplot af komponent 2 mod komponent 1 på superniveau. Figuren viser effekten af sort og tørstof på Melethed og Fasthed ved gruppering af disse designvariable. De to modeller viser næsten den samme gruppering for de to regressioner, med den observation at komponent et og to har byttet plads i Fasthed- og Melethed-resultaterne.

Konklusion
I denne artikel har vi forsøgt at gøre læseren bekendt med konceptet i multiblokmodeller. Alternativet til multiblokmetoderne er at analysere de individuelle blokke og forsøge at drage en samlet konklusion af de separate observationer.
I teoriafsnittet og det eksperimentelle afsnit er der givet et eksempel på en simpel multiblok-situation: to laboratorie-X-blokke til prædiktionen af de sensoriske egenskaber Fasthed og Melethed i kartoffelprøver. Disse data er blot en lille del af et meget stort studie, hvor fem X-blokke – både fysiske og kemiske – med otte forskellige sensoriske egenskaber er disponible. Ved samtidig at inddrage alle X-blokke simultant vil nødvendigheden af de eksplorative aspekter i multiblokmodellerne være endnu mere åbenlys.

Finansiering
Arbejdet i denne artikel er en del af Advanced Quality Monitoring (AQM) projektet, som er et forskningssamarbejde mellem KVL, (LevnedsmiddelCentret), Danmarks JordbrugsForskning og Danmarks Fiskeriundersøgelse (se

Referencer
1. H.Martens and M.Martens »Multivariate Analysis of Quality – and introduction« Wiley(2001)
2. J.S.Shenk and M.O.Westerhaus »Population structuring of near-infrared spectra and modified partial least-squares regression« Crop Science no.6, 31(1991)1548-1555
3. C.A.Andersson and R.Bro »The N-way Toolbox for Matlab« Chemometrics and Intelligent Laboratory Systems 52(2000)1-4
4. J.A.Westerhuis, Th.Kourti and J.F.MacGregor »Analysis of Multiblock and hierarchical PCA and PLS Models« Journal of Chemometrics 12(1998)301-321
5. A.K.Thybo, I.E.Bechmann, M.Martens and S.B.Engelsen »Prediction of Sensory Texture of Cooked Potatoes using Uniaxial Compression, Near Infrared Spectroscopy and Low Field 1H NMR Spectroscopy« Lebensmittel Wissenschaft und Technology 33(2000)103-111
6. A.K.Smilde, J.A.Westerhuis an R.Boqué »Multiway multiblock component and covariates regression models« Journal of Chemometrics 14(2000)301-331
7. G.M. Arnold and A.A.Williams »The use of Generalised Procrustes Techniques in Sensory Analysis« in J.R.Piggott »Statistical Procedures in Food Research« 1986

Figur 1. Uniaxiale kompressionskurver for (a) rå X1 og (b) kogte X2 kartoffelprøver (1999 ‘¾’; 2000 ‘—‘).
Figur 2. Analyseresultater for MB-PLSR-modeller på de sensoriske egenskaber Fasthed og Melethed og uniaxiale kompressionskurver. (a) Procent forklaret varians X1 (rå ‘¾’), X2 (kogt ‘¾’), X-sum (rå + kogt ‘¾’) og Y-blok (Fasthed eller Melethed ‘—‘); (b) super loadings ws; (c) RMSEP fra krydsvalidering.
Figur 3.
(a) Prædiktion med krydsvalidering for 2-faktor MB-PLSR-modeller mod referenceværdier for Fasthed og Melethed (1999 ‘o’; 2000 ‘+’);
(b) X-blok loading pXi for modelkomponent #1 (‘¾’) og #2 (‘…‘).
Figur 4. Superscorer ts for komponent #2 mod #1 for Fasthed og Melethed (1999 ‘o’; 2000 ‘+’; kartoffelsort a-e; tørstofklasse 18-22).

Skrevet i: Kemometri

Seneste nyt fra redaktionen

Hofmeister – nem at anvende, svær at forstå

Artikler fra Dansk KemiFødevarekemiTop23. 06. 2025

Franz Hofmeister opløste æggehvide i vandige saltopløsninger. En artikel fra 1888 beskriver, hvordan nogle ioner får proteiner til at udfælde, mens andre ioner har den modsatte effekt. Fødevarekemien bruger stadig Hofmeister, men langt mere nuanceret. Artiklen har været bragt i Dansk Kemi nr. 3,

Udvinding af fødevareproteiner fra kløvergræs ved membranteknologi

AktueltArtikler fra Dansk KemiFødevarekemi17. 06. 2025

Hvis kløvergræs skal kunne anvendes som ny ressource til udvinding af fødevareproteiner, kan membranteknologi være vejen frem. Artiklen har været bragt i Dansk Kemi nr. 3, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Mette Lübeck, Mads

Trinatriumhexafluo… hvad for noget?

AktueltArtikler fra Dansk KemiHistorisk kemi09. 06. 2025

Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) I år fejrer man internt i IUPAC 20-året for offentliggørelsen af The Red Book (i det følgende blot "RB2005") med anbefalinger vedrørende

Prisen på grisen: Hvad koster oprensning af beskidt CO2?

AktueltArtikler fra Dansk KemiGrøn omstilling02. 06. 2025

Hvor rent er CO2 fra CO2-fangst? Og hvor dyrt er det at oprense CO2? Denne artikel giver indsigt i nogle af udfordringerne ved at implementere en global CO2 infrastruktur. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs

Der er brug for lange måleserier af miljøparametre

AktueltArtikler fra Dansk KemiKlima og miljø26. 05. 2025

Kontinuerlige, kvalitetssikrede målinger af kemiske, fysiske og biologiske miljøparametre giver uundværlig information. Det gælder også for Grønland. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen

Chemical ionization mass spectrometry in atmospheric studies

AktueltAnalytisk kemiArtikler fra Dansk Kemi19. 05. 2025

Advances in chemical ionization mass spectrometry can improve our understanding of atmospheric composition. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Varun Kumar, Institut for

Gamle processer, nye muligheder: Nyt kemisk-biologisk koncept til CO2-fangst og omdannelse

AktueltArtikler fra Dansk KemiBioteknologi14. 05. 2025

Oldgamle CO2-ædende mikroorganismer kan fange CO2 direkte fra skorstensrøg og omdanne kulstoffet til grønne molekyler. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Mads Ujarak Sieborg1 og

Centrotherm clean solutions bliver til Pfeiffer Vacuum+Fab Solutions

AktueltBranchenyt14. 05. 2025

Busch Group annoncerer, at deres brand centrotherm clean solutions bliver en del af Pfeiffer Vacuum+Fab Solutions. Fra september 2025 vil gasreduktionssystemerne til Semicon-industrien, som tidligere blev tilbudt under dette mærke, blive integreret i Pfeiffer-porteføljen og fremover være

I dag får professor Per Halkjær Nielsen Videnskabernes Selskabs Guldmedalje

Branchenyt14. 05. 2025

For blot fjerde gang i dette årtusinde uddeles Videnskabernes Selskabs Guldmedalje. Det sker i dag, hvor bakterieforsker Per Halkjær Nielsen, professor ved Institut for Kemi og Biovidenskab ved Aalborg Universitet, får den fine hæder for sit livsværk og sin holdånd. Han er manden, der kortlægger

Atmosfærisk transport af PFAS til Højarktis

AktueltArtikler fra Dansk KemiKlima og miljø28. 04. 2025

Tilstedeværelsen af PFAS-forbindelser skyldes ikke kun lokale kilder, men de kan langtransporteres i luften til selv meget fjerntliggende arktiske egne. Artiklen har været bragt i Dansk Kemi nr. 2, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen

Tilmeld Nyhedsbrev

Tilmeld dig til dit online branchemagasin/avis





Få fuld adgang til indlægning af egne pressemeddelelser...
Læs mere her

/Nyheder

  • DENIOS ApS

    God sommer fra os hos DENIOS!

  • DENIOS ApS

    NYHED: Her er fremtidens opbevaring af farlige stoffer

  • Busch Vakuumteknik A/S

    MRPC modtager “Innovation in Vacuum Busch Award”

  • DENIOS ApS

    Dette er, hvad der sker, når batterier bryder i brand

  • Busch Vakuumteknik A/S

    Busch Vacuum Solutions præsenterer den intelligente TYR PLUS kapselblæser

  • Dansk Laborant-Forening/HK

    Laboranter er nysgerrige på ny teknik

  • DENIOS ApS

    Sådan udnytter du den stille periode i sommerferien

  • Busch Vakuumteknik A/S

    Sommer vedligeholdelsestips til din vakuumpumpe: 6 gode anbefalinger

  • DENIOS ApS

    Så er det sidste chance

  • DENIOS ApS

    Sikker tøndehåndtering starter her

Vis alle nyheder fra vores FOKUSpartnere ›

Seneste Nyheder

  • Hofmeister – nem at anvende, svær at forstå

    23.06.2025

  • Udvinding af fødevareproteiner fra kløvergræs ved membranteknologi

    17.06.2025

  • Trinatriumhexafluo… hvad for noget?

    09.06.2025

  • Prisen på grisen: Hvad koster oprensning af beskidt CO2?

    02.06.2025

  • Der er brug for lange måleserier af miljøparametre

    26.05.2025

  • Chemical ionization mass spectrometry in atmospheric studies

    19.05.2025

  • Gamle processer, nye muligheder: Nyt kemisk-biologisk koncept til CO2-fangst og omdannelse

    14.05.2025

  • Centrotherm clean solutions bliver til Pfeiffer Vacuum+Fab Solutions

    14.05.2025

  • I dag får professor Per Halkjær Nielsen Videnskabernes Selskabs Guldmedalje

    14.05.2025

  • Atmosfærisk transport af PFAS til Højarktis

    28.04.2025

  • Biotek-firma bag fedme-medicin på tabletform har lagt en klar plan om samarbejde eller opkøb

    21.04.2025

  • Dansk virksomhed vil vende produktionen af ammoniak på hovedet – ned i en lille container

    07.04.2025

  • En EU-historie om nomenklatur – og ginseng til hunde, katte og heste!

    01.04.2025

  • Tysk elektrolyseanlæg er som det første i verden blevet integreret direkte i kemisk produktion

    31.03.2025

  • Dansk innovation blander sig i toppen over lande med de fleste patentansøgninger

    31.03.2025

Alle nyheder ›

Læs Dansk Kemi online

Annoncering i Dansk Kemi

KONTAKT

TechMedia A/S
Naverland 35
DK - 2600 Glostrup
www.techmedia.dk
Telefon: +45 43 24 26 28
E-mail: info@techmedia.dk
Privatlivspolitik
Cookiepolitik