Kemometri01. 06. 2001 | Katrine Meyn

Multiblokmetoder til eksplorativ »data mining«

Kemometri01. 06. 2001 By Katrine Meyn

Her beskrives multiblokmetoder, der kan håndtere, visualisere og kvantificere store mængder af grupperede data på en intuitiv måde. Ideen med disse metoder er at skaffe en grafisk oversigt over en omfattende mængde af information og samtidig opretholde den naturlige struktur i data (blokstruktur).

Læs originalartiklen her

Artiklen har været bragt i Dansk Kemi nr. 6/7, 2001 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.

Af Frans van den Berg1, , Vibeke T. Povlsen1), Anette Thybo2)
1) KVL, Mejeri- og Levnedsmiddelinstituttet, Levnedsmiddelteknologi
2) Danmarks JordbrugsForskning, Afd. for Prydplanter og Vegetabilske Fødevarer

Inden for kemiområdet er de nye metoder samlet under betegnelsen kemometri. Velkendte teknikker som Principal Komponent Analyse (PCA) og Partial Least Squares Regression (PLSR) er designet til at håndtere mange og korrelerede variable [1]. Den bedst kendte metode er multivariat kalibrering, der anvendes inden for Nær Infrarød (NIR) spektroskopi. Absorbansværdier ved forskellige bølgelængder kan f.eks. bruges til at forudsige proteinindholdet i bygprøver [2]. Til 2D-teknikker såsom fluorescens-emissions-excitations-spektroskopi og gaschromatografi-massespektroskopi (GC-MS) er der udviklet nye metoder som Parallel Factor Analysis (PARAFAC), Tucker-modeller og Multilineær-PLS [3]. Teknikker, der er designet til at modellere data, hvor hver prøve giver et 2D-signal. Fællesnævneren i disse forskellige metoder er, at de kan udtrykkes grafisk (kvalitativt) såvel som kvantitativt.
Her diskuteres en række værktøjer, som kan håndtere multivariate blokke af data, de såkaldte multiblokmodeller. De kan betragtes som en udvidelse af »enkelt-blok«-PCA og -PLSR. Multiblokmetoder anvendes, hvor der er store mængder af data, som kan arrangeres i meningsfulde undergrupper (blokke). Et eksempel på »naturlige blokke« kan være data fra forskellige instrumentelle teknikker (NIR, GC, fysisk/reologiske parametre etc.) alle målt på det samme sæt af prøver. Det første skridt i håndteringen af mange variable kan være at samle datasættet i en stor tabel og analysere hele blokken. Denne fremgangsmåde vanskeliggør ofte fortolkningen af modellen. Multiblokmodeller bestræber sig på at opretholde den naturlige orden i data. De forsøger at forklare den sammenhæng, der er mellem de forskellige blokke og blokkenes relative bidrag til modellen. Samtidig fastholdes undermodeller af de enkelte blokke, der giver en detaljeret indsigt i strukturen indenfor hver enkelt blok.
Multiblokmodeller kan opfattes som »data mining«-redskaber. De kan give en (grafisk) oversigt over omfattende mængder af data med det sigte at opnå mere gennemskuelige modeller, navnlig ved at reducere kompleksiteten af data-repræsentationen. Multiblokmodeller kan betragtes som »eksplorative« og er velegnede til indledende undersøgelser af data, til intelligent reduktion af mængden af data og til at finde en mere dedikeret matematisk model baseret på det reducerede datasæt.

PCA og PLSR – to specifikke metoder
For at give en bedre forståelse af multiblok-algoritmen er her givet en kort beskrivelse af PCA- og PLSR-algoritmerne [4]. Ved PCA er udgangspunktet at beskrive data i en tabel X. I tabellen består hver række af prøver, mens kolonnerne består af målinger (variable). Måles f.eks. NIR-spektre fra et sæt prøver, fås en datamatrix X med størrelsen prøver x bølgelængder. Den første principale komponent giver et komprimeret billede af den originale datamatrix X (boks 1a) og består af en score-vektor (t) og en loading-vektor (p). Yderligere information findes ved at beregne flere komponenter.

PCA-modellen
PCA-modellen giver information om sammenhængen mellem prøver og variable. Score-værdierne er nye variable, som er vægtede gennemsnit af de oprindelige variable. De oprindelige variable erstattes af en score-vektor, som bedst muligt sammenfatter variationen i disse. Dette muliggør visualisering og kvantitativ analyse. Prøver med ens score-værdier er meget lig hinanden, mens prøver med forskellige scorer er meget forskellige. I den grad score-vektoren ikke kan sammenfatte al information i de oprindelige variable, kan flere komponenter beregnes, men typisk anvendes få komponenter (<10) uanset antallet af oprindelige variable.
Ud over scorer er der til hver komponent også en loading-vektor. Loading-vektoren fortæller, hvordan score-værdierne beregnes. For hver variabel er der en loading, som er vægten hvormed variablen indgår i beregningen af score-værdien. En høj værdi betyder, at variablen er vigtig for komponenten, og en lav værdi betyder, at den er uvæsentlig. Variable med næsten ens værdier er korrelerede. Dvs., at når den ene variabel stiger, vil den anden typisk også stige. Variable, der har modsat fortegn, er modsat korrelerede.
PCA bruges altså til at studere det fulde datasæt i en model, hvor kompleksiteten er reduceret i form af et lavt antal scorer og loadings. Det kan være meget svært at drage konklusioner udfra rå NIR-datatabeller, men ved at kigge på data i form af de komprimerede vinduer givet ved scorer og loadings, er det muligt at få et rationelt komprimeret indblik i variationen mellem prøver såvel som variable.

PLSR-modellen
I PLSR ser man på sammenhængen mellem en blok X og en respons-blok Y (boks 1b). I NIR-eksemplet kunne Y f.eks. være koncentrationer af komponenter, hvor koncentrationerne er bestemt ved referencemetoder. Den første PLSR-komponent består af to modeller (en af X og en af Y). Disse modeller består af score- og loading-vektorer, som kan fortolkes som i PCA. Forskellen er at de bestemmes ved at bestemme/prædiktere Y-scorer ud fra X-scorer. Vha. denne sammenhæng kan man derfor, for fremtidige prøver, bestemme/prædiktere Y-blok-data alene ud fra X-blok-data. Dvs., at man kan måle et NIR-spektrum og ud fra PLSR-modellen bestemme koncentrationerne i den målte prøve, hvorved referencebestemmelserne spares.

Multiblokmodeller
For multiblokdata er der mere end en X-blok. Princippet i multiblokmodellerne er at lave PCA-lignende modeller for hver blok, så den fælles information ekstraheres. I multiblok-PCA (MB-PCA) er der ingen Y-blok, og blokkene modelleres som i PCA. Hver datablok giver en separat type information, og formålet med multiblokmodellen er at udtrykke den generelle struktur imellem alle prøver og variabelblokkene. Denne »konsensus«-struktur er beskrevet ved et superniveau, et overordnet lag, der kombinerer informationen fra alle X-blokkene fra det nedre dataniveau. På superniveau findes den samlende datablok. På det lavere niveau er de individuelle blokke. Her beskrives den enkelte blok af specifikke scorer og loadings ganske som i almindelig PCA. De er dog bestemt, så de er beskrivende for konsensus over alle blokke. På superniveau dannes en model for alle score-værdierne fra de enkelte blokke. Supermodellen består også af scorer og loadings og giver et komprimeret billede af samtlige blokke. F.eks. vil blokke med meget ens loadings indeholde samme type af information osv. (boks 1c).
Ønskes en kvantitativ analyse, findes der en tilsvarende multiblok-kalibreringsmodel kaldet multiblok-PLSR (MB-PLSR). I denne model findes en regressions-model mellem responsblok Y og en række X-blokke (boks 1d). Som for MB-PCA laves individuelle modeller for hver X-blok, og scorer fra disse individuelle blokke kombineres i en supermodel.

Eksperimentelt fra jordbrugs- og fødevareforskningen
Ovenstående teori bruges her i et eksempel fra jordbrugs- og fødevareforskningen.
Fem forskellige kartoffelsorter blev høstet i september 1999 og analyseret i november 1999 og maj 2000. Udbyttet blev sorteret ved densitetssortering i saltbade i to eller tre tørstof-intervaller. Det resulterede i hhv. tretten og ti forskellige såkaldte tørstofklasser for de to lagringstider. Fra disse klasser blev kartoffelknolde udvalgt til laboratorieanalyser og sensorisk evaluering. Laboratoriemålingerne bestod af uniaxial kompressionsmåling på rå og kogte kartofler (figur 1). Ved denne teknik bliver en veldefineret kartoffelcylinder (d=12mm, h=10mm) komprimeret 75% ved konstant hastighed. Målingerne blev gentaget for ti kartoffelknolde fra hver sort. De uniaxiale kompressionskurver – gennemsnittet over de ti gentagelser for at reducere den naturlige variation i klasser – danner blokkene rå X1 og kogt X2 i multiblokmodellen. Kompressionskurverne udtrykker »modstandskraften fra kartoflen« – en funktion af den kemiske og fysiske sammensætning af knolden. Kompressionsmålinger er korreleret til de sensoriske tekstur-målinger [5] og forventes at kunne at relateres til forbrugernes opfattelse af produktet.
Sensorisk evaluering af de samme prøver udgør Y-blokken i kalibreringsproblemet. Et trænet sensorisk panel bestående af ti dommere bedømte et antal sensoriske egenskaber på de kogte kartofler. Her bruges to af disse egenskaber: Fasthed og Melethed. Panelet bedømte de to egenskaber på en skala fra nul til femten, og gennemsnittet af bedømmelserne er brugt som Y-blok-data.
I alt er 23 prøver analyseret. Målingerne er givet ved to X-blokke af kompressionskurver, og en Y-blok med den sensoriske bedømmelse af Fasthed eller Melethed. X-blokkene er skaleret til blok-varians, og alle tre datablokke er centrerede. Det korrekte antal komponenter bestemmes ved krydsvalidering, og den overordnede prædiktionsfejl bestemmes som »Root Mean Squared Error of Prediction« (RMSEP), som i reglen har et minimum for den optimale models kompleksitet.

Resultater
Figur 2 viser den primære information fra modellerne af henholdsvis Fasthed og Melethed.
Fasthed: Ud fra RMSEP-kurve, fundet ved krydsvalidering (figur 2c) ses det, at to komponenter giver minimal prædiktionsfejl. Super loadings (ws) tolkes som at en høj værdi (tæt på en) indikerer, at en blok er vigtig i denne faktor, mens en lav værdi fortæller, at blokken har ringe indflydelse. For en to-komponents model for Fasthed (figur 2b) ses, at de to X-blokke er af ca. samme vigtighed, med en lille fordel fra kompressionskurverne fra de kogte prøver (grøn søjle). Ud fra den procentvist forklarede varians kan vi se, at kun en lille del af X-blokken for de rå prøver (X1) bruges i den første komponent (figur 2a).
RMSEP-værdierne for Melethed indikerer også en to-komponents model. Fra ws ses det, at den første komponent fortrinsvis afhænger af X1-blokken, mens den anden komponent domineres af X2-blokken (kogte prøver). Den forklarede varians er høj i starten, grundet den relative lave modelkompleksitet.
Figur 3 viser de målte sensoriske egenskaber mod de prædikterede bestemt ved krydsvalidering. Prædiktionen af Fasthed (korrelationskoefficient R2 = 0.77) og Melethed (R2 = 0.81) betragtes som acceptabel (figur 3a) [5]. Ud fra X-blok loadings pXi ses, at den information, der ekstraheres for kompressionskurverne fra de rå kartoffelprøver, er omtrent den samme, dog med et skift i komponentrækkefølgen (figur 3b). Kurverne fra de kogte kartoffelprøver viser, at Melethed har mere skæve loading-vektorer (figur 3c).
I figur 4 ses et scoreplot af komponent 2 mod komponent 1 på superniveau. Figuren viser effekten af sort og tørstof på Melethed og Fasthed ved gruppering af disse designvariable. De to modeller viser næsten den samme gruppering for de to regressioner, med den observation at komponent et og to har byttet plads i Fasthed- og Melethed-resultaterne.

Konklusion
I denne artikel har vi forsøgt at gøre læseren bekendt med konceptet i multiblokmodeller. Alternativet til multiblokmetoderne er at analysere de individuelle blokke og forsøge at drage en samlet konklusion af de separate observationer.
I teoriafsnittet og det eksperimentelle afsnit er der givet et eksempel på en simpel multiblok-situation: to laboratorie-X-blokke til prædiktionen af de sensoriske egenskaber Fasthed og Melethed i kartoffelprøver. Disse data er blot en lille del af et meget stort studie, hvor fem X-blokke – både fysiske og kemiske – med otte forskellige sensoriske egenskaber er disponible. Ved samtidig at inddrage alle X-blokke simultant vil nødvendigheden af de eksplorative aspekter i multiblokmodellerne være endnu mere åbenlys.

Finansiering
Arbejdet i denne artikel er en del af Advanced Quality Monitoring (AQM) projektet, som er et forskningssamarbejde mellem KVL, (LevnedsmiddelCentret), Danmarks JordbrugsForskning og Danmarks Fiskeriundersøgelse (se

Referencer
1. H.Martens and M.Martens »Multivariate Analysis of Quality – and introduction« Wiley(2001)
2. J.S.Shenk and M.O.Westerhaus »Population structuring of near-infrared spectra and modified partial least-squares regression« Crop Science no.6, 31(1991)1548-1555
3. C.A.Andersson and R.Bro »The N-way Toolbox for Matlab« Chemometrics and Intelligent Laboratory Systems 52(2000)1-4
4. J.A.Westerhuis, Th.Kourti and J.F.MacGregor »Analysis of Multiblock and hierarchical PCA and PLS Models« Journal of Chemometrics 12(1998)301-321
5. A.K.Thybo, I.E.Bechmann, M.Martens and S.B.Engelsen »Prediction of Sensory Texture of Cooked Potatoes using Uniaxial Compression, Near Infrared Spectroscopy and Low Field 1H NMR Spectroscopy« Lebensmittel Wissenschaft und Technology 33(2000)103-111
6. A.K.Smilde, J.A.Westerhuis an R.Boqué »Multiway multiblock component and covariates regression models« Journal of Chemometrics 14(2000)301-331
7. G.M. Arnold and A.A.Williams »The use of Generalised Procrustes Techniques in Sensory Analysis« in J.R.Piggott »Statistical Procedures in Food Research« 1986

Figur 1. Uniaxiale kompressionskurver for (a) rå X1 og (b) kogte X2 kartoffelprøver (1999 ‘¾’; 2000 ‘—‘).
Figur 2. Analyseresultater for MB-PLSR-modeller på de sensoriske egenskaber Fasthed og Melethed og uniaxiale kompressionskurver. (a) Procent forklaret varians X1 (rå ‘¾’), X2 (kogt ‘¾’), X-sum (rå + kogt ‘¾’) og Y-blok (Fasthed eller Melethed ‘—‘); (b) super loadings ws; (c) RMSEP fra krydsvalidering.
Figur 3.
(a) Prædiktion med krydsvalidering for 2-faktor MB-PLSR-modeller mod referenceværdier for Fasthed og Melethed (1999 ‘o’; 2000 ‘+’);
(b) X-blok loading pXi for modelkomponent #1 (‘¾’) og #2 (‘…‘).
Figur 4. Superscorer ts for komponent #2 mod #1 for Fasthed og Melethed (1999 ‘o’; 2000 ‘+’; kartoffelsort a-e; tørstofklasse 18-22).

Multiblokmetoder til eksplorativ »data mining«

Læs Dansk Kemi online

Annoncering i Dansk Kemi

KONTAKT