Partial Least Squares (PLS) regression er et alternativ til Principal Component Regression. Det handler bl.a. om, hvordan man handler bedst i et supermarked.
Artiklen har været bragt i Dansk Kemi nr. 11, 2008 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.
Af Lars Nørgaard, Rasmus Bro & Søren Balling Engelsen, Institut for Fødevarevidenskab, Det Biovidenskabelige Fakultet, Københavns Universitet
Vi vil her introducere Partial Least Squares (PLS) regression som et alternativ til Principal Component Regression (PCR). Baggrunden for at introducere en ny regressionsmetode er følgende: PCR er en totrins metode, hvor man først beregner scores (T) fra en data-tabel X (f.eks. NIR spektre) og dernæst laver en regressionsmodel til den afhængige variabel (y, f.eks. kvalitet). Det svarer til, at man går ind i et supermarked (X), indkøber varer i forskellige afdelinger som frugt & grønt, kød, desserter, vine etc., og først når varerne er betalt, får man at vide hvilken menu (y), man skal lave til middagen. Det er klart, at når man først vælger informationen i T uden at tænke på, hvad den skal bruges til, så risikerer man, at kalibreringsmodellen, der relaterer T til y, bliver unødigt kompliceret.
PLS er opstået som et alternativ til denne måde at lave regressionsanalyse på: i PLS-regression anvendes y direkte til at finde den relevante information T i X; y indgår således i første trin af PLS-algoritmen, og ikke først senere. Dette svarer til, at man går ind i supermarkedet med menuen i hånden og derfor har mulighed for at indkøbe præcis de varer, man skal bruge. Man skal således ikke sikre sig, at al relevant information i X er repræsenteret i T, men kan nøjes med at uddrage den relevante information. Dermed bliver modellen nemmere at fortolke og forstå, og dette aspekt er ofte centralt i forhold til at optimere og udvikle en analyse.
PLS-regression anvendes nu på data fra ølproduktion, og sammenlignes med en PCR-model på de samme data (beskrevet i en tidligere klumme i Dansk Kemi, nr. 8, 2008).
Øldata
Fyrre prøver bestående af forskellige øl er analyseret for ekstraktindhold i % plato med en laboratoriemetode. Ekstrakt er en vigtig kvalitetsparameter i bryggeriindustrien og indikerer gærens potentiale til at danne alkohol. Ekstraktprocenten varierer fra 4,2-18,8% plato. De samme fyrre prøver er ligeledes målt med visuel- og nærinfrarød spektroskopi i området 400 nm til 1400 nm med to nanometers interval, dvs. 501 spektrale variable. Prøverne er afgasset inden måling på et NIRSystems 6500 spektrofotometer i en 30 mm kuvette. Spektrofotometeret anvender et delt detektorsystem med siliciumbaseret detektor i området 400 nm til 1100 nm og blysulfid detektor (PbS) i området 1100 nm til 2500 nm. Figur 1 viser de centrerede spektre for alle prøver farvet efter ekstraktkoncentrationen.
Hvert spektrum er farvekodet efter ekstraktindholdet, og for de centrerede data er det tydeligt, at ekstraktkoncentrationen, som forventet, afspejles bedre i det nærinfrarøde spektrale område (f.eks. omkring 1200 nm) sammenlignet med det synlige (f.eks. omkring 500 nm). Selvom der tydeligvis er mest variation i det synlige område, er informationen i dette område åbenbart ikke relevant for ekstrakt.
PLS versus PCR
Der beregnes nu en PLS-model på de givne data med NIR-spektrene som X og ekstrakt som y. Helt analogt til PCR beregnes et antal PLS-komponenter; disse kaldes helt specifikt PLS-komponenter for at understrege, at de ikke er lig med de principale komponenter.
Forskellene mellem PLS og PCR kan illustreres ved inspektion af de forklarede varianser i X og y for fem komponenter for både PLS og PCR; disse kan ses i tabel 1. For både PCR og PLS ses, at første komponent ikke forklarer en særlig stor del af ekstraktvariationen. Dette er egentlig lidt i modstrid med, hvad man ville forvente, specielt for PLS. Første komponent forventes at være den vigtigste komponent, da PLS netop i første komponent leder efter den variation i spektrene som er mest relateret til ekstrakt. Årsagen til den lidt besynderlige første komponent vil vi vende tilbage til i en senere klumme omkring variabel-selektion.
Bevæger vi os videre til anden komponent, så ser vi at anden PLS-komponent forklarer mere af ekstraktvariationen end PCR, og dette er netop fordelen ved PLS. De komponenter man finder i PLS er mere relevante for y end tilfældet er for PCR.
For fem komponenter beskriver PLS-modellen 98,7%, mens PCR beskriver 94,7%. For X forholder det sig omvendt: forklaret X-varians i PCR-modellen vil altid være højere end for PLS-modellen, fordi PCA netop finder præcis de komponenter, der bedst muligt beskriver – alt i – X.
I figur 2 ses hvorledes ekstrakt bliver estimeret ud fra henholdsvis en fire- og fem-komponent PLS-model. Korrelationskoefficienten mellem estimeret og målt er hhv. 0,96 og 0,99 for de to modeller. Valget af antal komponenter er vigtigt, for selvom prædiktionerne fra fem-komponent-modellen ser bedst ud, så er vi interesseret i at modellen er bedst på nye prøver. Og det er ikke sikkert, at det er fem-komponent-modellen, der vil være bedst på nye prøver, blot fordi den er god til at prædiktere de prøver, der blev brugt til at lave modellen. Vi vil senere se på teknikker til objektivt at afgøre, hvor mange komponenter man skal bruge.
En PLS-model giver de samme diagnostiske redskaber som PCR. Man får scores, loadings, regressionskoefficienter og residualer. Disse kan bruges til fortolkning, til validering og til at finde mulige outliere.
Forskellene mellem en PLS-model og en PCR-model er sjældent dramatiske, mht. hvor godt man prædikterer, men oftest anvender man et lavere antal komponenter i PLS-modellen. PLS kan især have en fordel, hvis det er små variationer i X, der er relevante for y, mens PCR kan have en fordel, hvis y er meget støjfyldt, da y anvendes to gange i PLS-algoritmen. Der findes ydermere en variant af PLS kaldet PLS2, som kan bruges, når man har mange forskellige y-variable. Det kunne f.eks. være, at man ville prædiktere udbytte, spild og energiforbrug. Ved hjælp af PLS2 kan man lave disse tre forskellige modeller på én gang og således få mulighed for direkte at forstå, hvorledes de tre forskellige kvalitetsparametre spiller sammen. Dermed kan man f.eks. lettere finde det rette kompromis, som kun maksimerer udbyttet i den grad, det ikke går dramatisk ud over energiforbrug.
En dansk indføring i PLS og multivariabel kalibrering kan findes i reference [1].
PLS algoritme
En enkel version af PLS-algoritmen ses nedenfor. Der findes andre mere optimale versioner, men nedenstående viser hvordan y involveres i modelleringen straks fra start:
1. Centrér eller autoskalér X og y
2. Løs X = yw’ + E1 mht. w
Løsning: “w = X/y” eller w=X’y(y’y)-1
Normalisér w til længde én
3. Løs X = tw’ + E2 mht. t
Løsning: “t = X/w” eller t=Xw(w’w)-1
dvs. t=Xw da |w|=1
4. Løs X = tp’ + E3 mht. p
Løsning: “p = X/t” eller p=X’t(t’t)-1
5. Løs y = tbscore1 + ey mht. bscore1
Løsning: “bscore1 = y/t” eller bscore1=(t’t)-1t’y
6. Xny = X – tp’ (= EX)
yny = y – tbscore1 (= ey)
bPLScores=[bscore1, bscore2 … bscoreA]
7. Start fra trin 2 med Xny og yny for at beregne næste PLS-komponent
(op til det søgte antal komponenter)
Outro
PLS anvendes dagligt i rigtig mange industrielle korn- og mejeriapplikationer baseret på NIR og IR, men metoden kan anvendes på alle typer af multivariate data, hvor man ønsker at sammenkoble og fortolke information fra to matricer.
Tabel 1. Forklaret %-varians for X og y i en PLS og PCR-model af øldata.
Figur 1. A)(skal der være et ”A” her???) Centrerede absorptionsspektre for fyrre ølprøver i det spektrale område 400-1400 nm målt med 2 nm’s interval; dvs. i alt 501 spektrale variable er registreret. Spektrene er farvet efter prøvens ekstraktkoncentration, og området fra 1100 nm til 1375 nm ses at afspejle ekstraktkoncentrationen bedre end det synlige område.
Figur 2. Estimerede ekstrakt % værdier baseret på nærinfrarød spektroskopi og PLS sammenlignet med de målte laboratorieværdier. A) Fire-komponent PLS-model. B) Fem-komponent PLS-model.
Referencer
1. R. Bro, Håndbog i multivariabel kalibrering, Jordbrugsforlaget, 1996 (ISBN: 8774324586).