• Facebook
  • LinkedIn
  • KONTAKT
  • ANNONCERING
  • OM KEMIFOKUS
  • PARTNERLOGIN

KemiFOKUS

Fokus på kemi

  • Analytisk kemi
  • Arbejdsmiljø/Indeklima
  • Biokemi
  • Biologi
  • Bioteknologi
  • Branchenyt
  • Energi
  • Fødevarekemi
  • Historisk kemi
  • Kemiteknik
  • Kemometri
  • Klikkemi
  • Klima og miljø
  • Lovgivning og patenter
  • Medicinalkemi
  • Nanoteknologi
  • Organisk kemi
  • Artikler fra Dansk Kemi

Kemometri01. 02. 2008 | Katrine Meyn

Principal Component Analysis af nærinfrarøde spektroskopiske data

Kemometri01. 02. 2008 By Katrine Meyn

Spektroskopiske data er generelt kendetegnet ved at være stærkt ko-lineære; dvs. to nabobølgelængder er positivt korrelerede med høje korrelationskoefficienter. PCA er skræddersyet til at håndtere den slags data, og det er i analysen af spektroskopiske data, PCA virkelig viser sit værd.

Læs originalartiklen her

Artiklen har været bragt i Dansk Kemi nr. 2, 2008. Teksten kan desuden læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.

Af Lars Nørgaard, Søren Balling Engelsen og Rasmus Bro, Københavns Universitet

Anvendelsen af PCA på spektroskopiske data illustreres bedst med et eksempel. Til dette formål har vi målt et tre-komponent blandingsdesign hvor sukrose og dets to monomer komponenter: glukose og fruktose er blandet sammen med hver komponent i 21 niveauer [0%; 100%] (se figur 1). Et sådant fuldt 3-komponent blandings design fører til i alt 21+20+19+ … + 1 = 231 blandinger, der alle blev målt med nærinfrarød spektroskopi (NIR).
Nærinfrarød spektroskopi har været hoveddrivkraften ved udviklingen af den tidlige kemometri i 80’erne. Nærinfrarød spektroskopi måler overtoner og kombinationstoner af de fundamentale molekylære vibrationer, som ligger i det infrarøde område. Det er specielt de asymmetriske vibrationer, som er intensive i det nært infrarøde område dvs. strækningsvibrationer, der involverer hydrogen (f.eks. C-H, O-H og N-H). Det gør NIR spektroskopi særdeles anvendeligt til at analysere biologiske systemer.
Det faktum, at man i NIR måler den samme grundlæggende molekylære vibration som et antal forskellige over- og kombinations-toner over praktisk taget hele det nærinfrarøde område, giver stærkt overlappende og nærmest holografiske NIR spektre, der er yderst vanskelige at fortolke på traditionel vis. Mens dette er årsagen til, at NIR i kombination med kemometri er formidabelt informationsrigt, er det paradoksalt nok også årsagen til, at NIR spektroskopien først meget sent blev »stuerent« ved universiteterne (her på KU-LIFE, tidligere KVL, fik vi som et af de første universiteter i Danmark vores første NIR spektrometer i 1992).
Figur 2 viser de 231 NIR reflektansspektre, der er optaget med vores oprindelige dispersive FOSS NIRSystems spektrometer i reflektansmode, dvs. målt mod en hvid keramisk baggrund i området 1100-2500 nm. Enheden på y-aksen er log(1/R) hvor R er forholdet mellem intensiteten reflekteret fra prøven og intensiteten reflekteret fra standarden. X-aksen er bølgelængden i nm. Som det tydeligt fremgår af NIR spektrene, er der ingen baselinieseparerede signaler; kun stærkt overlappende peaks.
Data fra dette eksempel (og andre) kan downloades fra http://www.models.life.ku.dk/danskkemi. Programmet LatentiX (www.latentix.com) er anvendt til at plotte rådata samt til beregning af PCA modellen.

Centrering af data
Første trin inden PCA modellering er at centrere de spektroskopiske data. Dette gøres for at fokusere på variationerne mellem de enkelte prøver i stedet for det generelle signal niveau. Centrering består simpelthen i at fratrække gennemsnitsreflektansen ved hver bølgelængde, således at reflektansen ved hver bølgelængde/tal summerer til nul.

PCA på NIR data

Præcis som for eksemplet med McDonalds data (Dansk Kemi, januar 2008) opstilles en PCA model

For at være lidt mere præcis kan modellen skrives

Her betyder Xc de centrerede spektrale data med samme dimensioner, som den oprindelige X matrix, altså en tabel med 231 objekter og 350 variable. Indeks a angiver antal principale komponenter, der er beregnet i modellen. I dette eksempel vil vi nøjes med at inspicere de første to principale komponenter, hvilket giver god mening i forhold til antal kemiske variationskilder i prøverne: tre kemiske komponenter i et blandingsdesign (sum er 100%) giver ideelt anledning til to uafhængige variationskilder. Vi gemmer til en senere klumme, hvorledes det optimale antal komponenter i en PCA model kan bestemmes matematisk.
Ta og Pa indeholder henholdsvis scores og loadings for to-komponent modellen, og Ea indeholder residualerne; dvs. den del af data, der ikke er beskrevet af modellen.

PCA – en lineær & additiv model
I figur 4 er princippet i PCA illustreret for tre udvalgte prøver; bemærk at PCA modellen er beregnet på alle 231 prøver. Til venstre i figuren ses de rå spektre for prøve 43 (blå), prøve 107 (rød) og prøve 224 (grøn), der kommer direkte fra spektrometeret. Søjle to viser gennemsnitspektret, der subtraheret hvert enkelt prøvespektrum svarende til centreringen af data. Gennemsnitspektret er det samme for alle prøver og derfor vist i samme farve (sort).
Den første loading vektor (magenta) er den spektrale struktur, der bedst beskriver variationen i de centrerede data (figur 3). Ingen anden underliggende struktur kan forklare mere af variationen i data end denne. Første loading er fælles for alle prøverne; det, der gør prøverne forskellige fra hinanden, er indholdet (eller ’koncentrationen’) af denne struktur i deres spektrum: dette kaldes prøvens score-værdi. Prøve 43 har score-værdien −0,51 for 1. loading og de 230 andre prøver i datasættet har andre scores. Tager man loading vektoren gange −0,51 så er det den bedst mulige beskrivelse man kan få af prøve 43, når loading vektoren også skal beskrive de øvrige prøver.
Anden loading (cyan) er den struktur, der beskriver næstmest af variationen i datasættet, og vektoren har desuden den egenskab, at den er orthogonal (vinkelret) på den første loading. Igen fremgår prøvernes forskellighed af score-værdien, som er −0,02 for prøve 43.

Residualer og varians forklaret
Den del af variationen i datasættet, der ikke er beskrevet af de to første loading vektorer fremgår af residualerne yderst til højre i figur 4. Residualerne er specifikke for hver prøve og kan bl.a. anvendes til detektion af afvigende mønstre i enkelt-prøver. Bemærk y-aksen for residualerne: den numeriske værdi svinger indenfor +/− 0,002. Disse værdier kan sammenlignes direkte med variationen i de centrerede spektrale data (figur 3), som varierer mellem −0,1 og +0,09.
Ved at sammenligne residualernes størrelse med de centrerede datas variation kan man beregne varians forklaret for hver enkelt principal komponent. I dette tilfælde forklarer første komponent 88,0% af den total variation, anden komponent 11,6% af variationen, og samlet forklarer de to komponenter 99,6% af variationen i data.

Scores plot
Ved at plotte alle 231 score-værdier for den første principal komponent mod de tilsvarende værdier for anden komponent fås et score plot (figur 5). Det bemærkes at hvert punkt i dette scoreplot repræsenterer et NIR spektrum med oprindeligt 350 variable. I det givne tilfælde kan man se at prøve 43 placeres i koordinatsystemet med koordinaterne (−0,51; −0,02), prøve 107 ved (0,12; 0,08) og så fremdeles for de resterende 229 prøver.

Model med centrering
Som det fremgår af figur 4 kan man flytte middelspektret om på denne anden side af lighedstegnet og derved opnå følgende beskrivelse af PCA modellen inklusive centrerings-trinet

Her er X ucentrerede rådata, 1 er en søjlevektor bestående af 1-taller, x’snit er en rækkevektor, som er gennemsnittet over alle objekter (=gennemsnitsspektrum) og Ta, Pa og Ea er beskrevet ovenfor.

Outro
PCA er overlegen til at håndtere stærkt ko-lineære data som ofte ses i spektroskopien. Som det fremgår af eksemplet er PCA et godt værktøj til eksplorativ dataanalyse: man kan se enkeltprøvers opførsel og karakteristik samt studere hvilke bølgelængdeområder, der har betydning for ligheden/forskellen mellem prøver.
PCA kan opfattes som en »omvendt« Lambert-Beer model: modellen estimerer latente spektre (loadings) og bestemmer koncentrationen af disse i prøverne (scores) ud fra de målte spektre.
I eksemplet har vi arbejdet med data korrigeret for lysspredning; dette er udført ved hjælp at metoden Multiplicative Scatter/Signal Correction (MSC), som vi vil beskrive i en senere klumme.

Figur 1. Blandingsdesign (produceret af Hanne Winning, Københavns Universitet).

Figur 2. NIR spektre fra 231 blandinger af sukrose, fruktose og glukose. Spektrene er farvet efter sukrosekoncentration (cyan er 0% og magenta er 100%).

Figur 3. Centrerede NIR spektre farvet efter sukrosekoncentration.

Figur 4. Illustration af PCA på NIR data. Se tekst for detaljeret beskrivelse.

Figur 5. Score plot fra en PCA model på NIR data. Blandingsdesignet ses tydeligt. Objekterne er farvet efter sukrosekoncentrationen (cyan er 0% og magenta er 100%).

Skrevet i: Kemometri

Seneste nyt fra redaktionen

Svensk opfinder af pengeseddelautomaten har doneret over 538 mio. SEK til demensforskning

MedicinalkemiTop25. 03. 2026

Svenske Leif Lundblad døde i oktober 2025 i en alder af 87 år. Han stod bag opfindelsen af pengeseddelautomaten, der findes i hæveautomater verden over. Efter hans død, ligger der en overordentlig står donation til Karolinska Institutet. Over en halv milliard svenske kroner, helt nøjagtigt 538

Svampe giver køerne kamp til stregen, når det kommer til produktion af mælkeprotein

AktueltArtikler fra Dansk KemiBioteknologi11. 03. 2026

Vores fødevareproduktion er alt for klimabelastende, og én af løsningerne findes i mælkeprotein produceret af svampe med en teknologi, der kaldes præcisionsfermentering. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs

Strontium understøtter tandemaljens robusthed – men hvordan?

AktueltArtikler fra Dansk KemiMedicinalkemi04. 03. 2026

Fluorid styrker tænders emalje ved at erstatte hydroxid i hydroxyapatit og sænke opløseligheden. Strontium styrker også tænders emalje, selv om strontium-analogen til Ca5(OH)(PO4)3 er mere opløselig. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer

Hvad sker der på spildevandsanlægget, når ”det pisser ned”?

AktueltAnalytisk kemiArtikler fra Dansk Kemi25. 02. 2026

Hvordan moderne kemiske analysemetoder hjælper os til at forstå dynamikken af mikroforureninger i spildevandet. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Kristoffer Kilpinen1, Selina

ISO 13391 og ISO 25078

Artikler fra Dansk KemiGrøn omstilling18. 02. 2026

– beregning af skovens klimaeffekter En ny international ISO-standard for beregning af skovens klimaeffekter giver emnet fornyet aktualitet. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af

Ti, Mo, Cs, Pr, Nd – hvad har disse fem til fælles?

Artikler fra Dansk KemiHistorisk kemi18. 02. 2026

Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Kemisk Forenings Nomenklaturudvalg (KFNU) i dets nuværende inkarnation daterer sig fra 1940. Udvalgets første større bedrift var i 1952 at nedkomme med

Supporting chemical thermodynamics:

Artikler fra Dansk KemiKemiteknik18. 02. 2026

The role of infrared spectroscopy The use of molecular vibrations to probe structure in hydrogen bonding liquids. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) By Evangelos Drougkas, Georgios

Konsekvenserne af kunstig iltning af søer

AktueltArtikler fra Dansk KemiKlima og miljø18. 02. 2026

- effektvurdering på Danmarks længst iltede søer: Hald Sø og Furesø. Artiklen har været bragt i Dansk Kemi nr. 1, 2026 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Sofie Kamlarczyk1, Henrik Skovgaard2, Julia Groth1, Theis Kragh1 og Kasper

Per- og polyfluorerede alkylstoffer (PFAS)

AktueltArtikler fra Dansk KemiKlima og miljø18. 02. 2026

– et problem i hele Kongeriget Danmark Seneste års monitering viser, at miljøet og mennesker i Danmark, Færøerne og Grønland kan være kritisk belastet af per- og polyfluorerede alkylstoffer (de såkaldte PFAS). I Danmark har brugen af PFAS – i særligt industrien, landbruget og brandøvelser – været

Grønlandske miner og metaller  

AktueltArtikler fra Dansk KemiKlima og miljø10. 02. 2026

Mod en ansvarlig udnyttelse af råstoffer til den grønne omstilling. Artiklen har været bragt i Dansk Kemi nr. 6, 2025 og kan læses uden illustrationer, strukturer eller ligninger herunder(læs originalartiklen her) Af Christian Juncher Jørgensen, Christian Frigaard Rasmussen og Jens

Tilmeld Nyhedsbrev

Tilmeld dig til dit online branchemagasin/avis





Få fuld adgang til indlægning af egne pressemeddelelser...
Læs mere her

/Nyheder

  • DENIOS ApS

    Må du opbevare to forskellige stoffer på det samme opsamlingskar?

  • Busch Vakuumteknik A/S

    Pfeiffer Vacuum+Fab Solutions introducerer CenterLine CNR-serien

  • Kem-En-Tec Nordic

    Sikker gelfarvning på kun 15 minutter?

  • Mikrolab – Frisenette A/S

    Følg med i årets seminarer og events

  • Busch Vakuumteknik A/S

    Eventyr over Nordsøen: Servicetekniker fra Busch på en offshore-mission

  • Mikrolab – Frisenette A/S

    Kom med til automationsdag den 22. april

  • DENIOS ApS

    Over 100 nye produkter!

  • Sponsoreret indhold

    Skalpellen er et uundværligt værktøj i moderne medicin

  • MD Scientific

    Næste generation af LenS3 Multi-Angle Light Scattering Detektorer

  • Holm & Halby

    Holm & Halby indstillet til Årets Virksomhed i Brøndby 2025

Vis alle nyheder fra vores FOKUSpartnere ›

Seneste Nyheder

  • Svensk opfinder af pengeseddelautomaten har doneret over 538 mio. SEK til demensforskning

    25.03.2026

  • Svampe giver køerne kamp til stregen, når det kommer til produktion af mælkeprotein

    11.03.2026

  • Strontium understøtter tandemaljens robusthed – men hvordan?

    04.03.2026

  • Hvad sker der på spildevandsanlægget, når ”det pisser ned”?

    25.02.2026

  • ISO 13391 og ISO 25078

    18.02.2026

  • Ti, Mo, Cs, Pr, Nd – hvad har disse fem til fælles?

    18.02.2026

  • Supporting chemical thermodynamics:

    18.02.2026

  • Konsekvenserne af kunstig iltning af søer

    18.02.2026

  • Per- og polyfluorerede alkylstoffer (PFAS)

    18.02.2026

  • Grønlandske miner og metaller  

    10.02.2026

  • 2026-udgaven af Torkil Holm Prisen måtte deles af to markante forskningsprofiler

    03.02.2026

  • Italienskfødt, dansk-bosat forsker modtager årslegat for at sætte molekyler på menuen

    27.01.2026

  • To år med enhedspatentet og Enhedspatentdomstolen

    26.01.2026

  • Materialer til konstruktion af små modulære atomreaktorer med smeltet fluorid-salt

    20.01.2026

  • Er der salat i solcreme?

    12.01.2026

Alle nyheder ›

Læs Dansk Kemi online

Annoncering i Dansk Kemi

KONTAKT

TechMedia A/S
Naverland 35
DK - 2600 Glostrup
www.techmedia.dk
Telefon: +45 43 24 26 28
E-mail: info@techmedia.dk
Privatlivspolitik
Cookiepolitik