On the Consistency and Oracle Property of the LASSO

My way to a PhD candidate in mathematical statistics is somewhat untraditional, I work on the applied side which for some time has become more common in the current Big Data era. My major is not in maths but in computer science and through an additional master in system biology I got interested in math.stats. Now, still, I often find it hard to bridge the gap between PhD level math-stat and my level of maths.

Following parts of the excellent book, Statistics for High-Dimensional Data, by Sara van der Geer and Peter Bühlmann I below fill in details needed for someone at my math level to grasp how to prove the consistency and the oracle property of the LASSO (Least Absolute Shrinkage Operator) for prediction. LASSO is a method to do regression and variable selection in sparse linear models (N << p), it has an objective similar to ridge regression but instead of an L2-norm penalty on the coefficients it uses the L1-norm (absolute values) penalty. This set the, hopefully, spurious coefficients to exactly zero.

Given enough data the coefficients in the solved optimization problem correspond to the ones in the underlying true model. The Oracle property tells us that this method work as good as if we already knew which predictors were included in the true model. For this to hold we have to add some restrictions.

Hopefully this will be of some use to others. Please contact me if you find any errors or have other comments.

I used XeTeX and pdf2svg to render SVG files. Please bare with the extra white space and page numbers.

baralatex-1

baralatex-2

baralatex-3

baralatex-4

baralatex-5

baralatex-6

Matematikers insikt

Vi befinner oss i ett rum,
kan det vara Banach, Hilbert,
finns det ens en norm?

Alla datapunkterna får inte plats i minnet,
läs och skriv hastigheten till externa medium
är otillräcklig för den till oss allokerade tiden.

Tid förresten, är den linjär,
är den en identitetsfunktion
eller är den även imaginär?
Inte helt reell väl?
En basfunktion, radiell, såsom \(xe^{ix}\)?

Delmängden data vi kan hantera
lämnar oss till att spekulera.

Inte duger sparse PCA,
komponenterna förklarar inte all varians!
Kan vi då ha LDA för att kanske separera?

Vi behöver en kernel runt, och det hade vi ju ingen..
Då går det ju inte ens med SVM!
ROC visar på otillräcklig förståelse hur vi än….
Vi kan inte bygga modellen!

Jaha, fuzzy logic med sigmoider återstår,
kan vi trycka in det i ett neutralt nät då?

Men… jaaaa! Det är ju ändå där vi bor!
Datan kommer ju också inflödande strömmande.
Jag tror vi närmar oss en lösning!
Då får vi också det där hjärtat ömmande
med på köpet, det där vi ändå inte kan kvantifiera.
Återstår bara att begränsa downstream så vi hinner!
Nuuuu, hårdvaran äger ju! Jag brinner, vi vinner!
Vi börjar meditera!

Din tunnas botten sprack

Du frågade mig vem jag är.
Jag svarade.

Du säger du ser kärlek i mig, dina tårar rinner, ditt hjärta öppnas.
Jag säger var är kärleken någonstans?

Du säger jag är poet, att jag måste skriva för jag skulle sälja stort.
Jag säger lyssna bara noga.

Du säger jag har förstått nånting stort.
Jag säger, jag vet inte från mitt hjärtas djup.

Du säger intensiteten överväldigar dig, smärtsamt försöker du hitta ord men hittar inga.
Jag bara ler.

Du säger du måste stänga nu.
Jag säger vad är detta du vill stänga?

Du säger du är förvirrad, hittar inga ord.
Jag säger bra!