Miten auton arvo alenee? Tilastollinen analyysi työkaluna
Nykyään erilaiset
nettiautomyyntipalvelut tarjoavat kiinnostavia aineistoja autojen arvion
putoamisen arviointiin. Kun havaintoja on satakunta, esimerkiksi
hinnoitteluvirheet on helppo tunnistaa datasta.
Tarkastellaan esimerkkinä
Volvo XC90 hinnan kehittymistä.
Python-koodini hakee
tietyn Nettiauto.comin haun mukaisista autoista Exceliin auton vuosimallin,
sillä ajetut kilometrit ja hintapyynnön. Kaikki Nettiautossa lokakuussa 2021
olevien, alle 200 tkm ajettujen T8-voimalinjaisten XC90-autojen hintapyynnöt
vuosimallin ja kilometrien funktiona on esitetty kuvissa alla. Materiaalista on
poistettu silmämääräisellä tarkastelulla uusimmat poikkeuksellisesti
hinnoitellut erikoismallit sekä poikkeuksellisen paljon ajetut yksilöt. Nämä
ovat analyysin kannalta poikkeusyksilöitä. Lopullisessa aineistossa on 94
myytävää autoa.
Nähdään, että vuosimallia
2022 lukuunottamatta varianssit eivät riipu mallivuodesta tai kilometreistä.
Hoidetaan vuoden 2022 heteroskedastisuus myöhemmin. Nähdään myös, että riippuvuudet
eivät ilmeisesti ole täysin lineaarisia.
Keskimääräiset
hintapyynnöt ja ajokilometrit mallivuoden funktiona ovat taulukossa alla.
vm 2022 |
hintapyyntö 98122 |
Km 333.3333 |
2021 |
88960.85 |
5730.769 |
2020 |
77917.86 |
28647 |
2019 |
69131.43 |
54928.57 |
2018 |
63514.93 |
71188.86 |
2017 |
57395 |
101535.7 |
2016 |
49771.3 |
125893 |
Auton vuotuinen
hinnanpudotus on aineistossa keskimäärin 8000 euroa – aika jäätävä summa.
Aiemmat analyysit ovat
osoittaneet, että hinnanpudotukset selittyvät lähes täysin vuosimallilla ja
ajokilometreillä.
Kun regressoidaan
vuosimalli ja ajokilometrit hintapyyntöihin, saadaan tuloksena että vuosimalli
(vaikka autolla ei ajettaisi kilometriäkään) pudottaa aineistossa auton hintaa
noin 5500 euroa, ja jokainen ajokilometri noin 25 senttiä. Selittäjien vaihtelu
selittää noin 90% selitettävän vaihtelusta, eli jo näin saadaan
selitysvoimaltaan varsin hyvä malli. Huomiota kiinnittää kuitenkin se, että
hinnan riippuvuus kilometreistä ei ole lineaarinen. Voisiko olla, että
vuosimallilla ja kilometreillä on yhteisvaikutus? Vuosimallin ja ajokilometrien tulon
lisääminen selittäjäksi osoittaa, että näin tosiaan on – selittäjä on
tilastollisesti merkitsevä. Ristitermin estimoitu kerroin on etumerkiltään
sellainen, että uusissa autoissa kilometrit selittävät hintaa enemmän kuin
vanhoissa autoissa (tai vastaavasti vähän ajetuissa autoissa vuosimallin
vaikutus hintaan on erilainen kuin paljon ajetuissa autoissa). Intuitiivinen
selitys tälle on se, että todennäköisesti ajokilometrimäärän muutos 0:sta
10000:een koetaan paljon merkityksellisempänä kuin ajokilometrimäärän muutos
40000:sta 50000:een. Testasin myös sitä mahdollisuutta, että auton takuuaika (2
vuotta) selittäisi hintaa. Näin ei kuitenkaan ole. Myöskään hybridiakun takuu
(5 vuotta tai 100.000 km) ei osoittaudu tilastollisesti merkitseväksi
selittäjäksi. Osin takuun osalta saattaa olla myös kysymys siitä, että
aineistosta ei pystytä tarkkaan sanomaan, onko takuu iän kannalta voimassa vai
ei. Puolessa 2- tai 5-vuotiaista autoista se on voimassa, puolessa ei enää.
Data ei sisällä tyhjentävästi käyttöönottopäivää.
Eräs ongelma
estimoinnissa on se, että ennuste ei täsmää uusien autojen hinnan kanssa.
Tilanteessa, jossa auton ikä on 0 vuotta ja sillä on ajettu 0 km, mallin tulisi
luonnollisesti ennustaa uuden auton hintaa. Näin ei kuitenkaan tapahdu.
Intuitiivisesti kuitenkin pitäisi olla selvää, että mallirakenteen tulisi
ennustaa uudelle autolle uuden auton hintaa, koska se on deterministinen, ei
stokastinen, suure.
Osasyynä tähän on
aineiston heteroskedastisuus; 2022 aineisto saa pienemmän varianssinsa takia
PNS-estimoinnissa pienemmän painoarvon. Tämän korjaaminen ei kuitenkaan
tilannetta parantaisi, vaan malli pitää pakottaa ennustamaan uuden kohdalla
uuden hintaa.
Mallirakennetta voidaan
muuttaa niin, että autojen hinnan sijaan ennustetaan hinnan pudotusta ja pakotetaan
hinnanpudotus origossa nollaksi valitsemalla mallirakenne niin, että se ei
sisällä vakiotermiä ollenkaan (eli selittäjien arvolla 0 selitettävä saa arvon
0).
Hinnan pudotus riippuu
auton malli- ja varustetasovaihtelusta. Periaatteessa jokaiselle autolle
pitäisi laskea hinnan pudotus vähentämällä hintapyyntö vastaavan auton
nykyhinnasta (autot ovat kuluttajalle substituutteja). Tätä ei käytännössä
pystytä tekemään, joten keskimääräinen uuden hinta pitää arvioida. Arviointi
voidaan tehdä iteratiivisesti käyttämällä arvattua uusien autojen keskihintaa
ja estimoimalla ensin mallirakenne, joka sisältää vakiotermin. Tämän jälkeen arvattua
autojen keskihintaa korjataan vakiotermin verran ja estimoidaan mallirakenne,
toistetaan tätä kunnes vakiotermi on riittävän pieni. Nyt voidaan
mallirakennetta muuttaa ja estimoida malli, jossa vakiotermi on nolla. Näin
päästään XC90-datassa ällistyttävään 98% selitysasteeseen. (Oikea uusien
autojen keskimääräinen hinta myös maksimoi mallin selitysasteen; todistus
jätetään harjoitustehtäväksi😊)
Kaikki selittäjät ovat
tilastollisesti merkitseviä, selitysaste on korkea ja residuaalit hyväksyttävän
homoskedastisia. We have a model. Uuden keskimääräinen hinta on 96000 euroa ja
vuosimalli vaikuttaa aineistossa hintapyyntiin 5500 euroa. Vuoden ikäisissä (eli
vähän ajetuissa) autoissa ajettu kilometri pudottaa hintapyyntiä 22.5 senttiä
ja 5 vuoden ikäisissä (eli enemmän ajetuissa) 12 senttiä.
Alla olevassa kuvassa on
kuvattu autojen hintapyynnöt ja ennustetut hinnat. Katkoviivan alapuolella olevat
autot ovat muihin autoihin nähden alihinnoiteltuja, ja yläpuolella olevat
ylihinnoiteltuja.
Suurin alihinnoittelu
datassa on noin 6500 euroa. Käy ilmi, että tämä auto ja muut samalla tavalla
alihinnoitellut ovat käytettyinä Ruotsista tai Saksasta tuotuja autoja, joista
puuttuu talvirenkaat. Kevytmetallivanteet ja talvirenkaat tekevät
hinnoitteluvirheestä enää noin 3500 euron suuruisen. Vanhemmista autoista
löytyy 6000 euroa alihinnoiteltuja autoja kaksin renkain, mutta edessä on
todennäköisesti rengaskaupat ja 2500 euron lasku.
Suurin ylihinnoittelu on
yli 7000 euroa; kyseessä on vuoden 2021 3000 km ajettu R-design. Myös muille
ylihinnoitelluille on usein jokin peruste: R-design, ilmajouset,
inscription-varusteet ynnä muuta. Mitä uudempi auto on, sitä isompi merkitys on
erilaisten varustepakettien hinnoilla, joten vertailu keskimääräiseen uuden
hintaan saattaa näissä ontua. Uusien autojen osalta hinnoitteluvirheitä
tulisikin tutkia case by case. Toisaalta ajan kuluessa varustepaketit
menettävät arvonsa nopeammin kuin muu auto, ja lähestytään keskiarvoa. Täten
arvonmenetyksen mielessä malli on myös uusien autojen osalta vähintään suuntaa
antava.
Testasin mallirakennetta
myös muilla automerkeillä ja -malleilla, ja se toimii varsin hyvin. Vaimon Audi
A4 vaihdettiin juuri hiukan uudempaan A4:ään , ja sekä vaihdokin että uuden
auton hinnat tarkistettiin tällä mallilla. Sivumennen sanoen vaikuttaisi siltä,
että autokaupan kilpailun kiristymisen ja nettikaupan yleistymisen takia tinkimisen
vara hintapyynnöissä on erityisesti vaihtokaupassa pienentynyt edelleen. Käteiskaupassa
autoliike pystyy ilmeisesti edelleen alentamaan hintoja jossain määrin, koska vaihdokin
käsittelemiseen liittyvät kulut jäävät syntymättä.
Toki on huomattava, että
tässä esitetty tekninen regressiomallintaminen on luonteeltaan taaksepäin katsova
ja ajallisesti paikallinen. Analyysi ei ota huomioon trendejä tai rakenteellisia
muutoksia autojen tarjonnassa (esim. sähköautot, uusien sähköautojen hinnan
aleneminen) ja kysynnässä (esim. asenteet auton omistamiseen, jakamistalous). Näitä
analyysejä varten tarvitaan esimerkiksi kulutuskäyttäytymisen muutosta kuvaavia
rakenteellisia malleja.
Joillekin sähköautoille (esim.
Huyndai Kona, monet Teslat) on jo olemassa suuri käytettyjen autojen markkina. Nettiautossa
tämäntyyppistä analyysiä niille hankaloittava puute on, että akkukapasiteetti ei ole merkitty myynti-ilmoituksiin niin, että siihen voitaisiin kohdentaa
hakuja. Koska akkukapasiteetti vaikuttaa merkittävästi hintapyyntöihin, aineistoista
pitäisi käsin erotella eri akkukapasiteetit järkevän analyysin tekemiseksi.