
Zašto evaluacija modela mijenja ishod vašeg sustava klađenja
Kao osoba koja razvija ili koristi model za predviđanje rezultata sportskih događaja, morate razumjeti da sama točnost nije jedini pokazatelj vrijednosti modela. Evaluacija služi da provjeri koliko su vaša predviđanja korisna u stvarnom klađenju: generiraju li longoročno profit (edge), jesu li kalibrirana kao vjerojatnosti i koliko su robusna na promjene tržišta. Bez pravilne evaluacije možete biti zavarani visokim scoreovima na trening skupu koji se ne prenose na stvarne oklade.
Koje rizike smanjuje dobra evaluacija
- Prekomjerno prilagođavanje (overfitting) — model koji uči šum umjesto signala.
- Lookahead bias — korištenje informacija koje u trenutku predviđanja nisu dostupne.
- Pristranost u podacima — sezonske varijacije, promjene formata lige ili nedostaci u izvorima.
- Neadekvatna procjena rizika — model može biti točan, ali s previše varijance u povratima.
Prvi koraci: postavljanje metrike i prikupljanje podataka
Prije nego što počnete mjeriti performanse, jasno definirajte cilj vašeg sustava. Pitanja koja trebate postaviti su: želite li maksimizirati očekivanu vrijednost oklada (EV), smanjiti varijansu ili optimizirati stopu dobitaka? Od odgovora ovisi izbor metrike i dizajn testova.
Koje metrike odmah razmotriti
- Log loss / cross-entropy — korisno kad predviđate vjerojatnosti; kažnjava previše samouvjerene, netočne prognoze.
- Brier score — mjeri kvadratnu pogrešku između prediktirane vjerojatnosti i ishoda; intuitivan za kalibraciju.
- ROI i očekivana vrijednost (EV) — koliko biste u prosjeku zaradili po uloženom novcu; ključ za komercijalnu izvedivost.
- Sharpe ili sortino omjer — za procjenu rizika i stabilnosti povrata preko vremena.
- AUC / ROC — ako svrstavate ishode (npr. pobjeda/neriješeno/poraz) i radite s neravnotežom klasa.
Pravila prikupljanja i pripreme podataka
Prikupljate povijesne rezultate, tržišne kvote, podatke o sastavima i kontekstualne varijable. Obvezno:
- Koristite vremenski razdijeljene skupove (train/validation/test) kako biste izbjegli prodiranje informacija iz budućnosti.
- Vodite računa o konzistentnosti kvota (ponovno izračunajte ROI koristeći kvote koje su bile dostupne prije početka događaja).
- Uklonite ili označite nedostajuće i netočne zapise; impute samo s informacijama dostupnim u trenutku predviđanja.
- Razmislite o rolling window backtestingu umjesto jednokratnog holdout-a za robustnije procjene u dinamičnim sportskim ligama.
U sljedećem dijelu analizirat ćemo kako konkretno izračunati svaku od spomenutih mjera, kako vizualizirati kalibraciju vašeg modela i koje pragove koristiš pri donošenju odluka o stavljanju modela u produkciju.

Kako izračunati ključne metrike: formule i praktični koraci
Prvo, konkretne formule vam omogućavaju transparentnost i reproduktivnost evaluacije. Navedene ovde možete izračunati ručno za manji skup podataka ili automatizovati u Pythonu/R za backtestove.
– Log loss (cross‑entropy): za binarne ishode (y ∈ {0,1}) i predviđene verovatnoće p:
LogLoss = −(1/N) Σ [ y_i ln(p_i) + (1−y_i) * ln(1−p_i) ].
Kažnjava preterano samouverena i netačna predviđanja; niža vrednost je bolja.
– Brier score:
Brier = (1/N) * Σ (p_i − y_i)^2.
Intuitivan kvadratni gubitak koji meri i kalibraciju i diskriminaciju.
– Očekivana vrednost po uloženom (EV) i ROI:
Za decimalne kvote (odds):
EV_per_unit = p * odds − 1.
ROI = (total_return − total_staked) / total_staked.
Računajte EV koristeći kvote koje su bile dostupne pre događaja (da izbegnete lookahead).
– Sharpe (ili Sortino) za seriju povrata:
Sharpe = mean(r_i − r_f) / std(r_i) * sqrt(T),
gde su r_i povrati po periodu (npr. dnevni), r_f bezrizična stopa, T faktor skaliranja (npr. 252 za godišnji).
Za klađenje često koristite povrate po okladi i godišnju skalaciju za poređenje.
– AUC/ROC:
Korisno ako tretirate klasifikaciju (pobjeda/poraz). AUC prikazuje sposobnost modela da rangira događaje (1 = savršeno).
Uvijek računajte metrike na hold‑out testu i po mogućnosti na rolling prozorima, jer jedinstveni holdout može sakriti sezonske promene.
Vizualizacija i kalibracija: kako proveriti da li su verovatnoće realne
Numeričke metrike govore deo priče; vizualizacije otkrivaju sistematske greške.
– Reliability diagram / calibration curve:
Podelite predviđene verovatnoće u binove (npr. decili). Za svaki bin izračunajte srednju pred. verovatnoću i empirijsku frekvenciju ishoda. Graf koji povezuje ta dva pokazuje gde model precenjuje ili potcenjuje rizik.
– ECE i MCE:
ECE (expected calibration error) = Σ (|bin_size|/N) * |acc_bin − pred_bin|.
MCE = max_bin |acc_bin − pred_bin|.
Male vrednosti znače bolju kalibraciju.
– Ispravke kalibracije:
– Platt scaling (sigmoid) — trenira logističku regresiju na predviđenim logitima.
– Isotonic regression — neparametarski pristup, bolji za veće količine podataka.
Obavezno trenirajte kalibrator na posebnom skupu (kros‑validacija) da izbegnete overfitting.
– Detalji:
Prikažite i distribuciju predviđenih verovatnoća (histogram) pored reliability diagrama. Ako su predviđanja koncentrisana oko 0.2–0.4, nikakva “savršena” kalibracija u visokom rasponu neće biti moguća zbog nedostatka primera.
Pravila donošenja odluka: pragovi, upravljanje ulogom i testiranje strategije
Imati dobar model nije isto što i zarađivati — treba jasno pravilo kada se kladiti i koliko.
– Prag za edge:
Izračunajte edge = p_model − implied_p (1/odds). Postavite prag (npr. >0.02) isključivo na osnovu out‑of‑sample performansi i realističnih troškova transakcija.
– Ulog: Kelly i varijante:
Full Kelly: f = (bp − q)/b, gde je b = odds − 1, q = 1−p.
Fractional Kelly (npr. 1/4 Kelly) smanjuje varijansu i rizik krahiranja. Alternativa: flat betting (fiksni ulog u % kapitala).
– Testiranje pragova i uloga:
Ne optimizujte prag/strategiju na celom istorijskom skupu. Koristite walk‑forward testing i bootstrap za procenu pouzdanosti. Bootstrapanje oklada (resample s ponavljanjem) daje interval poverenja za ROI/EV i omogućava procenu statističke značajnosti (npr. procenat bootstrap uzoraka s ROI>0).
– Upozorenja protiv multiple testinga:
Ako tražite najbolji prag kroz mnogo varijacija, primenite korekcije (npr. kontrola FDR) da ne zaključite lažno pozitivne rezultate.
U sledećem delu preći ćemo na praktičan primer backtesta i checklistu pre puštanja modela u produkciju.

Završne napomene i sledeći koraci
Evaluacija modela nije jednokratan zadatak već kontinuirani proces: postavite robustan backtest, automatizujte metrike i vizualizacije, i uveste monitoring performansi uživo. Pre nego što pređete na stvarni kapital, isprobajte različite pragove i strategije upravljanja ulogom na walk‑forward testovima i bootstrapu — to smanjuje rizik neprijatnih iznenađenja.
Osim tehničkih koraka, uvedite i proceduralne mere: verzionisanje modela i podataka, zapisnik promena (model changelog) i jasna pravila za povlačenje modela ako performanse izvan očekivanja. Za pitanja upravljanja ulogom i stabilnosti bankrolla, korisna je dopunska literatura — na primer, Više o Kelly kriteriju.
- Automatizujte periodične kalibracije i recalibrate kada tržište promeni svoj karakter.
- Koristite rolling window backtestove pre svake veće promene modela ili strategije.
- Primenite konzervativne upravljačke pristupe (fractional Kelly, limits) pre nego što povećate izloženost.
Ostanite skeptični prema visokim istorijskim povratima bez statističke potpore i gledajte evaluaciju kao alat za donošenje odluka, a ne kao potvrdu već donetih očekivanja.
Frequently Asked Questions
Kako da prepoznam da je model overfitovan?
Tipični znaci su znatno bolje metrike na trening skupu nego na hold‑outu, velika razlika između in‑sample i out‑of‑sample ROI, i loša stabilnost performansi pri malim promenama podataka. Korišćenje cross‑validationa, rolling testova i jednostavno smanjenje kompleksnosti modela pomažu u otkrivanju i smanjenju overfittinga.
Koju metriku treba da koristim ako hoću profit, a ne samo dobre prognoze?
Ako je cilj profit, fokus bi trebao biti na očekivanoj vrednosti (EV) i ROI, uz procenu varijanse (Sharpe/Sortino). Kalibracione metrike (Brier, log loss) ostaju važne jer netačne verovatnoće vode ka pogrešnim edge izračunima, ali konačna odluka o uvođenju modela treba biti zasnovana na out‑of‑sample EV/ROI i pouzdanosti rezultata.
Kakav prag edge-a ili uloga da postavim pre nego što počnem sa stvarnim ulozima?
Ne postoji univerzalan prag; počnite konzervativno. Često korišćena praksa je prag edge-a >= 0.02 i fractional Kelly (npr. 1/4 Kelly) za uloge. Definitivan izbor treba izvesti iz walk‑forward testova: postavite prag i uloge koji daju pozitivne i stabilne out‑of‑sample rezultate uz prihvatljiv rizik krahiranja.

