Co je overfitting?
Overfitting je chyba modelování, k níž dochází, když je funkce příliš kompatibilní s omezenou sadou datových bodů.
Overfitting obecně má formu vytvoření příliš složitého modelu, který vysvětluje idiosynkrázy ve studovaných datech.
Overfitting ukazuje křivku s vyššími a nižšími body, zatímco správně nastavený model vykazuje hladkou křivku nebo lineární regresi.
Pokus o to, aby model byl příliš kompatibilní s nepatrně nepřesnými údaji, může model nakazit podstatnými chybami a snížit jeho prediktivní výkon.
Potenciál Overfittingu závisí nejen na počtu parametrů a datech, ale také na přizpůsobivosti modelové struktury s datovými údaji a na velikosti modelové chyby ve srovnání s očekávanou úrovní šumu nebo chyby v datech.
[click_to_tweet tweet=“Finanční odborníci si musí být vždy vědomi nebezpečí Overfittingu na základě omezených údajů.“ quote=“Finanční odborníci si musí být vždy vědomi nebezpečí Overfittingu na základě omezených údajů.“]
Například běžným problémem je použití počítačových algoritmů pro vyhledávání rozsáhlých databází historických tržních dat za účelem nalezení patternů.
Vzhledem k dostatečné studii je často možné vyvíjet komplikované teoremy, které pravděpodobně předvídají věci, jako je návrat na burze cenných papírů s určitou přesností.
Výsledkem Overfittingu je strategie, která funguje pouze na historických datech a jakmile ji nasadíte na reálný účet, zisky nenaděluje, ale naopak přináší ztráty.
Regrese
V regresní analýze dochází k častému Overfittingu.
Jako extrémní příklad, pokud existují proměnné v lineární regresi s daty, nastavená čára může přesáhnout přes každý bod.
Studie v roce 2015 naznačila, že dvě pozorování na nezávislou proměnnou jsou dostatečné pro lineární regresi.
Pro logistickou regresi nebo pro modely s proporcionálním nebezpečím Cox existuje celá řada pravidel.
V procesu výběru regresního modelu může být střední kvadratická chyba náhodné regresní funkce rozdělena na náhodný šum, aproximační zkreslení a odchylku v odhadu regresní funkce.
Vyloučení odchylky od odchylek se často používá k překonání modelů Overfittingu.
Underfitting
Statistický nebo strojový model učící algoritmus má údajně Underfitting, když nemůže zachytit podkladový trend dat.
Underfitting zničí přesnost modelu strojového učení.
Jeho výskyt jednoduše znamená, že model nebo algoritmus do údajů dostatečně nezapadá.
Obvykle se to stane, když budeme mít k dispozici méně dat, abychom vytvořili přesný model, a také, když se pokusíme sestavit lineární model s nelineárními daty.
V takových případech jsou pravidla modelu strojového učení příliš snadná a flexibilní, aby byla použita na takových minimálních datech, a proto model pravděpodobně udělá spoustu chybných předpovědí.
Je možné vyloučit Underfitting pomocí většího počtu dat a také snížením funkcí podle výběru funkcí.
V následujícím článku naší unikátní vzdělávací sérii o Trading terminologii se můžete těšit na téma: Price Action analýza.
Věříme, že Vám to pomohlo.
Tým TradeSmart.cz