Jak generovat kvalitní školicí data pro modely ML

Generování kvalitních školicích dat pro modely ML

Při trénování dat pro modely strojového učení (ML) musíte brát v úvahu kvalitu více než kvantitu. Ve skutečnosti velké množství nekvalitních tréninkových dat může poškodit výkon vašeho modelu. Na druhou stranu malé množství kvalitních tréninkových dat může vést k mnohem lepším výsledkům.

Co jsou kvalitní tréninková data?

Kvalitní tréninková data je soubor přesných dat reprezentujících skutečné podmínky, ve kterých bude váš model používán, bez jakýchkoli zkreslení a správně označený. (1)

Modely ML jsou jen tak dobré, jak dobrá jsou data, na kterých jsou trénovány. Pokud jsou vaše tréninková data nekvalitní, váš model bude nekvalitní. Kvalitní tréninková data jsou nezbytná pro vytváření přesných a spolehlivých modelů strojového učení.

Abyste si zajistili generování kvalitních tréninkových dat, zde je osm užitečných tipů:

1. Vytvořte reprezentativní data

Jednou z nejdůležitějších věcí, kterou je třeba při vytváření trénovacích dat zvážit, je, zda jsou reprezentativní pro reálná data, na kterých bude váš model použit, či nikoli. Pokud vaše tréninková data nejsou reprezentativní, váš model bude pravděpodobně fungovat špatně v reálném světě.

Chcete-li vytvořit reprezentativní trénovací data, začněte tím, že pochopíte, na jakých typech dat bude váš model použit. Pokud například vytváříte model ML pro klasifikaci obrázků zvířat, musíte se ujistit, že vaše tréninková data obsahují obrázky všech různých druhů zvířat, které se váš model bude muset naučit identifikovat.

2. Ujistěte se, že jsou vaše data správně označena

Další kritickou věcí, kterou je třeba při vytváření trénovacích dat zvážit, je, zda jsou data označena správně. Nesprávné štítky mohou vést ke špatnému výkonu vašeho modelu ML.

Chcete-li správně označit data, musíte porozumět úloze, na kterou je váš model trénován. Nejlepší je také použít a platforma pro označování dat nebo nástroj, který vám pomůže přesně označit data. Tímto způsobem se můžete vyhnout jakékoli lidské chybě.

3. Ujistěte se, že vaše data nejsou zkreslená

Významným problémem v ML může být zkreslení. Pokud jsou vaše tréninková data zkreslená, váš model je pravděpodobně nepřesný. V ML existují různé typy zkreslení, včetně vyloučení, vzorkování, pozorovatele, měření, odvolání, asociace a rasové zkreslení, což vede k nepřesným výsledkům. (2)

Abyste se vyhnuli zkreslení tréninkových dat, musíte si být vědomi různých typů zkreslení a toho, jak mohou ovlivnit vaše data. Při vytváření tréninkové sady musíte také vybrat náhodný vzorek dat.

4. Ujistěte se, že vaše data neobsahují šum

Šum (syntaktický) je dalším běžným problémem v ML. V ML existuje mnoho různých typů šumu, ale některé z nejběžnějších jsou odlehlé hodnoty, chybějící hodnoty a nesprávné hodnoty. (3)

Abyste se vyhnuli šumu v tréninkových datech, musíte si být vědomi různých typů šumu a toho, jak mohou ovlivnit vaše data. Před použitím k trénování modelu také musíte svá data vyčistit.

5. Vyrovnejte svá data

Pokud jsou vaše tréninková data nevyvážená, váš model bude pravděpodobně nepřesný. Nevyvážená datová sada je taková, kde třídy nejsou rovnoměrně zastoupeny. Pokud například trénujete model ML pro klasifikaci obrázků zvířat a vaše datová sada obsahuje pouze obrázky psů, váš model bude pravděpodobně méně přesný, než kdyby vaše datová sada obsahovala vyváženou kombinaci obrázků zvířat.

K překonání problémů při trénování nevyvážené datové sady můžete použít metody, jako je upweighting a downsampling. Upweighting je, když zvýšíte váhu menšinové třídy, a downsampling je, když snížíte velikost majoritní třídy.

K trénování nevyvážené datové sady lze použít upweighting i downsampling. Při použití těchto metod si však musíte dávat pozor, abyste svá data nepřeplnili.

6. Rozdělte svá data do tréninkových a testovacích sad

Jednou credatový soubor, je důležité to rozdělit na tréninkové a testovací sady. Tréninkovou sadu použijete k trénování svého modelu, zatímco testovací sada je pro vás k vyhodnocení výkonu vašeho modelu.

Je nezbytné zajistit, aby trénovací a testovací sady reprezentovaly data, na kterých bude váš model použit. Pokud například vytváříte model ML pro klasifikaci obrázků zvířat, budete si muset zajistit své tréninkové a testovací sady, které obsahují obrázky všech různých druhů zvířat, které váš model bude muset být schopen identifikovat.

7. Předzpracujte svá data

Předzpracování je zásadním krokem při přípravě dat pro strojové učení. Předběžné zpracování může pomoci zlepšit výkon vašeho modelu ML tím, že data budou přístupnější pro učení.

Existuje mnoho různých typů předběžného zpracování, ale některé z nejběžnějších jsou škálování funkcí, normalizace a kódování na jedno použití, které lze všechny použít ke zlepšení výkonu vašeho modelu strojového učení. (4)

8. Rozšiřte svá data

Nakonec můžete také chtít rozšířit svá data. Rozšíření dat je technika používaná k umělému zvětšení velikosti vaší datové sady vytvářením nových, syntetických datových bodů ze stávajících datových bodů.

Rozšíření dat lze použít ke zlepšení výkonu vašeho modelu ML tím, že bude odolnější vůči nadměrnému vybavení. Existuje mnoho různých způsobů, jak data rozšířit, ale nejběžnějšími jsou přidávání šumu, náhodné otáčení nebo překlápění obrázků a náhodné ořezávání obrázků. (5)

AI Digital

Závěrečné myšlenky

Trénink modelu strojového učení může být časově náročný a náročný proces. Dodržováním tipů v tomto článku si však můžete tento proces usnadnit a zlepšit výkon vašeho modelu.

Reference:

(1) „Úvodní příručka ke kvalitním školicím datům pro strojové učení“, Zdroj: https://www.v7labs.com/blog/quality-training-data-for-machine-learning-guide

(2) „Sedm typů zkreslení dat ve strojovém učení,“ Zdroj: https://www.telusinternational.com/articles/7-types-of-data-bias-in-machine-learning

(3) „Jak používat strojové učení k oddělení signálu od šumu“, Zdroj: HTTps://www.skan.ai/process-mining-insights/how-to-use-machine-learning-to-separate-the-signal-from-the-noise#:~:text=The%20errors%20are%20known%20as,of%20noise%20can%20impact%20datasets.

(4) „Předběžné zpracování pomocí sklearn: úplný a komplexní průvodce,“ Zdroj: https://towardsdatascience.com/preprocessing-with-sklearn-a-complete-and-comprehensive-guide-670cb98fcfb9

(5) „Průzkum o rozšíření obrazových dat pro hluboké učení“, Zdroj: https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0