Baby's leren praten door andere mensen te horen - meestal hun ouders - die herhaaldelijk geluiden produceren. Langzaam, door herhaling en het ontdekken van patronen, beginnen baby's die geluiden te verbinden met betekenis. Door veel te oefenen, slagen ze er uiteindelijk in om soortgelijke geluiden te produceren die mensen om hen heen kunnen begrijpen.
machine learning algoritmen werken grotendeels op dezelfde manier, maar in plaats van een paar ouders te hebben om van te kopiëren, gebruiken ze gegevens die nauwgezet zijn gecategoriseerd door duizenden mensen die handmatig de gegevens en vertel de machine wat het betekent.
Dit vervelende en tijdrovende proces is echter niet het enige probleem met gegevens uit de echte wereld die worden gebruikt om algoritmen voor machine learning te trainen.
Neem fraudedetectie bij verzekeringsclaims. Als een algoritme een geval van fraude nauwkeurig wil onderscheiden van legitieme claims, moet het beide zien. Duizenden en duizenden van beide. En omdat AI systemen worden vaak geleverd door derden - dus niet beheerd door de verzekeringsmaatschappij zelf - die derden moeten toegang krijgen tot al die gevoelige gegevens. Je snapt waar het heen gaat, want hetzelfde geldt voor zorgdossiers en financiële gegevens.
Meer esoterisch maar net zo zorgwekkend zijn alle algoritmen die zijn getraind op tekst, afbeeldingen en video's. Behalve vragen over auteursrecht, veel makers hebben hun onenigheid geuit terwijl hun werk in een dataset wordt gezogen om te trainen een machine die uiteindelijk (een deel van) hun werk kan overnemen. En dat is in de veronderstelling dat hun creaties niet racistisch of op andere manieren problematisch zijn – wat op zijn beurt tot problematische resultaten zou kunnen leiden.
En wat als er simpelweg niet genoeg gegevens beschikbaar zijn om een AI op alle eventualiteiten te trainen? In een RAND Corporation-rapport 2016, berekenden de auteurs hoeveel mijlen, "een vloot van 100 autonome voertuigen die 24 uur per dag, 365 dagen per jaar rijden met een gemiddelde snelheid van 25 mijl per uur", zou moeten rijden om aan te tonen dat hun uitvalpercentage (resulterend in doden of gewonden), was betrouwbaar lager dan die van mensen. Hun antwoord? 500 jaar en 11 miljard mijl.
Je hoeft geen superbrein genie te zijn om erachter te komen dat het huidige proces niet ideaal is. Dus, wat kunnen we doen? Hoe kunnen we voldoende, privacy respecterende, niet-problematische, alle eventualiteiten dekkende, nauwkeurig gelabelde data creëren? Je raadt het al: meer AI.
Valse gegevens kunnen AI's helpen om met echte gegevens om te gaan
Zelfs vóór het RAND-rapport was het voor bedrijven die aan autonoom rijden werkten volkomen duidelijk dat ze hopeloos onvoldoende waren toegerust om voldoende gegevens te verzamelen om op betrouwbare wijze algoritmen te trainen om onder alle omstandigheden of omstandigheden veilig te rijden.
Neem Waymo, het autonoom rijdende bedrijf van Alphabet. In plaats van alleen te vertrouwen op hun echte voertuigen, creëerden ze een volledig gesimuleerde wereld, waarin gesimuleerde auto's met gesimuleerde sensoren eindeloos konden rondrijden en echte gegevens verzamelden op hun gesimuleerde manier. Volgens het bedrijf, tegen 2020 had het gegevens verzameld over 15 miljard mijl gesimuleerd rijden - vergeleken met een miezerige 20 miljoen mijl in de echte wereld.
In het spraakgebruik van AI worden dit synthetische gegevens genoemd, of "gegevens die van toepassing zijn op een bepaalde situatie die niet worden verkregen door directe meting", als u technisch wilt worden. Of minder technisch: AI's produceren nepgegevens, zodat andere AI's in een sneller tempo over de echte wereld kunnen leren.
Een voorbeeld is Taak2Sim, een AI-model gebouwd door het MIT-IBM Watson AI Lab dat synthetische gegevens creëert voor trainingsclassificatoren. In plaats van de classifier te leren één object tegelijk te herkennen, maakt het model afbeeldingen die kunnen worden gebruikt om meerdere taken aan te leren. De schaalbaarheid van dit type model maakt het verzamelen van gegevens minder tijdrovend en goedkoper voor bedrijven die veel gegevens nodig hebben.
Hieraan toevoegend, Rogerio Feris, en IBM onderzoeker die co-auteur was van het artikel over Task2Sim zei:
Het mooie van synthetische afbeeldingen is dat je hun parameters kunt bepalen: de achtergrond, belichting en de manier waarop objecten worden geposeerd.
Dankzij alle hierboven genoemde zorgen is de productie van allerlei soorten synthetische gegevens de afgelopen jaren explosief gestegen, met tientallen startups in het veld bloeien en het ophalen van honderden miljoenen dollars aan investeringen.
De gegenereerde synthetische gegevens variëren van 'menselijke gegevens' zoals gezondheids- of financiële gegevens tot gesynthetiseerde afbeeldingen van een breed scala aan menselijke gezichten - tot meer abstracte gegevenssets zoals genomische gegevens, die de structuur van DNA nabootsen.
Hoe u echt nepgegevens kunt maken
Er zijn een aantal manieren waarop deze synthetische gegevensgeneratie plaatsvindt, waarvan de meest voorkomende en goed ingeburgerde GAN of generatieve vijandige netwerken wordt genoemd.
In een GAN worden twee AI's tegen elkaar opgezet. De ene AI produceert een synthetische dataset, terwijl de andere probeert vast te stellen of de gegenereerde data echt is. De feedback van de laatste keert terug naar de voormalige 'training' om nauwkeuriger te worden in het produceren van overtuigende nepgegevens. Je hebt waarschijnlijk een van de vele gezien deze-X-bestaat niet websites - variërend van mensen tot katten tot gebouwen - die hun afbeeldingen genereren op basis van GAN's.
De laatste tijd winnen meer methoden voor het produceren van synthetische gegevens terrein. De eerste staan bekend als diffusiemodellen, waarin AI's worden getraind om bepaalde soorten gegevens te reconstrueren, terwijl steeds meer ruis - gegevens die de trainingsgegevens geleidelijk aantasten - wordt toegevoegd aan de gegevens uit de echte wereld. Uiteindelijk kan de AI willekeurige gegevens krijgen, die het terugwerkt in een formaat waarop het oorspronkelijk is getraind.
Nepgegevens zijn als echte gegevens zonder, nou ja, de echtheid
Synthetische gegevens, hoe ze ook worden geproduceerd, bieden een aantal zeer concrete voordelen ten opzichte van het gebruik van gegevens uit de echte wereld. Allereerst is het gemakkelijker om er veel meer van te verzamelen, omdat je niet afhankelijk bent van mensen die het maken. Ten tweede worden de synthetische gegevens perfect gelabeld, zodat u niet hoeft te vertrouwen op arbeidsintensieve datacenters om gegevens (soms onjuist) te labelen. Ten derde kan het de privacy en het auteursrecht beschermen, omdat de gegevens, nou ja, synthetisch zijn. En tot slot, en misschien wel het belangrijkste, kan het vooringenomen uitkomsten verminderen.
Nu AI een steeds grotere rol speelt in technologie en samenleving, zijn de verwachtingen rond synthetische data behoorlijk optimistisch. Gartner heeft dat beroemd geschat: 60% van de trainingsgegevens zullen in 2024 synthetische gegevens zijn. Marktanalist Cognilytica waardeerde de markt van het genereren van synthetische gegevens op $ 110 miljoen in 2021, en groeiend tot $ 1.15 miljard in 2027.
Data wordt wel het meest waardevolle goed in het digitale tijdperk genoemd. Grote technologie heeft op bergen gebruikersgegevens gezeten die het een voordeel gaven ten opzichte van kleinere kanshebbers in de AI-ruimte. Synthetische gegevens kunnen kleinere spelers de mogelijkheid geven om de rollen om te draaien.
Zoals je misschien al vermoedt, is de grote vraag met betrekking tot synthetische gegevens de zogenaamde getrouwheid - of hoe nauw deze overeenkomt met gegevens uit de echte wereld. De jury is er nog niet over uit, maar onderzoek lijkt te laten zien dat het combineren van synthetische gegevens met echte gegevens statistisch verantwoorde resultaten oplevert. Dit jaar toonden onderzoekers van MIT en het MIT-IBM AI Watson Lab aan dat een beeldclassificator die vooraf was getraind op synthetische gegevens in combinatie met echte gegevens, uitgevoerd, evenals een beeldclassificatie die uitsluitend is getraind op echte gegevens.
Al met al lijken synthetische en echte stoplichten groen voor de nabije toekomst dominantie van synthetische data bij het trainen van privacyvriendelijke en veiligere AI-modellen, en daarmee is een mogelijke toekomst van slimmere AI's voor ons net over de horizon .
[...] Technocracy.news [...]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Training AI: nepgegevens zijn goedkoper dan echte gegevens […]