OpenAI beschuldigt Chinese AI-startup DeepSeek van datadiefstal, iets waar Amerikanen zelf ook van zijn beschuldigd

De maker van ChatGPT zou duidelijke bewijzen hebben dat DeepSeek een techniek genaamd 'distillation' heeft toegepast.

featured-image

De Amerikaanse startup OpenAI claimt dat het bewijs heeft dat zijn Chinese concurrent DeepSeek data heeft gestolen om zijn eigen AI-model mee te trainen. De maker van ChatGPT zegt dat DeepSeek hiermee de gebruiksvoorwaarden heeft overtreden. OpenAI is in het verleden zelf meerdere keren betrapt op het overtreden van gebruiksvoorwaarden bij het verzamelen van trainingsdata.

Nadat het Chinese DeepSeek afgelopen week de AI-wereld opschudde en ervoor zorgde dat AI-chipmaker Nvidia afgelopen maandag in een dag bijna 600 miljard dollar aan beurswaarde verloor, zijn de AI-bedrijven uit Silicon Valley nu naarstig op zoek naar manieren om terug te slaan. Eerder werd bekend dat Microsoft onderzocht of DeepSeek data van OpenAI heeft gebruikt bij de ontwikkeling van zijn AI-modellen. Volgens de Britse zakenkrant zou OpenAI al iets verder zijn en bewijs hebben dat de Chinese AI-ontwikkelaar inderdaad onrechtmatig gebruik heeft gemaakt van data die uit ChatGPT zijn gehaald.



Een bron die FT sprak, claimt dat OpenAI duidelijke bewijzen heeft dat DeepSeek een techniek genaamd ‘ ‘ heeft toegepast. Hiermee wordt data verzameld uit de output van het grotere model, in dit geval ChatGPT. Vervolgens wordt daarmee een kleiner en vaak efficiënter model getraind, in dit geval een van de modellen van DeepSeek.

Het idee hierbij is dat het kleinere model een kortere, simpelere route kan vinden naar dezelfde antwoorden op een bepaalde vraag, omdat de antwoorden al beschikbaar zijn. Hiermee kan het kleinere model met minder rekenkracht op dezelfde antwoorden uitkomen en leren hoe het dit moet doen. Maar dit betekent overigens niet dat het kleinere model hierdoor hetzelfde presteert als het grotere model waarop het is getraind.

Doorgaans betekent de winst aan efficiëntie een afname aan accuraatheid. Iets wat zich vooral bij minder vaak voorkomende vragen zal voorkomen. OpenAI zet aanval in op datagebruik van DeepSeek Hoewel een veel voorkomende techniek is binnen de AI-wereld, heeft OpenAI zich hiertegen ingedekt in de gebruikersovereenkomst.

Mocht DeepSeek zich hier niet aan gehouden hebben, dan is het in zekere zin schuldig aan diefstal van intellectuele eigendommen van OpenAI. Natuurlijk is het opmerkelijke aan dit verhaal dat OpenAI een beschuldiging van diefstal uit, terwijl het zelf al jaren data van derden van het internet haalt om zijn modellen te trainen en die handelswijze als legitiem presenteert. Zo is de AI-maker bijvoorbeeld al maanden verwikkeld in dat OpenAI ervan beschuldigt meerdere artikelen onrechtmatig gebruikt te hebben in de trainingsdata van AI-modellen.

LEES OOK:.