
Het Hon Hai Research Institute, een onderzoeksafdeling van Foxconn, heeft een nieuw taalmodel geïntroduceerd dat in vier weken werd getraind: FoxBrain. Het instituut heeft 120 Nvidia H100-gpu’s gebruikt en voortgebouwd op Llama 3.1 van Meta met 70 miljard parameters.
Het onderzoeksinstituut schrijft in een persbericht dat FoxBrain aanvankelijk werd ontwikkeld om binnen Foxconn zelf te gebruiken. Het taalmodel zou bijvoorbeeld ingezet worden om aan data-analyse te doen, beslissingen te helpen maken en om code te genereren. De onderzoekers hebben beslist om FoxBrain opensource te maken en dat blijft het ook in de toekomst.
De onderzoekers hebben een aangepaste trainingsmethode gebruikt waarbij de focus lag op efficiëntie in plaats van op enkel computerkracht. "We hebben zorgvuldig ontworpen trainingsmethodes ontwikkeld en de nodige optimalisaties doorgevoerd", zegt dr. Yung-Hui Li, directeur van het onderzoekscentrum.
Dankzij deze aanpak werd het taalmodel in vier weken tijd getraind met 120 Nvidia H100-gpu’s die met elkaar verbonden waren via Nvidia Quantum-2 InfiniBand. De totale rekenkracht die daarvoor nodig was staat volgens de onderzoekers gelijk aan 2688 gpu-dagen. FoxBrain zou in vergelijking met het gebruikte Llama 3.
1-taalmodel veel betere resultaten halen in wiskunde. Het taalmodel zou ook het beste hedendaagse taalmodel zijn dat werkt met de traditionele Chinese Taal. Het model zou in sommige opzichten nog achterlopen op het DeepSeek R3-taalmodel, maar toch zeer goede resultaten halen.
Het Hon Hai Research Institute heeft tijdens het trainingsproces ondersteuning van Nvidia gekregen. Foxconn zal op 20 maart meer details over FoxBrain delen..