Det kinesiska AI-företaget Deepseek har nyligen avslöjat en innovativ metod kallad Manifold-Constrained Hyper-Connections (mHC). Denna teknik syftar till att effektivisera träningen av stora språkmodeller, vilket också förväntas minska kostnaderna, enligt rapporter från South China Morning Post.
Den nya metoden är en vidareutveckling av konceptet Hyper-Connections, som först introducerades av Bytedance under 2024. mHC bygger vidare på den etablerade ResNet-arkitekturen från Microsoft Research Asia, vilket ger den en stark teknologisk grund.
Deepseek hävdar att mHC möjliggör en stabilare och mer skalbar träningsprocess utan att öka de beräkningsmässiga kostnaderna. Detta uppnås genom specifika optimeringar på infrastrukturnivå. Forskarna har genomfört tester med modeller som har upp till 27 miljarder parametrar och har sett positiva resultat.
Experter som South China Morning Post har intervjuat menar att den nya metoden kan vara en indikation på kommande framsteg från Deepseek. Tidigare har företaget lanserat sin uppskattade R1-modell i samband med det kinesiska nyåret 2025, vilket har satt press på konkurrenter inom AI-sektorn.
Med denna metod kan Deepseek potentiellt förändra landskapet för AI-träning och ge företag ett verktyg för att utveckla mer avancerade språkmodeller till en lägre kostnad.
