IT-chefer måste tänka på GPU-priser när AI-budgetar sätts för 2026

AI har blivit en lika viktig kostnad för företag som andra löpande utgifter. IT-chefer som förbereder sina AI-budgetar för 2026 måste ta hänsyn till kostnaderna för GPU:er, som är avgörande för att frigöra AI:s potential i moderna datacenter. Sedan Chat GPT lanserades har efterfrågan på generativa AI-verktyg ökat kraftigt. Denna utveckling har dock också medfört stigande kostnader och en begränsad tillgång på GPU:er och energi för att driva datacenter.

För närvarande pågår insatser för att sänka kostnaderna för GPU-användning och relaterade generativa AI-verktyg. Det handlar om att implementera mindre datacenter, effektiva faktureringsverktyg, programvarulösningar och alternativ hårdvara. Traditionell budgetering för AI är kraftigt beroende av priser, timmar och kostnader för GPU-instanser. Enligt Corey Quinn, chefsekonom på Duckbill, är GPU-instanser ”svindlande dyra”, med priser som ofta överstiger 30 dollar per timme för avancerade konfigurationer.

Quinn framhåller att för seriösa AI-arbetsbelastningar är GPU-kostnaderna ofta den största kostnadsposten. Detta har lett till att företag kämpar om reserverad kapacitet och spotinstanser, och att AI-fakturering genom molntjänster har blivit en komplicerad process. IT-chefer kan inte förlita sig på fasta datorresurser på grund av AI-arbetsbelastningarnas oförutsägbarhet. Stora molnleverantörer, eller hyperscalers, bidrar till osäkerheten genom att erbjuda hanterade GPU-tjänster, AI-krediter och rabatter för fastställd användning.

Quinn nämner även ”skuggkostnader”, såsom dataöverföring och lagring av träningsdata, som ofta förbises. Samtidigt har mindre molnleverantörer, kallade neoclouds, fått tillgång till fler GPU:er och erbjuder dessa till IT-användare. Företag som Coreweave, Lambda Labs och Together AI tar marknadsandelar genom att fokusera på GPU-arbetsbelastningar och ofta erbjuder priser som ligger 30 till 50 procent lägre än de stora aktörerna.

Laurent Gil, medgrundare av Cast AI, påpekar att det inte alltid är nödvändigt att använda de senaste GPU:erna från Nvidia eller AMD för AI-arbetsbelastningar. Äldre generationer av GPU:er kan vara tillräckliga för många applikationer, och IT-chefer bör vara medvetna om var de kan hitta dessa för att spara kostnader. Han nämner att AWS spotpriser för Nvidias A100 och H100 har minskat med 80 procent under det senaste året, även om detta inte gäller överallt.

Cast AI erbjuder programvaruverktyg och AI-agenter för att optimera arbetsbelastningar och flytta dem till mer kostnadseffektiva GPU:er hos olika molnleverantörer och i olika regioner. Gil förklarar att deras agenter arbetar kontinuerligt för att optimera resurser, vilket annars skulle kräva betydande mänsklig insats.

Det finns också ett behov av mer transparens kring prissättning och GPU-tillgång. Internet Backyard, ett startup-företag, möjliggör för datacenterleverantörer att erbjuda realtidspriser och fakturering för GPU-kapacitet. Enligt Mai Trinh, vd för Internet Backyard, kan användarna se GPU-priser i realtid och matcha dessa med sin faktiska energiförbrukning.

Startupen inriktar sig för närvarande på nya datacenter som behöver standardisera sin fakturering och betalningshantering. Trinh betonar vikten av att basera prissättningen på prestanda snarare än specifik GPU-användning, eftersom det är prestanda företagen egentligen betalar för.

Energi spelar också en central roll i prissättningen av GPU:er. Efterfrågan på GPU:er för AI-beräkningar belastar elnäten och driver upp elpriserna. Enligt en studie från McKinsey kan amerikanska datacenter stå för 12 procent av den totala energiförbrukningen år 2030. Samtidigt ökar elpriserna kraftigt, och flera intressenter har begärt ett moratorium för byggandet av nya datacenter.

Peng Zou, vd för Power Lattice, varnar för att energibehovet hos de största AI-leverantörerna inte är hållbart. Han menar att AI-kluster med hög densitet tvingar CIO:er att ompröva sin infrastruktur och ekonomi. Power Lattice arbetar med teknik för att göra moderna chip mer energieffektiva, vilket är avgörande i en tid där energieffektivitet är en stor utmaning.

Pålitligheten och tillgängligheten hos AI- och GPU-servrar är av stor vikt, och detta är en fråga som CIO:er tar på stort allvar.