De flesta AI-projekt startar på en laptop eller i en Jupyter notebook i en molnmiljö. Det är ett utmärkt sätt att utforska och validera idéer. Problemet uppstår när lösningen ska ut i produktion och man inser att notebook-arkitekturen inte håller under last, inte är övervakbar och inte kan skalas utan att kostnaderna exploderar.
Den första frågan att besvara är compute-strategi. GPU-accelererat compute är dyrt men nödvändigt för många inference-arbetsbelastningar — men inte alla. En del modeller körs utmärkt på CPU med rätt optimering (kvantisering, ONNX-runtime). Att betala för GPU-instanser dygnet runt för ett system som har traffic spikes ett par gånger om dagen är vanlig kostnadsslöseri vi ser hos kunder.
Observability är det område som oftast nedprioriteras. I traditionell mjukvara loggar ni API-anrop och fel. I AI-system behöver ni dessutom logga modell-inputs, outputs och konfidenspoäng — dels för felsökning, dels för att kunna detektera distribution shift när världens data förändras och er modell börjar prestera sämre utan att krascha.
Slutligen: planera för modellversionshantering från dag ett. Ni kommer att vilja rulla ut nya versioner utan driftstopp, kunna gå tillbaka till föregående version om något är fel, och A/B-testa varianter mot varandra. Det kräver infrastruktur — och det är mycket enklare att bygga rätt från start än att retrofita i efterhand.
