Mojgans AI-spaningar mars 2025

Det har varit en händelserik månad i AI-världen – med lanseringar som sätter en ny nivå för vad vi kan förvänta oss av språkmodeller och kodassistenter. I den här artikeln går vi igenom vi några av de mest spännande nyheterna, från Claude Code till ChatGPT-4.5 och mycket mer. Häng med på en snabb genomgång av vad som händer just nu – och vad det kan betyda för dig.

Vi börjar med Anthropic. De har lanserat version 3.7 av Claude Sonnet och Claude Code. Claude Sonnet är en av deras mest precisa modeller hittills och konkurrerar nu med OpenAI:s motsvarigheter. Den är särskilt stark inom kodning och logik. Claude Code är särskilt framtagen för programmering och kan användas direkt i terminalen. Den kan skapa nya filer, skriva kod och utföra kommandon. De har även introducerat ‘Extended Thinking’ för Pro-versionen, vilket innebär att modellen kan tänka mer när den svarar på frågor, särskilt inom kodning och logik.
Claude 3.7 Sonnet är nu tillgänglig i alla Claude-planer – inklusive Gratis, Pro, Team och Enterprise – samt via Anthropic API, Amazon Bedrock och Google Cloud’s Vertex AI. Extended thinking-läget är tillgängligt överallt förutom i den kostnadsfria versionen.

I både standard- och extended-läge har Claude 3.7 Sonnet samma pris som sina föregångare: $3 per miljon input tokens och $15 per miljon output tokens – vilket även inkluderar tokens för tänkande.

Claude – en ny standard för intelligens.

Opus, deras mest intelligenta modell, överträffar sina konkurrenter på de flesta vanliga utvärderingsstandarder för AI-system – inklusive expertkunskap på kandidatnivå (MMLU), resonemang på magisternivå (GPQA), grundläggande matematik (GSM8K), och fler. Den visar nästan mänsklig nivå när det gäller förståelse och flyt i komplexa uppgifter, och leder utvecklingen inom generell intelligens.

Alla modeller i Claude 3-serien har förbättrade förmågor inom analys och prognoser, nyanserad innehållsskapande, generering av kod samt kommunikation på andra språk än engelska – till exempel spanska, japanska och franska.

Claude 3.7 Sonnet: Banbrytande resonemang i praktiken

De har utvecklat Claude 3.7 Sonnet med en annorlunda filosofi jämfört med andra resonemangsmodeller på marknaden. Precis som människor använder en och samma hjärna för både snabba svar och djup reflektion, tror de att resonemang bör vara en integrerad funktion i avancerade modeller – inte en separat modell.

Claude 3.7 Sonnet återspeglar denna filosofi på flera sätt:

1. En enad modell: Den fungerar både som en traditionell språkmodell och en resonemangsmodell – användaren kan själv välja om den ska ge snabba svar eller tänka längre innan den svarar. I standardläge är den en uppgraderad version av Claude 3.5 Sonnet. I extended-läge reflekterar den först och presterar bättre i matte, fysik, instruktioner, kodning m.m.

2. Styr tänkandet via API: Genom API:t kan du själv styra hur mycket modellen får tänka – upp till 128 000 tokens. Det gör det möjligt att prioritera snabbhet eller kvalitet.

3. Fokus på verkliga användningar: Istället för tävlingsproblem inom matte och datavetenskap har de fokuserat mer på uppgifter som återspeglar hur företag faktiskt använder LLM:er.

Testresultat

Tidiga tester visade att Claude leder inom kodning.

· Cursor: Claude är bäst i verkliga koduppgifter, med stora förbättringar inom avancerad verktygsanvändning och komplex kodbas.

· Cognition: Claude är överlägsen i att planera kodändringar och hantera fullstack-uppdateringar.

· Vercel: Claude visar extrem precision i komplexa agentflöden.

· Replit: Har använt Claude för att bygga avancerade appar från grunden.

· Canva: Claude producerar färdig kod med god designkänsla och få fel.

OpenAI:s GPT-4.5 – en mellanuppdatering inför GPT-5

OpenAI lanserade GPT-4.5, men det var inte en stor uppdatering jämfört med GPT-4. Sam Altman var inte heller närvarande vid tillkännagivandet. De har själva sagt att GPT-4.5 inte förbättrar benchmark-resultat avsevärt, men det har blivit bättre på att producera mer kreativt och engagerande innehåll. Den upplevs som mer mänsklig och engagerande. De har också informerat om att GPT-5 förväntas komma inom några månader, senast i slutet av 2025, även om det exakta datumet inte är fastställt.

Grok S3 lanserad – ocensurerad AI-modell med avancerad logik och toppresultat i tester

En annan viktig nyhet inom LLM-världen är att Grok S3 har lanserats. Den har visat sig vara bättre än modeller som DeepSeek, Arban och OpenAI:s Ovan på många benchmark-tester. I flera tester har Grok S3 presterat bättre än konkurrerande modeller. Man kan testa Grok S3 på plattformen grok.com eller direkt på X.com (tidigare Twitter). Det finns två saker som gör Grok S3 unik. För det första är deras mål och slogan att den ska vara helt ocensurerad. För det andra har den en ‘Deep Search’ och ‘Think’-funktion, vilket innebär att den kan tänka steg för steg och utföra djupgående sökningar med logik, precis som flera av de nya modellerna på marknaden som först tänker igenom uppgiften innan de utför den.

Alibabas Qwen: Ny öppen källkod LLM med 32 miljarder parametrar utmanar större modeller

En ny modell har också släppts – en modell som företaget Alibaba har presenterat, som heter QWQ, från Qwen-serien, med 32 miljarder parametrar. Det viktiga är att den är öppen källkod (open source), och om man tittar på diagrammet ser man att QWQ (röd färg) presterar ungefär lika bra som DeepSeek-Arban (blå färg).

Trots att QWQ ibland är lite bättre och ibland lite svagare än DeepSeek-Arban, är skillnaden stor i storlek: DeepSeek-Arban har 671 miljarder parametrar, medan QWQ bara har 32 miljarder. Det betyder att den är mycket, mycket mindre och lättare – men ändå presterar lika bra. Det visar att modellerna blir smartare och mer effektiva för varje dag, vilket är en väldigt viktig utveckling.

https://chat.qwen.ai/

Google lanserar Gemma 3 – öppen, multimodal AI-modell som utmanar marknadens bästa

Google har lanserat en ny serie av open source-modeller under namnet Gemma. Googles modeller presterar verkligen bra och visar att det inte bara är OpenAI eller andra stora företag som levererar högkvalitativa modeller. Tack vare sin starka infrastruktur, omfattande data och tillgång till resurser har Google snabbt utvecklat modeller som konkurrerar med de bästa på marknaden. Gemma 3, en av de senaste modellerna, är helt öppen källkod, multimodal (vilket innebär att den kan hantera både bilder och långa texter) och kan köras på en vanlig GPU.

Googles AI Co-Scientist: Ny banbrytande modell löser komplexa forskningsproblem

En spännande nyhet från Google är deras AI Co-Scientist, ett system bestående av flera AI-agenter byggda med Gemini 2.0. Denna modell har visat sig vara kraftfull, särskilt inom medicinsk forskning, där den har gett nya insikter för cancerbehandling och leverfibros. Ett fascinerande exempel är hur modellen löste ett forskningsproblem som vetenskapen brottats med i åratal – på bara två dagar. Det här öppnar upp möjligheter för att påskynda lösningar på många sjukdomar och forskningsutmaningar.