Intelligenza Artificiale
Multimodalità nell'AI: vedere, sentire, parlare e scrivere insieme
GPT-4o può analizzare uno screenshot, rispondere a domande sulla matematica scritta su un foglio, descrivere cosa vede in una fotografia e tenere una conversazione vocale — tutto nello stesso modello unificato. La multimodalità non è più un add-on ma un'architettura core.
Le applicazioni pratiche si moltiplicano: un medico fotografa una radiografia e chiede un'analisi preliminare, un meccanico invia un video del motore rumoroso per diagnosi, un turista punta la camera verso un menu in giapponese e riceve la traduzione con consigli su cosa ordinare.
Gemini 1.5 Pro di Google gestisce finestre di contesto da un milione di token con input multimodali — tradotto: può analizzare un film intero, un'ora di audio, decine di documenti contemporaneamente. La capacità di comprensione integrata di informazioni da fonti diverse è il prossimo grande salto competitivo.
💬 Commenti (0)
Nessun commento ancora. Sii il primo!