GPT-4o ("o" für "omni") markiert einen bedeutenden Fortschritt in der natürlichen Mensch-Computer-Interaktion. Dieses Modell kann verschiedene Kombinationen aus Text, Audio und Bild sowohl als Eingabe akzeptieren als auch als Ausgabe erzeugen. Es reagiert auf Audioeingaben in nur 232 Millisekunden und hat eine durchschnittliche Reaktionszeit von 320 Millisekunden, was der menschlichen Reaktionszeit in Gesprächen entspricht. Bei englischem Text und Code liefert es dieselbe Leistung wie GPT-4 Turbo, übertrifft jedoch deutlich bei Texten in anderen Sprachen. Zudem ist es erheblich schneller und 50 % günstiger in der API-Nutzung. Im Bereich der Bild- und Audioverarbeitung ist GPT-4o besonders fortschrittlich im Vergleich zu bisherigen Modellen.