ChatGPT-4 Turbo: wyniki testów z historii na poziomie eksperckim

Czy kiedykolwiek zastanawiałeś się, jak dobrze sztuczna inteligencja radzi sobie z interpretacją faktów historycznych? W kontekście modeli AI, takich jak ChatGPT-4 Turbo, przeprowadzono badania oceniające ich zdolności w tym zakresie. Wyniki mogą zaskoczyć niejednego entuzjastę technologii. Pomimo ciągłego rozwoju, sztuczna inteligencja pokazała wyraźne braki w rozumieniu historii na poziomie zaawansowanym.

Jak ChatGPT-4 Turbo wypadł na testach z historii?

Międzynarodowa grupa ekspertów postanowiła przetestować kilka modeli sztucznej inteligencji, w tym ChatGPT-4 Turbo. Jak się okazało, ten najskuteczniejszy ze sprawdzanych systemów uzyskał zaledwie 46% punktów w teście wielokrotnego wyboru. Test sprawdzał wiedzę na poziomie magisterskim i eksperckim, co wymagało nie tylko znajomości suchych faktów, ale również ich właściwej interpretacji. Wynik jest wyższy niż bazowe 25% uzyskiwane w przypadku losowego zgadywania, jednak wyraźnie pokazuje jeszcze duże braki.

Ciekawe wnioski z badań:

Modele językowe takie jak ChatGPT-4, Llama czy Gemini mają problemy z interpretowaniem skomplikowanych informacji historycznych.
Dokładność modeli była gorsza w przypadku bardziej współczesnych okresów historycznych, szczególnie od 1500 roku do teraźniejszości.
Wyniki różniły się geograficznie: OpenAI osiągało lepsze wyniki w kontekście Ameryki Łacińskiej i Karaibów, podczas gdy Llama w Ameryce Północnej.
Słabsze wyniki dla Afryki Subsaharyjskiej sugerują potencjalną tendencyjność danych treningowych.

Wnioski z eksperymentu

Odkrycie, że modele AI słabo radzą sobie z historią, to wynik pierwszego eksperymentu tego rodzaju, który oceniał wiedzę systemów na podstawie bazy Seshat. Podkreśla to, jak wiele jeszcze pracy przed nami w kontekście rozwoju modeli językowych. Zdolność AI do rozumienia i interpretacji danych historycznych jest ograniczona, co jest istotne w kontekście dalszego rozwoju technologii.

Badania pokazują, że sztuczna inteligencja ma przed sobą długą drogę, zanim osiągnie poziom głębokiego rozumienia historycznego kontekstu, często wymaganego od człowieka. Chciałbyś być na bieżąco z postępami AI i testami, które je czekają? Śledź nas na chatgpt4.pl, gdzie regularnie zamieszczamy interesujące nowinki z tego świata.

Źródła informacji: Business Insider Polska, Nauka w Polsce, Polskie Radio 24.

Uwaga!

ChatGPT-4 Turbo: wyniki testów z historii na poziomie eksperckim

Jak ChatGPT-4 Turbo wypadł na testach z historii?

Ciekawe wnioski z badań:

Wnioski z eksperymentu

Wykryto AdBlocka!