ChatGPT oblał egzamin z "interny"
Sztuczna inteligencja na razie nie będzie leczyć pacjentów. Oparty na niej ChatGPT oblał egzamin specjalizacyjny z "interny". Nie poradził sobie również z zadaniami z innych dziedzin medycyny, co sprawdzili i opisali naukowcy z Collegium Medicum Uniwersytetu Mikołaja Kopernika w Toruniu.
ChatGPT to oparty na sztucznej inteligencji zaawansowany model językowy generujący odpowiedzi na zadane mu pytania. Został opracowany przez amerykańskie laboratorium badawcze OpenAI na podstawie dużych zbiorów danych, tak by mógł prowadzić konwersację i angażować się w różne tematy, od ogólnych rozmów po określone obszary wiedzy. Sztuczna inteligencja od kilku lat jest coraz szerzej wykorzystywana w medycynie m.in. do rozpoznawania zmian nowotworowych, w ortopedii do diagnostyki złamań, w patomorfologii do oceny preparatów i w projektowaniu leków. Badania pokazały, że algorytm jest czulszy niż oko ludzkie i może pomóc medykom w opiece nad pacjentami, ale lekarzy nie zastąpi. Przynajmniej na razie. – Rozmawiając o chorobach ze znajomymi czy pacjentami często słyszymy, że ktoś sprawdził w wyszukiwarce internetowej Google objawy, które u niego występują, i na tej podstawie sam postawił sobie diagnozę – mówi dr Szymon Suwała z Katedry Endokrynologii i Diabetologii Wydziału Lekarskiego Collegium Medicum UMK. – Teraz te możliwości jeszcze się poszerzają, bo z ChatemGPT czy Gemini można porozmawiać o swoich chorobach. Oba czaty bazują na informacjach z Google lub innych wyszukiwarek, więc nie dajmy się nabrać, ich diagnoza nie będzie lepsza.
Istnieją już czaty, w których sztuczna inteligencja wykorzystuje dane z innych źródeł, np. PubMedu, czyli angielskojęzycznej wyszukiwarki w internetowych bazach danych obejmujących artykuły z medycyny i nauk biologicznych. Wydawać by się mogło, że w takim przypadku informacje będą bardziej precyzyjne. Ale badania naukowe pokazują, że sztuczna inteligencja oparta na naukowej literaturze medycznej nie potrafiła poradzić sobie z egzaminami, z którymi częściowo dał sobie radę zwykły ChatGPT. – Pacjenci w dalszym ciągu będą korzystać z Google, Facebooka, różnego rodzaju czatów, bo są zainteresowani stanem swojego zdrowia, a internet jest obecnie powszechnie dostępny – twierdzi dr Suwała. – Natomiast ja zawsze zachęcam, by szukać informacji u lekarzy specjalistów, bo są bardziej kompetentni niż sztuczna inteligencja.
Oblany egzamin
By to udowodnić, naukowcy z Collegium Medicum UMK sprawdzili, jak sztuczna inteligencja poradzi sobie z egzaminem specjalizacyjnym z "interny" (potoczna nazwa działu medycyny, zajmującego się schorzeniami narządów wewnętrznych), uważanej za "królową medycyny". ChatGPT po prostu ten egzamin oblał.
Było zaledwie kilka dziedzin, mniejszych gałęzi tego egzaminu, w których wyniki sztucznej inteligencji były w miarę akceptowalne, ale w dalszym ciągu gorsze od wyników ludzkich – mówi dr Suwała.
Na egzaminie specjalizacyjnym medycy muszą odpowiedzieć na 120 pytań testowych, w których tylko jedna z pięciu odpowiedzi jest prawidłowa. Lekarz, by zostać specjalistą, musi poprawnie rozwiązać 60 proc. zadań. Jeśli zda część pisemną na ocenę dobrą lub wyższą, jest zwolniony z części ustnej. Jeśli powiedzie mu się gorzej, dodatkowo musi stawić się przed komisją.
Badacze zrezygnowali z egzaminu ustnego. Zadali ChatowiGPT cały wachlarz pytań z egzaminów pisemnych. – Usunęliśmy część pytań, na które ChatGPT nie byłby w stanie odpowiedzieć z przyczyn technicznych, czyli np. zawierających obrazki lub elementy analityczne powiązane z innym pytaniem – wyjaśnia dr Suwała. – W sumie w 10 sesjach zadaliśmy sztucznej inteligencji 1191 pytań. W żadnym z egzaminów nie przeszła nawet do części ustnej, czyli nie zdobyła 60 proc. punktów. Odpowiedzi poprawne mieściły się między 47,5 a 53,3 proc.
Medycy przeanalizowali długość pytań, wskaźnik trudności i okazało się, że analogicznie jak ludzie, ChatGPT lepiej sobie radził z pytaniami uznawanymi za prostsze, aczkolwiek nie było to regułą. Trochę lepiej niż ludziom szło mu z pytaniami łatwiejszymi, gorzej z trudniejszymi. Nie było natomiast korelacji pomiędzy długością pytania a jakością odpowiedzi. - Mieliśmy do czynienia z maszyną, która została stworzona do przetwarzania dużej liczby znaków, nie z człowiekiem, który im dłużej czyta zdanie, tym jest bardziej zmęczony czytaniem i analizowaniem różnych jego aspektów – tłumaczy dr Suwała.
Naukowiec zauważa, że zdarzały się też dłuższe pytania, w których ChatGPT się gubił. Głównie takie, w których chodziło o wykorzystanie konkretnego słowa klucza, który lekarz, wiedząc, o co w pytaniu chodzi, umiał znaleźć i zastosować. Ciekawostką było też to, że czasami sztuczna inteligencja znała prawidłową odpowiedź, ale ostatecznie zaznaczała inną, błędną.
Za każdym razem oprócz konkretnej odpowiedzi dostawaliśmy opis, dlaczego ChatGPT wybrał akurat tę – mówi dr Suwała. – I właśnie wtedy zauważyliśmy, że wielokrotnie zaznaczał odpowiedź złą, po czym opisywał proces decyzyjny tak, jakby znał inną, właściwą odpowiedź. Dlaczego tak się działo? Nie wiemy.
Specjaliści z Collegium Medicum opublikowali wyniki badań w czasopiśmie "Polish Archives of Internal Medicine" w artykule pt. ChatGPT fails the Polish board certification examination in internal medicine: artificial intelligence still has much to learn. Przyczynkiem do badań prowadzonych przez naukowców z Collegium Medicum UMK był sukces ChatuGPT w USMLE (United States Medical Licensing Examination). To składający się z trzech etapów egzamin dla przyszłych lekarzy, którzy chcą podjąć pracę w USA. Pozytywny wynik z USMLE jest równoznaczny z otrzymaniem licencji na wykonywanie zawodu lekarza w Stanach Zjednoczonych.
W Polsce student kończący edukację medyczną otrzymuje dyplom lekarza. Żeby zdobyć pełne prawo wykonywania zawodu, w trakcie stażu podyplomowego lub ostatniego roku studiów, musi zdać Lekarski Egzamin Końcowy. Aby go zaliczyć, trzeba odpowiedzieć prawidłowo na 56 proc. z 200 pytań. LEK prawdopodobnie jest najbardziej adekwatnym egzaminem do USMLE. Tak jak w Stanach Zjednoczonych, tak i w Polsce ChatGPT poradził sobie z LEK, co również sprawdzili badacze z Bydgoszczy. – To są prostsze pytania, obejmują raczej podstawowe zagadnienia, bo lekarze odpowiadają na nie zaraz po studiach – wyjaśnia dr Suwała.
Literatura nie pomogła
Naukowcy zastanawiali się, dlaczego systemy opierające się na literaturze fachowej, wypadały na egzaminach gorzej niż ogólnodostępny ChatGPT. Na to pytanie nie znaleźli jednoznacznej odpowiedzi. Podejrzewają, że dlatego, iż bazuje na literaturze, a nie na podręcznikach. Natomiast dla układających zadania egzaminacyjne nadal podstawą jest podręcznik. – Poza tym artykuły naukowe powstają po to, aby potwierdzić to, co zostało już odkryte, albo to podważyć – tłumaczy dr Suwała. – I pojawia się pewnego rodzaju miszmasz, z którym być może sztuczna inteligencja nie potrafi sobie poradzić. Poza tym ChatGPT jest mocno promowany i szeroko rozwijany, na pewno dużo szybciej niż bardziej niszowa struktura, jaką jest sztuczna inteligencja oparta na literaturze PubMedowej.
Zdaniem naukowca z Collegium Medicum UMK jeszcze długa droga do tego, by sztuczna inteligencja, którą znamy z codziennego użytku: ChatGPT lub Gemini, zdała egzamin specjalizacyjny. Raczej nikt nie będzie jej celowo rozwijał w tym kierunku. Natomiast ta trenowana pod konkretną dziedzinę medycyny z użyciem odpowiednich podręczników w końcu poradzi sobie z egzaminem. – Sztuczna inteligencja może zdać egzamin, ale nie będzie w stanie wyleczyć pacjenta – uważa dr Suwała. – Nauki medyczne, wbrew pozorom, nie są naukami ścisłymi. One mają więcej wspólnego z naukami humanistycznymi. Nie bez kozery mówi się o sztuce lekarskiej. Bardzo często mając kontakt z pacjentem, widzimy pewne niuanse, których sztuczna inteligencja może nie zauważyć. Często mówimy studentom, że choroby książek nie czytają. Pacjent może cierpieć na kilka różnych chorób, może mieć kilka innych schorzeń, może być genetycznie inaczej zbudowany i nagle się okazuje, że choroba, która wydawała się prosta, logiczna, dokładnie opisana, przebiega u pacjenta zupełnie inaczej. Czy sztuczna inteligencja będzie w stanie połączyć wszystkie składowe? Być może w przyszłości tak, natomiast nie sądzę, żeby to była kwestia najbliższych dni, tygodni, miesięcy czy nawet lat. Myślę, że to będą dekady.
Technologia nie zastąpi lekarzy, ale może im pomóc w opiece nad pacjentami. W badaniach ultrasonograficznych może oceniać obrazy i sugerować, że zmiana wymaga przeprowadzenia biopsji albo ma bardzo niski potencjał onkologiczny. Żeby jednak mogła to robić, człowiek musi ją tego nauczyć. Poza tym, to i tak lekarz ostatecznie będzie decydował, czy podążać za propozycją algorytmu, czy nie. Medycy nie ukrywają, że sztuczna inteligencja powinna i musi być implementowana do codziennej praktyki klinicznej, bo może ułatwić życie zarówno lekarzom, jak i pacjentom. Jako przykład podają, że chorzy nie zawsze pamiętają albo nie mówią o tym, że przyjmują jakieś leki. Natomiast AI na podstawie analizy Big Data (zbiorów danych, tak dużych i złożonych, że do przetwarzania wymagają nowych technologii) mogłaby wskazywać, jakie leki ostatnio pacjent przyjmował i informować o tym lekarzy.
Naukowcy zwracają również uwagę na tzw. halucynacje sztucznej inteligencji. Jeżeli zadamy pytanie o jakiś konkretny objaw chorobowy, AI potrafi znaleźć absolutnie nieprawdziwe informacje w oparciu o materiały naukowe wymyślone przez samą siebie. Jeżeli ktoś za mocno w to uwierzy, nagle okaże się, że choruje na chorobę, która tak naprawdę nie istnieje.
Specjaliści z Collegium Medicum UMK nie są pierwszymi na świecie, którzy postanowili przetestować ChatGPT. Sztuczna inteligencja zdała europejski egzamin z kardiologii interwencyjnej i okulistyki. Nie poradziła sobie natomiast ze sprawdzianem z ortopedii. W tym przypadku jej wiedza została oceniona na poziomie rezydenta pierwszego roku specjalizacji, czyli bardzo mało doświadczonego. Również egzaminem z gastroenterologii okazał się za trudny dla algorytmu, a u nas w Polsce oblał z urologii, endokrynologii i diabetologii.
To zaskakujące, że ChatGPT jako tako poradził sobie z testem z kardiologii interwencyjnej, bo to dosyć trudna specjalizacja – zauważa dr Suwała. – Może wynika to z faktu, że kardiologia interwencyjna bazuje w dużej mierze na wytycznych anglojęzycznych, do których ChatGPT mógł mieć lepszy dostęp. Z drugiej strony, kiedy analizowaliśmy, czy bariera językowa może być problemem dla sztucznej inteligencji, wydawało się, że nie. We francuskojęzycznym artykule opisano, jak ChatGPT radził sobie z tym samym egzaminem w języku francuskim i angielskim. Wyniki były niemal identyczne.
Naukowcy podkreślają, że sztuczna inteligencja myli się częściej niż lekarze i jeszcze długo ich nie zastąpi. Przyznają jednak, że pacjenci mają duże zaufanie do komputerów. – Jeżeli zadbamy o edukację na odpowiednim poziomie, żeby ludzie umieli krytycznie podchodzić do tego, jakie informacje są im przekazywane, to jest szansa, że sztuczna inteligencja ich nie zabije – mówi dr Suwała. – Może się tak zdarzyć, że słuchając ChatuGPT, nie skontaktują się na czas z lekarzem i na leczenie będzie już za późno.