Nie stać nas na to, by zostawać w tyle. Powstanie pierwszy polski otwarty wielki model językowy (PLLuM)

Polski wielki model językowy PLLuM, wytrenowany na treściach głównie polskojęzycznych, oraz oparty na nim inteligentny asystent, powstaną w ramach współpracy sześciu wiodących jednostek naukowych z obszaru AI, przetwarzania języka naturalnego oraz językoznawstwa korpusowego.

Od prawie roku wielkie językowe modele generatywne (LLMs) zachwycają niewyobrażalnymi dotychczas możliwościami sztucznej inteligencji. Oprócz wielu zalet te najpotężniejsze, jak ChatGPT czy Google Bard, mają jednak swoje ograniczenia: kosztują, są zamknięte i zostały wytrenowane ze zbyt małym udziałem treści polskojęzycznych. 

A gdyby chcieć stworzyć otwarty, darmowy model w większości wytrenowany na treściach polskojęzycznych?

Trzeba by wiedzy i kompetencji, wykraczających poza pojedyncze katedry czy jednostki naukowe, potężnych zasobów obliczeniowych i ogromnych zbiorów danych o wymaganym zróżnicowaniu i jakości. 

Dlatego też 29 listopada 2023 r., w przeddzień pierwszych urodzin chatGPT, sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa: Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN zawiązało konsorcjum PLLuM (Polish Large Language Universal Model). 

Konsorcjum przyświeca wspólny cel: stworzenie pierwszego polskojęzycznego otwartego dużego modelu językowego oraz wykorzystującego ten model inteligentnego asystenta. Całość projektu ma być przeprowadzona zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji, w tym przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych. Istotną rolę odegra tu więc również Krajowe Centrum Doskonałości Danych z siedzibą w NASK-PIB. 

Wypracowany przez czołowe jednostki badawcze przy współpracy z administracją publiczną, zgodnie z zasadami odpowiedzialnego rozwoju systemów AI, transparentny i całkowicie dostępny otwarty model będzie innowacją na skalę światową w rozumieniu przedsięwzięcia łączącego dostęp do danych, kompetencji, zasobów technicznych oraz know-how jednostek naukowych i rządowych we wspólnym celu wspierania nauki i gospodarki, w tym konkurencyjności polskich przedsiębiorstw podkreśla Wojciech Pawlak, dyrektor Państwowego Instytutu Badawczego NASK.

Oprócz tych płatnych, istnieją już wprawdzie wielkie modele językowe na otwartych licencjach, jednak wśród nich nadal brakuje modeli wytrenowanych na reprezentatywnych zbiorach języka polskiego. Niewielki udział polskich tekstów w procesie trenowania lub jedynie dostrojenie do języka polskiego sprawiają, że modele te nie nadają się do wielu komercyjnych zastosowań w języku polskim. Dlatego PLLuM ma na celu wsparcie polskich przedsiębiorców w wyścigu technologicznym poprzez stworzenie dostępu do modeli z rozszerzonym językiem polskim na bezpłatnej, otwartoźródłowej licencji, który będzie odpowiadał wymogom rynku.

Wielkie modele językowe stały się uniwersalnymi, podstawowymi silnikami dla przetwarzania języka naturalnego, ale ich zbudowanie czy dotrenowanie przekracza możliwości polskich przedsiębiorców. Dlatego stworzenie otwartego polskiego wielkiego modelu językowego w połączeniu z dostępną już w Polsce infrastrukturą obliczeniową dla AI (np. na PWr.) jest takie ważne, bo może wesprzeć rozwój nauki, ale także małe i średnie przedsiębiorstwa, które w obszarze IT oraz AI są motorem napędowym polskiej gospodarki – wyjaśnia prof. Maciej Piasecki, kierownik projektu po stronie Politechniki Wrocławskiej, lidera konsorcjum.

Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB) bardzo chętnie dołączył do konsorcjum PLLuM, gdyż już od wielu lat pracuje nad rozwijaniem narzędzi do przetwarzania języka naturalnego. W interesie nas wszystkich leży dynamiczny rozwój branży IT i środowiska naukowego w Polsce. Istotne jest, aby opracowywać nowe narzędzia IT i udostępniać je wszystkim za darmo. W OPI opracowaliśmy m.in. model Polish RoBERTa large, który według KLEJ Benchmark jest najlepszym modelem reprezentacyjnym dla języka polskiego. Cieszę się, że teraz nasza wiedza i doświadczenie będą wykorzystane do opracowania modelu PLLuM. Potrzebne są nam modele trenowane na tekstach polskojęzycznych, niezbędne są one m.in. do analizy polskiego internetu – mówi dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji. 

Posiadanie otwartego modelu to także dostęp do obiektu badawczego, do możliwości opracowywania i testowania metod wyjaśnialności tego modelu, zaglądania w głąb czarnej skrzynki. Co sprawia, że tak przekonująco generują odpowiedzi? Dlaczego „halucynują”, czyli podają nieprawdziwe odpowiedzi, nawet jeśli w zbiorze uczącym fakty i nazwiska się zgadzały? Jak na model wpływa zwiększenie zbiorów, liczby parametrów czy treningu z udziałem człowieka? Jak konstruować zapytania (prompty), by uzyskać pożądane rezultaty? 

Model PLLuM będzie stymulował rozwój nauki w Polsce nie tylko w obszarze rozwoju AI, ale także wyjaśnialności sztucznej inteligencji (XAI - Explainable AI). A na tego konia szczególnie warto stawiać – bo temat krytycznej analizy jest równie ważny co sam rozkwit możliwości AI, a poza tym, jako Polska, mamy szansę zajmować tu czołowe pozycje na świecie – podkreśla dr Inez Okulska, kierowniczka Zakładu Inżynierii Lingwistycznej i Analizy Tekstu z NASK-PIB. 

A wyraźnie większy udział tekstów oryginalnie napisanych w języku polskim oraz zawierających informacje o Polsce (polskiej nauce, sztuce, historii, prawie, gospodarce i innych) pozwoli zwiększyć widoczność naszego języka i kultury, które w obecnie dostępnych modelach są odczuwalnie marginalizowane.  

PLLuM ma bowiem służyć nie tylko naukowcom i przedsiębiorcom, lecz przede wszystkim polskiemu społeczeństwu – odbiorcy innowacyjnych rozwiązań opartych na tym modelu. Jednym z nich jest polskojęzyczny inteligentny asystent, który będzie miał na celu zwiększenie dostępności usług publicznych, zarówno cyfrowych, jak i podczas tradycyjnej wizyty w urzędzie czy punkcie obsługi. Oferując możliwość formułowania zapytań w języku naturalnym (tak jak w przypadku rozmowy z urzędnikiem), wychodzi naprzeciw również wykluczonym cyfrowo. A to dopiero początek możliwości, jakie da to ogromne, wspólne przedsięwzięcie polskich badaczy, biznesu i administracji publicznej!