Unia Europejska
Typ_aktualnosc Aktualność
11 Sierpnia 2025|6 min. czytania

Nowe modele językowe są już dostępne. Rodzina PLLuM się powiększa

Administracja, biznes, organizacje – wszyscy mówią dziś jednym głosem: potrzebujemy AI, która naprawdę rozumie język polski. Nie tylko w codziennych rozmowach, ale także w formalnych pismach, raportach czy specjalistycznych analizach. Takiej, którą można dopasować do konkretnych zadań i mieć pewność, że działa zgodnie z prawem. Najnowsze modele PLLuM powstały, by to zapewnić.

Logo HIVE AI na fioletowym tle
Łuna gradientu wychodząca od dołu

Zostały zaprojektowane z myślą o polskich realiach – od języka urzędowego po specjalistyczną terminologię – i przygotowane tak, aby łatwo je było dostroić do wybranego sektora czy zastosowania. To rozwiązania, które mogą stać się solidnym zapleczem dla narzędzi wspierających codzienną pracę w urzędach, firmach i instytucjach. 

Podstawowym odbiorcą nowych modeli będą urzędy. W zeszłym tygodniu list intencyjny w sprawie wdrożenia modeli PLLuM podpisali Minister Cyfryzacji Krzysztof Gawkowski i prezydent Częstochowy Krzysztof Matyjaszczyk. Niektóre miasta są o krok dalej i już rozpoczęły proces wdrożeniowy. Jako pierwsza – przy wsparciu konsorcjum HIVE AI, które rozwija modele PLLuM – testy przeprowadziła Gdynia. Jesienią tego roku planowane jest uruchomienie polskich modeli językowych w miejskim czatbocie. Jak podkreśla dr Agnieszka Karlińska, kierowniczka Zakładu Dużych Modeli Językowych w NASK PIB i kierowniczka HIVE AI, będzie to wdrożenie pilotażowe, które ma stać się wzorem dla podobnych inicjatyw w innych miastach.

– Zależy nam, by Gdynia była liderem w wykorzystaniu nowoczesnych technologii w obsłudze mieszkańców. W naszym BIP-ie uruchomiliśmy wyszukiwarkę napędzaną AI, która ułatwia dostęp do interpelacji radnych oraz informacji o sprawach do załatwienia. Od lipca testujemy w tym rozwiązaniu – z bardzo dobrym skutkiem – modele z rodziny PLLuM, a jesienią planujemy wdrożenie produkcyjne. To dla nas naturalny krok – w 2012 roku uruchomiliśmy pierwszy w Polsce miejski czatbot, w 2021 pierwszy miejski voicebot, a teraz jako pierwsi sięgamy po polski duży model językowy – mówi Piotr Wiśniewski, Dyrektor Gdyńskiego Centrum Informatyki.

Różne rozmiary i architektury nowo udostępnionych modeli pozwalają wybrać taki, który najlepiej pasuje do danego zakresu zastosowań i dostępnych mocy obliczeniowych.

– Biznes zwykle nie potrzebuje modeli do wszystkiego, tylko dobrze dopasowanych do kilku konkretnych zastosowań – podkreśla dr inż. Marek Kozłowski, kierownik AI Labu w OPI PIB (Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy), zaangażowany w budowę modeli PLLuM. – W wielu przypadkach warto zacząć od mniejszych, tańszych modeli i dostrajać je do potrzeb organizacji. Często już kilka tysięcy przykładów treningowych wystarcza, by osiągnąć bardzo dobre rezultaty. Dopiero gdy to okaże się niewystarczające, warto sięgać po większe rozwiązania.

Nowa odsłona obejmuje trzy modele bazowe, różniące się rozmiarem i możliwościami: 

  • LLama-PLLuM-8B-base-250801 – lekki, dobrze sprawdzający się jako generator w systemach RAG (czyli rozwiązaniach, które łączą model AI z bazą wiedzy, aby udzielać trafniejszych i bardziej wiarygodnych odpowiedzi); wymaga stosunkowo niewielkich zasobów obliczeniowych; 
  • PLLuM-12B-base-250801 – model nadal kompaktowy, ale oferujący wyższą precyzję przy zachowaniu rozsądnych wymagań sprzętowych; 
  • LLama-PLLuM-70B-base-250801 – największy z modeli, przeznaczony do zadań wymagających najwyższej jakości odpowiedzi; wymaga jednak odpowiednio większych zasobów obliczeniowych. 

Czym nowe wersje PLLuM różnią się od swoich poprzedników? 

Nowe modele zostały poddane adaptacji językowej przy użyciu starannie dobranego zestawu danych, który zawierał około 18 miliardów tokenów – głównie po polsku. Co prawda, ten zbiór jest mniejszy niż w przypadku modeli PLLuM-12B-nc-250715, ale na potrzeby treningu zastosowano bardzo rygorystyczne procedury weryfikacji tekstów pod kątem praw autorskich. To gwarantuje pełną legalność i możliwość komercyjnego wykorzystania modeli.  

Mniejszy rozmiar zbioru może oznaczać nieco ograniczone zdolności i bazy danych, jednak dzięki otwartej licencji użytkownicy mogą samodzielnie dostroić modele do swoich potrzeb. 

– Modele udostępniane na otwartych licencjach zostały wytrenowane na zbiorze danych, który przeszedł rygorystyczną weryfikację prawną i jakościową. Punktem wyjścia była szczegółowa analiza przepisów krajowych i unijnych, w tym znowelizowanej ustawy o prawie autorskim, aby zapewnić pełną legalność i możliwość komercyjnego wykorzystania modeli. W efekcie powstał mniejszy, ale bardzo starannie dobrany zbiór danych, obejmujący zasoby konsorcjantów, wyselekcjonowane dane internetowe – pochodzące z domeny publicznej, objęte licencjami Creative Commons lub bez zastrzeżeń TDM – oraz treści pozyskane od wydawców na podstawie umów licencyjnych. To podejście pozwala tworzyć modele gotowe do zastosowań w sektorze publicznym i w biznesie, bez ryzyka naruszeń praw autorskich – tłumaczy dr Agnieszka Karlińska.

Pierwsze wyniki pokazują, że nawet przy ograniczonym rozmiarze zbioru uczącego można osiągnąć znaczący postęp. 

– Nasze dotychczasowe doświadczenia pokazują, że nawet przy stosunkowo niewielkiej ilości danych do pretreningu możliwa jest udana adaptacja domenowa – zauważa dr hab. Piotr Pęzik, prof. UŁ, kierownik operacyjny HIVE AI. – Przykładem jest Llama-PLLuM-70B, o której mówiliśmy na początku tego roku przy okazji jego udanych wdrożeń biznesowych. Wstępne wyniki dostosowywania nowych modeli do języka polskiego pokazują duży postęp w porównaniu do wersji oryginalnych – np. w przypadku Llamy-3.1-70B, po trzech epokach treningu (czyli pełnych przejściach modelu przez cały zestaw danych treningowych) na ograniczonej, ale wysokiej jakości puli danych, wynik w niezależnym teście kompetencji językowych i kulturowych (PLCC) wzrósł z ok. 16 proc. do 29 proc. 

Oprócz trzech nowych modeli udostępniono też nowe wersje modelu LLama-PLLuM-70B, które zostały dostrojone na istotnie większym zestawie instrukcji (tj. par złożonych z zapytań do modelu oraz wzorcowych odpowiedzi) i wychowane na rozszerzonym zbiorze preferencji (zapytań do modelu oraz odpowiedzi ocenianych jako lepsze i odpowiedzi ocenianych jako gorsze).  

– Duży nacisk położyliśmy na poprawę sterowalności modelu oraz jego umiejętności wyszukiwania – wyjaśnia prof. Pęzik. – Dzięki temu modele LLama-PLLuM-70B w wersji instruct i chat, a więc po dostrojeniu i wychowaniu, bardzo dobrze radzą sobie w roli generatorów odpowiedzi w systemach RAG-owych. 

Co dalej? 

Trwają intensywne prace nad powiększeniem zbioru tekstów, który zespół HIVE AI będzie mógł wykorzystywać do tworzenia modeli na najszerszych licencjach. Efekty tych starań będą widoczne w kolejnych odsłonach modeli PLLuM. 

_________________________________________________________________________________________ 

Modele PLLuM-250801 powstały w ramach prac konsorcjum HIVE AI w składzie: NASK – Państwowy Instytut Badawczy (lider konsorcjum), Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, Centralny Ośrodek Informatyki, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, Politechnika Wrocławska, Uniwersytet Łódzki. Proces treningu został przeprowadzony z wykorzystaniem zaawansowanej infrastruktury obliczeniowej, w tym superkomputerów Bem2 udostępnionego przez Wrocławskie Centrum Superkomputerowo-Sieciowe oraz Helios udostępnionego przez Akademickie Centrum Komputerowe CYFRONET AGH. 

 

Udostępnij ten post

Wyróżnione aktualności

Grafika przedstawiająca smutną dziewczynkę kadrowaną od nosa w dół, która stoi przodem do kamery, za ramiona trzyma ją od tyłu mężczyzna.
Typ_aktualnosc Aktualność
26 Maja 2026|8 min. czytania

Pedofilia w internecie kwitnie dzięki AI. Raport Dyżurnet.pl za 2025 rok

300 proc. rok do roku. O tyle wzrosła liczba materiałów wygenerowanych przez AI, które przedstawiają seksualne wykorzystanie dzieci. Znacząco rośnie udział komunikatorów internetowych w dystrybucji CSAM. O tym mówi raport roczny z działań Dyżurnet.pl - zespołu, który w ramach NASK przyjmuje i analizuje zgłoszenia związane z treściami nielegalnymi i szkodliwymi dla dzieci i młodzieży.

Trzech mężczyzn stojących na scenie przed wizualizacją nowego budynku Centrum Cyberbezpieczeństwa NASK podczas oficjalnego wydarzenia.
Typ_aktualnosc Aktualność
22 Maja 2026|9 min. czytania

Centrum Cyberbezpieczeństwa NASK o krok bliżej

Ultranowoczesne Centrum Cyberbezpieczeństwa NASK powstanie na warszawskiej Pradze-Północ, a w nim m.in. laboratoria do rozwoju sztucznej inteligencji czy Centrum Odzyskiwania Danych. Instytut właśnie uzyskał decyzję o pozwoleniu na budowę CCN. To już tylko jeden krok od symbolicznego “wbicia łopaty” i – co za tym idzie – wzmocnienia krajowego systemu cyberbezpieczeństwa.

Szymon Łukasik
Typ_aktualnosc Aktualność
21 Maja 2026|7 min. czytania

Rodzina PLLuM znowu się powiększa. Polskie AI coraz silniejsze

Co łączy pismo z urzędu, firmową bazę wiedzy, pomocnika AI w banku i aplikację, która ma odpowiedzieć użytkownikowi prostym językiem?

Uczestnicy siedzą na granatowych fotelach i rozmawiają z użyciem mikrofonów, a w tle widoczne są półki z książkami, duże rośliny oraz podświetlane logo PLLuM. Na pierwszym planie publiczność słucha rozmowy w słuchawkach.
Typ_aktualnosc Aktualność
14 Maja 2026|8 min. czytania

NASK na Impact’26. Technologia po właściwej stronie

– W tym roku przyjechaliśmy na Impact z wyjątkową agendą, bo zależało nam na tym, aby w atrakcyjny i angażujący sposób opowiedzieć o tym, czym zajmujemy się na co dzień. Za nami inspirujące debaty poświęcone twórcom i sztucznej inteligencji, cyberbezpieczeństwu oraz wyzwaniom, jakie niesie cyfrowy świat – podsumowywał obecność NASK na Impact’26 szef instytutu Radosław Nielek.

Informacje

Najnowsze aktualności

Mężczyzna stoi przy mównicy i przemawia podczas konferencji. W tle widoczny jest duży ekran z prezentacją zawierającą jego imię i nazwisko oraz nazwę instytucji.
Typ_aktualnosc Aktualność
09 Czerwca 2026|6 min. czytania

Administracja bez papieru. EZD RP staje się nowym standardem

Ćwierć miliona ludzi i ponad trzy tysiące jednostek administracyjnych. Te liczby pokazują skalę wdrożeń EZD RP – pierwsza to użytkownicy, druga – liczba podmiotów, które z niego korzystają. System do elektronicznego zarządzania dokumentacją, stworzony przez NASK, to rewolucja w świecie administracji publicznej. Rewolucja, po którą sięga coraz więcej jednostek, a to najlepsze potwierdzenie jakości.

Dwie osoby siedzą przy drewnianym stole na świeżym powietrzu i pracują na laptopach. W tle rozciąga się panoramiczny widok na zielone góry i doliny skąpane w słońcu.
Typ_aktualnosc Aktualność
08 Czerwca 2026|6 min. czytania

Nie daj się oszukać „na Booking”! Zobacz, jak się chronić

Planowanie urlopu zaczyna się w sieci – od łatwego porównania ofert po szybką rezerwację noclegu. Wygoda ma jednak swoją cenę. W sezonie wakacyjnym rośnie aktywność oszustów, którzy próbują wykorzystać pośpiech i nieuwagę urlopowiczów. Można się jednak przed tym uchronić.

Portret mężczyzny na jednolitym szarym tle. Uśmiecha się do obiektywu, ma krótko przycięte włosy, brodę i ubrany jest w ciemną koszulę.
Typ_aktualnosc Aktualność
08 Czerwca 2026|3 min. czytania

Naukowiec NASK przypilnuje AI w Brukseli – 3 pytania do Sebastiana Cygerta

Komisja Europejska powołała dr. inż. Sebastiana Cygerta, kierownika Zakładu Bezpieczeństwa i Przejrzystości Sztucznej Inteligencji NASK do Panelu naukowego ds. wdrażania AI Act. W 60-cio osobowym gremium znaleźli się naukowcy z całego świata, w tym m.in. kanadyjski profesor Yoshua Bengio – laureat prestiżowej Nagrody Turinga. Wszystko w trosce o bezpieczny rozwój sztucznej inteligencji.

    Nowe modele językowe są już dostępne. Rodzina PLLuM się powiększa