Nowe modele językowe są już dostępne. Rodzina PLLuM się powiększa
Administracja, biznes, organizacje – wszyscy mówią dziś jednym głosem: potrzebujemy AI, która naprawdę rozumie język polski. Nie tylko w codziennych rozmowach, ale także w formalnych pismach, raportach czy specjalistycznych analizach. Takiej, którą można dopasować do konkretnych zadań i mieć pewność, że działa zgodnie z prawem. Najnowsze modele PLLuM powstały, by to zapewnić.


Zostały zaprojektowane z myślą o polskich realiach – od języka urzędowego po specjalistyczną terminologię – i przygotowane tak, aby łatwo je było dostroić do wybranego sektora czy zastosowania. To rozwiązania, które mogą stać się solidnym zapleczem dla narzędzi wspierających codzienną pracę w urzędach, firmach i instytucjach.
– Biznes zwykle nie potrzebuje modeli do wszystkiego, tylko dobrze dopasowanych do kilku konkretnych zastosowań – podkreśla dr inż. Marek Kozłowski, kierownik AI Labu w OPI PIB (Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy), zaangażowany w budowę modeli PLLuM. – W wielu przypadkach warto zacząć od mniejszych, tańszych modeli i dostrajać je do potrzeb organizacji. Często już kilka tysięcy przykładów treningowych wystarcza, by osiągnąć bardzo dobre rezultaty. Dopiero gdy to okaże się niewystarczające, warto sięgać po większe rozwiązania.
Różne rozmiary i architektury nowo udostępnionych modeli pozwalają wybrać taki, który najlepiej pasuje do danego zakresu zastosowań i dostępnych mocy obliczeniowych.
Nowa odsłona obejmuje trzy modele bazowe, różniące się rozmiarem i możliwościami:
- LLama-PLLuM-8B-base-250801 – lekki, dobrze sprawdzający się jako generator w systemach RAG (czyli rozwiązaniach, które łączą model AI z bazą wiedzy, aby udzielać trafniejszych i bardziej wiarygodnych odpowiedzi); wymaga stosunkowo niewielkich zasobów obliczeniowych;
- PLLuM-12B-base-250801 – model nadal kompaktowy, ale oferujący wyższą precyzję przy zachowaniu rozsądnych wymagań sprzętowych;
- LLama-PLLuM-70B-base-250801 – największy z modeli, przeznaczony do zadań wymagających najwyższej jakości odpowiedzi; wymaga jednak odpowiednio większych zasobów obliczeniowych.
Czym nowe wersje PLLuM różnią się od swoich poprzedników?
Nowe modele zostały poddane adaptacji językowej przy użyciu starannie dobranego zestawu danych, który zawierał około 18 miliardów tokenów – głównie po polsku. Co prawda, ten zbiór jest mniejszy niż w przypadku modeli PLLuM-12B-nc-250715, ale na potrzeby treningu zastosowano bardzo rygorystyczne procedury weryfikacji tekstów pod kątem praw autorskich. To gwarantuje pełną legalność i możliwość komercyjnego wykorzystania modeli.
Mniejszy rozmiar zbioru może oznaczać nieco ograniczone zdolności i bazy danych, jednak dzięki otwartej licencji użytkownicy mogą samodzielnie dostroić modele do swoich potrzeb.
– Modele udostępniane na otwartych licencjach zostały wytrenowane na zbiorze danych, który przeszedł rygorystyczną weryfikację prawną i jakościową. Punktem wyjścia była szczegółowa analiza przepisów krajowych i unijnych, w tym znowelizowanej ustawy o prawie autorskim, aby zapewnić pełną legalność i możliwość komercyjnego wykorzystania modeli. W efekcie powstał mniejszy, ale bardzo starannie dobrany zbiór danych, obejmujący zasoby konsorcjantów, wyselekcjonowane dane internetowe – pochodzące z domeny publicznej, objęte licencjami Creative Commons lub bez zastrzeżeń TDM – oraz treści pozyskane od wydawców na podstawie umów licencyjnych. To podejście pozwala tworzyć modele gotowe do zastosowań w sektorze publicznym i w biznesie, bez ryzyka naruszeń praw autorskich – tłumaczy dr Agnieszka Karlińska, kierowniczka Zakładu Dużych Modeli Językowych w NASK PIB i kierowniczka HIVE AI, projektu, w ramach którego rozwijane są modele PLLuM
Pierwsze wyniki pokazują, że nawet przy ograniczonym rozmiarze zbioru uczącego można osiągnąć znaczący postęp.
– Nasze dotychczasowe doświadczenia pokazują, że nawet przy stosunkowo niewielkiej ilości danych do pretreningu możliwa jest udana adaptacja domenowa – zauważa dr hab. Piotr Pęzik, prof. UŁ, kierownik operacyjny HIVE AI. – Przykładem jest Llama-PLLuM-70B, o której mówiliśmy na początku tego roku przy okazji jego udanych wdrożeń biznesowych. Wstępne wyniki dostosowywania nowych modeli do języka polskiego pokazują duży postęp w porównaniu do wersji oryginalnych – np. w przypadku Llamy-3.1-70B, po trzech epokach treningu (czyli pełnych przejściach modelu przez cały zestaw danych treningowych) na ograniczonej, ale wysokiej jakości puli danych, wynik w niezależnym teście kompetencji językowych i kulturowych (PLCC) wzrósł z ok. 16 proc. do 29 proc.
Oprócz trzech nowych modeli udostępniono też nowe wersje modelu LLama-PLLuM-70B, które zostały dostrojone na istotnie większym zestawie instrukcji (tj. par złożonych z zapytań do modelu oraz wzorcowych odpowiedzi) i wychowane na rozszerzonym zbiorze preferencji (zapytań do modelu oraz odpowiedzi ocenianych jako lepsze i odpowiedzi ocenianych jako gorsze).
– Duży nacisk położyliśmy na poprawę sterowalności modelu oraz jego umiejętności wyszukiwania – wyjaśnia prof. Pęzik. – Dzięki temu modele LLama-PLLuM-70B w wersji instruct i chat, a więc po dostrojeniu i wychowaniu, bardzo dobrze radzą sobie w roli generatorów odpowiedzi w systemach RAG-owych.
Co dalej?
Trwają intensywne prace nad powiększeniem zbioru tekstów, który zespół HIVE AI będzie mógł wykorzystywać do tworzenia modeli na najszerszych licencjach. Efekty tych starań będą widoczne w kolejnych odsłonach modeli PLLuM.
_________________________________________________________________________________________
Modele PLLuM-250801 powstały w ramach prac konsorcjum HIVE AI w składzie: NASK – Państwowy Instytut Badawczy (lider konsorcjum), Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, Centralny Ośrodek Informatyki, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, Politechnika Wrocławska, Uniwersytet Łódzki. Proces treningu został przeprowadzony z wykorzystaniem zaawansowanej infrastruktury obliczeniowej, w tym superkomputerów Bem2 udostępnionego przez Wrocławskie Centrum Superkomputerowo-Sieciowe oraz Helios udostępnionego przez Akademickie Centrum Komputerowe CYFRONET AGH.
Wyróżnione aktualności
Szeroki front małych systemów na Impact’25
Wbrew pozorom zapewnienie cyfrowego bezpieczeństwa w gminie jest trudniejsze niż w banku – mówił w dyskusji podczas Impact’25 Radosław Nielek, dyrektor NASK. W jednej gminie może znajdować się jednocześnie wiele różnych systemów informatycznych – wodociągów, szkół, placówek medycznych.
NASK o krok przed cyberprzestępcami. Forum Bezpieczeństwa Banków 2025
Kradzież tożsamości, ataki na infrastrukturę i próby manipulacji danymi. Sektor finansowy jest na pierwszej linii frontu w walce z cyberprzestępcami. NASK – jako lider w dziedzinie cyberbezpieczeństwa - wychodzi naprzeciw tym wyzwaniom. – Udział w Forum Bezpieczeństwa Banków to dla nas okazja do poznania realnych potrzeb sektora bankowego i wdrożenia konkretnych działań – mówił Piotr Bisialski, kierownik zespołu NASK Incident Response Team.
PLLuM rośnie w siłę
600 tysięcy promptów wpisanych w okienko PLLuMa i nowości, od których dzielą nas nie lata, a zaledwie tygodnie – kolejne modele i prototyp inteligentnego asystenta. W siedzibie NASK w Warszawie spotkali się wszyscy uczestnicy konsorcjum HIVE AI. Grupy, która ma za zadanie rozwijać i wdrażać polski model językowy (PLLuM).
Rozkwitnij z MAK. Program Mentoringu Aktywnych Kobiet nabiera barw
Podnieś swoje kompetencje z zakresu cyberbezpieczeństwa i wejdź na rynek nowych technologii! Już kilkaset kobiet zgłosiło chęć udziału w programie MAK (Mentoring Aktywnych Kobiet), ogłoszonym przez NASK we współpracy z Ministerstwem Cyfryzacji. Zostań jedną z nich — zgłoś swój udział i rozwiń skrzydła w indywidualnym programie mentoringowym. Nabór trwa do końca maja.
Najnowsze aktualności
Zbyt piękne, by było prawdziwe? Emocjonalne oszustwa narzędziem phishingu
„Ma na imię Pepper. Ma 16 lat. Moja babcia zmarła w zeszłym tygodniu i to był jej pies…” – tak zaczynała się historia, która w ciągu kilku dni zdobyła serca tysięcy internautów. Zdjęcie chłopca z kartonem, wzruszający list, apel o dobro. Wszystko wyglądało na autentyczne. Do czasu...
Częstochowa stawia na PLLuM
Częstochowa wdroży polską sztuczną inteligencję - PLLuM. Minister Cyfryzacji Krzysztof Gawkowski i prezydent Częstochowy Krzysztof Matyjaszczyk podpisali list intencyjny w tej sprawie.
Złoto z Boliwii. Polscy uczniowie to absolutny top
Polscy uczniowie zdobyli cztery medale na Międzynarodowej Olimpiadzie Informatycznej w Boliwii. NASK doceni ich wysiłki i sfinansuje roczne stypendia dla medalistów. W rywalizacji wzięło udział kilkuset uczniów z ponad 80 krajów. Jakie plany po zdobyciu złota ma Michał Wolny?