Typ_aktualnosc Aktualność
16 Lipca 2025|6 min. czytania

PLLuM w nowej odsłonie. Rodzina polskojęzycznych modeli językowych się powiększa

Polska sztuczna inteligencja przyspiesza. Model PLLuM został zaktualizowany i zoptymalizowany. Teraz potrafi m.in. tworzyć oficjalne e-maile czy wnioski i lepiej formatuje odpowiedzi. To pierwsza aktualizacja wydana pod marką HIVE AI i wyraźny sygnał, że projekt nie zwalnia tempa.

Hive AI
Łuna gradientu wychodząca od dołu

Za tym przyspieszeniem stoi HIVE AI – konsorcjum polskich ośrodków naukowych oraz instytucji skupionych wokół usług cyfrowych, na czele którego stoi NASK PIB. Konsorcjum opracowuje nowe polskojęzyczne modele językowe PLLuM i wdraża je w jednostkach administracji publicznej. Już wkrótce do grona użytkowników modeli PLLuM dojdą duże polskie miasta.

Pierwszym publicznie dostępnym efektem prac konsorcjum jest model językowy PLLuM-12B-nc-250715. Stanowi on istotne wzmocnienie rodziny polskojęzycznych modeli PLLuM. Model został zaktualizowany i zoptymalizowany do całej gamy zastosowań, w tym do zadań administracji publicznej. Co ważne, do sprawnej pracy nie potrzebuje dużych zasobów obliczeniowych.

Więcej niż kosmetyka

Model PLLuM-12B-nc, opublikowany w lutym 2025 roku, sprawdza się w wielu zastosowaniach, ale ze względu na nie w pełni optymalny zestaw danych uczących, jego możliwości pozostały częściowo niewykorzystane. Nowa wersja PLLuM-12B-nc-250715 została wytrenowana na znacznie lepiej przygotowanym zbiorze danych i dostrojona do nowych zadań, w tym zadań urzędowych. Potrafi m.in. tworzyć oficjalne e-maile czy wnioski i lepiej formatuje odpowiedzi.

„Nowa wersja modelu została przygotowana nie tylko na zbiorze danych o optymalnej jakości, ale też powiększonym o partię nowych tekstów m.in. z domeny gov.pl, w tym Biuletynu Informacji Publicznej, oraz z Biblioteki Nauki. Co warte podkreślenia, dane gromadzone są w sposób w pełni zgodny z prawem polskim i europejskim” – wyjaśnia dr Agnieszka Karlińska z NASK PIB, kierowniczka projektu HIVE AI.

Model PLLuM-12B-nc-250715 powstał w trzech wariantach, które różnią się stopniem przygotowania do konkretnych zadań:

  • base – to podstawowa wersja, która przeszła pełną adaptację językową na ogromnym polskojęzycznym zbiorze danych liczącym ok. 140 miliardów słów. To fundament, na którym zbudowano kolejne odsłony modelu.
  • instruct – wariant instrukcyjny, dostrojony do realizacji szeregu zadań w języku polskim. Oznacza to, że został nauczony odpowiadać na pytania i realizować polecenia na podstawie par promptów i przykładowych odpowiedzi, co ułatwia mu lepsze rozumienie intencji użytkownika.
  • chat – to najbardziej zaawansowana wersja, która przeszła dodatkowe “wychowanie”. Oprócz adaptacji językowej i dostrajania na instrukcjach, została zabezpieczona i dostosowana do oczekiwań użytkowników. Oparto ją na zbiorach promptów oraz odpowiedzi ocenianych przez ludzi jako lepsze lub gorsze, co pomaga jej reagować bardziej precyzyjnie i bezpiecznie podczas rozmów.

Jak podkreśla dr hab. Piotr Pęzik, prof. Uniwersytetu Łódzkiego, kierownik operacyjny projektu HIVE AI:

„Wyróżnikiem modeli PLLuM były zawsze autorskie zbiory danych do dostrajania modeli, czyli ich dostosowywania do określonych zadań. Pełna adaptacja językowa modeli jest możliwa tylko dzięki zbiorom mozolnie tworzonym od podstaw”.

Jak dodaje: „Od początku staliśmy na stanowisku, że masowe kopiowanie gotowych modeli AI, tzw. silnych LLM-ów wiąże się z szeregiem zagrożeń. Dlatego wypracowujemy metodologię kontrolowanego generowania danych syntetycznych, czyli takich, które powstają z udziałem innych modeli, ale są sprawdzane i zatwierdzane przez ludzi. Jej pierwsze efekty zostały wykorzystane w dostrajaniu nowych modeli 12B”.

Dzięki temu model lepiej rozumie polski kontekst kulturowy i odpowiada precyzyjniej, generując mniej zbędnych czy przypadkowych słów. Dodatkowo w porównaniu do poprzedniej wersji został jeszcze lepiej zabezpieczony. Testy podatności pokazały, że skuteczność ataków promptowych udało się zmniejszyć do 2-3 przypadków na 100 prób. To znacznie mniej niż w przypadku innych otwartych modeli.

„Żaden model nie będzie w 100 proc. zabezpieczony” – zauważa dr Karlińska. „Każdy można prędzej czy później skłonić do generowania treści toksycznych, obraźliwych czy nielegalnych. Staramy się, żeby w przypadku modeli z rodziny PLLuM było to maksymalnie utrudnione. Nasze testy podatności pokazują, że ryzyko zwracania niepożądanych treści przez wychowaną wersję PLLuM-12B-nc-250715 udało się istotnie ograniczyć”.

A to dopiero początek

Wszystkie wersje PLLuM-12B-nc-250715 są dostępne na HuggingFace, po wypełnieniu formularza. Wersję konwersacyjną można już teraz testować w aplikacji PLLuM chat. Przy testach warto pamiętać, modele PLLuM nie są na razie zintegrowane z wyszukiwarką internetową i nie powinno się z nich korzystać do poszukiwania informacji na tematy bieżące.

Ale PLLuM-12B-nc-250715 to dopiero początek planowanych premier. W najbliższych tygodniach konsorcjum zapowiada publikację kolejnych rezultatów projektu. Czego można się spodziewać?

„Nowe architektury i rozmiary modeli, zaktualizowany zbiór danych do wstępnego etapu uczenia modeli, czyli pretreningu, nowe dane do dostrajania, a w efekcie – nowe kompetencje i zastosowania, w domenie urzędowej i nie tylko” – zapowiada dr Karlińska. „Już wkrótce zaprezentujemy drugi produkt z rodziny PLLuM: prototyp jednoturowego asystenta (czatbota) obywatelskiego, zaprojektowany jeszcze w ubiegłym roku, który posłuży nam do zbierania promptów pod kątem wdrożenia modeli PLLuM w aplikacji mObywatel. Do tego coś wyjątkowo cennego dla badaczy i twórczyń modeli: podzbiory instrukcji i preferencji wraz ze szczegółowym opisem metodologii ich tworzenia”.

„Nie chcemy, żeby nasze deklaracje otwartości sprowadzały się jedynie do fasadowych
zapewnień” – podkreśla prof. Pęzik. „Dlatego docelowo zamierzamy uwolnić jak najwięcej danych do tworzenia modeli instrukcyjnych i wychowanych. Ułatwi to niezależnym zespołom, niekoniecznie dysponującym budżetem na tworzenie własnych zbiorów, włączenie się w rozwój polskiego ekosystemu AI. Pomożemy w ten sposób przezwyciężyć problem tzw. zimnego rozruchu w trenowaniu modeli”.

Podsumowanie

Wzmocnienie polskiej suwerenności cyfrowej nie wydarzy się bez rodzimych technologii opartych na sztucznej inteligencji. PLLuM-12B-nc-250715 i cały projekt HIVE AI to dowód, że Polska potrafi rozwijać własne modele językowe odpowiadające na nasze specyficzne potrzeby kulturowe, społeczne i administracyjne. To inwestycja w przyszłość, która pozwoli nie tylko budować bezpieczniejszą i sprawniejszą administrację, ale także wspierać rozwój nauki i innowacji w Polsce. Bo tylko własna AI daje prawdziwą niezależność.

Kolejne premiery konsorcjum HIVE AI zostaną ogłoszone w najbliższych tygodniach.

Udostępnij ten post

Wyróżnione aktualności

Dwóch mężczyzn w garniturach siedzi przy stole i przegląda dokumenty, za nimi stoją flagi Polski i Unii Europejskiej.
Typ_aktualnosc Aktualność
31 Października 2025|4 min. czytania

Fakty, nie mity. NASK i UMB wspólnie przeciw dezinformacji medycznej

NASK podpisuje kolejne porozumienie przeciwko dezinformacji medycznej i mówi stanowcze „nie” fake-newsom na temat zdrowia. Po Warszawskim Uniwersytecie Medycznym, czas na Uniwersytet Medyczny w Białymstoku.

Otwarcie ofert na pracownie AI i STEM
Typ_aktualnosc Aktualność
30 Października 2025|2 min. czytania

Szkoły coraz bliżej technologicznej rewolucji. Znamy oferty na szkolne laboratoria przyszłości!

Edukacyjna rewolucja nabiera tempa. Tysiące szkół w całej Polsce już wkrótce zyskają nowoczesne pracownie, w których uczniowie będą mogli rozwijać cyfrowe umiejętności i poznawać technologie przyszłości. 30 października w NASK otwarto oferty firm, które chcą wyposażyć szkoły w laboratoria sztucznej inteligencji i STEM – miejsca, gdzie nauka spotka się z technologią.

Grafika promująca Zawody OSINT CTF organizowane przez NASK, z datą 24–25 listopada 2025 i turkusową flagą z logo OSINT CTF na fioletowym tle.
Typ_aktualnosc Aktualność
31 Października 2025|3 min. czytania

Zostań internetowym detektywem i sprawdź się w zawodach OSINT CTF

Internetowe śledztwa, szukanie tropów i łączenie kropek – brzmi znajomo? Jeśli lubisz rozwiązywać zagadki ukryte w labiryncie danych, zawody OSINT CTF NASK 2025 to miejsce, w którym poczujesz się jak w domu. Właśnie rusza rejestracja uczestników.

Grafika promująca Kongres OSE 2025 organizowany przez NASK. Na plakacie widnieje hasło wydarzenia: „Szacunek i odporność społeczna – edukacja wobec hejtu, AI i wyzwań przyszłości”. W tle widoczny jest nowoczesny, niebieski motyw graficzny symbolizujący technologię i edukację cyfrową. Na dole umieszczono informacje o dacie wydarzenia – 2 grudnia 2024 roku – oraz link do strony rejestracyjnej: kongres.ose.gov.pl.
Typ_aktualnosc Aktualność
03 Listopada 2025|4 min. czytania

Kongres OSE 2025 – zarejestruj się!

Jak promować język szacunku w cyfrowym świecie? W jaki sposób budować w szkole przestrzeń dla dialogu i różnicy zdań? Na te i inne pytania odpowiedzą eksperci podczas Kongresu OSE, który jest organizowany przez NASK. Wydarzenie odbędzie się 2 grudnia. Właśnie ruszyła rejestracja uczestników. Na zgłoszenia czekamy do 24 listopada.

Informacje

Najnowsze aktualności

Osoba siedzi przy drewnianym stole w restauracji, trzyma nóż i widelec nad talerzem, na którym leży smartfon przykryty kawałkiem mięsa z ziołami.
Typ_aktualnosc Aktualność
17 Grudnia 2025|8 min. czytania

Od lajków do lęków – zaburzenia odżywiania w erze scrollowania

Zaburzenia psychiczne związane z jedzeniem i zniekształcony obraz ciała coraz częściej zaczynają się od ekranu telefonu. Problem ten wpisuje się szerzej w kryzys zdrowia psychicznego zanurzonych w środowisku cyfrowym młodych ludzi. Nastolatki patrzą na idealny świat w mediach społecznościowych, a siebie widzą w krzywym zwierciadle.

Dwaj mężczyźni siedzą przy stole i podpisują dokument o współpracy między NASK a CPK. Po lewej stronie siedzi prezes CPK w granatowym garniturze, uśmiechnięty, z długopisem w dłoni. Po prawej stronie znajduje się dyrektor NASK, dr inż. Radosław Nielek, w jasnoniebieskiej marynarce. Obaj podpisują dokument o współpracy przy stole, a w tle widoczne są logotypy NASK i CPK.
Typ_aktualnosc Aktualność
15 Grudnia 2025|6 min. czytania

Port Polska z NASK

Rozwój nowoczesnej infrastruktury transportowej to dziś nie tylko wyzwanie inżynieryjne, ale również cyfrowe. W erze, gdy każdy element systemu jest połączony i zdigitalizowany, odporność na zagrożenia cybernetyczne staje się równie istotna jak beton czy stal.

Grafika promująca premierę poradnika „ABC cyberbezpieczeństwa 2.0”; na środku widoczna okładka publikacji z hasłami dotyczącymi cyberhigieny i reagowania, obok informacje o 220 nowych i zaktualizowanych definicjach oraz aktualnej wiedzy, poniżej przycisk „Pobierz za darmo”.
Typ_aktualnosc Aktualność
12 Grudnia 2025|4 min. czytania

Jak nie utonąć w oceanie internetu? NASK podpowiada

Cyberprzestępcy nie śpią, a ich metody zmieniają się tak szybko, jak szybko rozwija się technologia. Jak nie dać się złapać w sieciowe pułapki? Z pomocą przychodzi nowa publikacja NASK – „ABC cyberbezpieczeństwa 2.0”, poradnik przygotowany w ramach OSE.