Typ_aktualnosc Aktualność
17 Listopada 2025|4 min. czytania

Jak wychować AI? Poznaj PLLuM-Align

PLLuM-Align to pierwszy w Polsce otwarty zbiór danych z przykładami ludzkich preferencji. Służy do ulepszania i dostrajania modeli językowych. Zawiera ponad 4 tys. ręcznie ocenionych przykładów, które pomagają tworzyć bezpieczne, pomocne i zgodne z polskim kontekstem odpowiedzi.

Grafika promująca model językowy PLLuM. Na górze znajdują się geometryczne kształty w kolorach fioletu, turkusu i bieli. Na dole widnieje logo PLLuM wraz z napisem „Polish Large Language Model”.
Łuna gradientu wychodząca od dołu

Do tej pory polscy twórcy modeli językowych dysponowali obszernymi zasobami tekstowymi, ale brakowało im zbioru danych umożliwiającego alignment. To „wychowanie” LLM-ów tak, aby udzielały odpowiedzi nie tylko zgodnych z faktami, ale też bezpiecznych, pozbawionych uprzedzeń oraz adekwatnych do polskiego kontekstu kulturowego. Ten brak stanowił istotną barierę dla odpowiedzialnego rozwoju modeli polskojęzycznych.

– Alignment, który nazywamy „wychowaniem”, to proces uczenia modelu, jakich odpowiedzi powinien udzielać, a jakich unikać – wyjaśnia mgr Karolina Seweryn.

Zespół koordynowany przez badaczki z NASK – dr Annę Kołos, mgr Karolinę Seweryn i dr Agnieszkę Karlińską – wypełnił tę lukę, udostępniając PLLuM-Align.

– Przygotowanie zbioru było procesem wieloetapowym – tłumaczy dr Anna Kołos. – Zaczynaliśmy od stworzenia kilku kategorii promptów odpowiadających realnym wyzwaniom, z jakimi zmagają się modele językowe. Każdy prompt trafiał następnie do oceniających, którzy analizowali odpowiedzi generowane przez modele. Pracowaliśmy wyłącznie na danych ocenianych przez ludzi, a każdą informację weryfikowaliśmy ręcznie. Taka wieloetapowa procedura pozwoliła nam uzyskać zbiór jednocześnie zróżnicowany i bardzo wysokiej jakości.

PLLuM-Align to część większego zbioru, który wykorzystywany jest do dostrajania modeli z rodziny PLLuM. Zawiera 4 307 ręcznie ocenionych przykładów pytań i odpowiedzi, od prostych zapytań użytkowników, przez pytania wymagające faktograficznej precyzji, aż po tzw. prompty adwersaryjne, czyli celowo trudne, prowokacyjne i często niebezpieczne sytuacje, w których model może zostać skłoniony do wygenerowania treści szkodliwych. Dane te mogą być wykorzystane do alignmentu polsko- lub wielojęzycznych modeli językowych.

– Preferencje są jednym z najważniejszych narzędzi w procesie dostrajania modeli językowych. Dzięki nim modele uczą się nie tylko jasnego formułowania odpowiedzi, ale też rozróżniania między odpowiedziami pomocnymi a tymi, które mogą wprowadzać w błąd, wspierać szkodliwe narracje lub naruszać normy społeczne. Dzięki preferencjom chcemy nauczyć modele PLLuM tworzenia treści, które są jednocześnie poprawne merytorycznie i językowo, pomocne oraz możliwie wyważone i bezpieczne – wyjaśnia dr Agnieszka Karlińska, kierowniczka projektu HIVE AI, w ramach którego rozwijane są obecnie modele PLLuM.

ABC PLLuM-Align

Zbiór preferencji składa się z promptów (zapytań do modeli) i par odpowiedzi ocenianych wysoko i nisko m.in. pod kątem poprawności, pomocności, spójności czy szeroko rozumianego bezpieczeństwa.

– Nasze eksperymenty pokazują, że modele wychowane z wykorzystaniem PLLuM-Align nie tylko tworzą trafniejsze i bardziej pomocne odpowiedzi, ale także znacznie lepiej radzą sobie w sytuacjach prowokacyjnych. To ważny krok w kierunku bezpieczniejszych modeli językowych dostosowanych do polskiego kontekstu – mówi mgr Karolina Seweryn.

W przygotowanie promptów i ocenę odpowiedzi zaangażowanych było ponad 50 osób, w tym członkowie zespołu NASK oraz inni partnerzy konsorcjum PLLuM, dzięki czemu udało się uwzględnić różnorodne perspektywy i doświadczenia. Twórcy zbioru świadomie zrezygnowali z metod automatycznego generowania preferencji, żeby zagwarantować najwyższą jakość merytoryczną i bezpieczeństwo.

To podejście wyraźnie odróżnia PLLuM-Align od wielu anglojęzycznych zbiorów, które często korzystają z danych syntetycznych, a więc tworzonych przez inne modele językowe. Dzięki temu PLLuM-Align idealnie nadaje się do treningu modeli wykorzystywanych w krytycznych zastosowaniach – np. w administracji publicznej, edukacji, sektorze prawnym czy ochronie zdrowia.

Otwarty i dostępny dla każdego

Zbiór PLLuM-Align został udostępniony na otwartej licencji na platformie Hugging Face i może być wykorzystywany zarówno do badań naukowych, jak i rozwoju aplikacji komercyjnych. Udostępniając go publicznie, zespół PLLuM i HIVE AI chce wspierać rozwój bezpiecznego, odpowiedzialnego i transparentnego ekosystemu modeli językowych w Polsce. Szczegółowy opis procedury tworzenia zbioru oraz możliwe sposoby jego wykorzystania zostały przedstawione w ogólnodostępnej publikacji.

Prace nad zbiorem preferencji prowadzone były w ramach projektu PLLuM, realizowanego przez konsorcjum naukowe, w skład którego – poza NASK – wchodziły Politechnika Wrocławska (lider), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy oraz Uniwersytet Łódzki. Prace nad rozwojem modeli PLLuM i dalszym udoskonalaniem zbioru są kontynuowane w ramach konsorcjum HIVE AI, którego liderem pozostaje NASK.

Tematy powiązane
Udostępnij ten post

Wyróżnione aktualności

Abstrakcyjna, futurystyczna scena przedstawiająca unoszące się w przestrzeni metaliczne panele i siatki, oświetlone jasnymi promieniami światła na tle gwiazd i mgławicy. Elementy wyglądają jak fragmenty cyfrowej lub kosmicznej struktury.
Typ_aktualnosc Aktualność
29 Grudnia 2025|6 min. czytania

NASK rozwinie komunikację kwantową z europejskimi satelitami

Międzynarodowe konsorcjum pod przewodnictwem NASK zbuduje optyczną stację naziemną umożliwiającą kwantowe ustalanie klucza (QKD) z europejskimi satelitami. Projekt PIONIER-Q-SAT umożliwi łączność m.in. z satelitą Eagle-1 i połączy Polskę z innymi krajami biorącymi udział w programie EuroQCI Komisji Europejskiej.

Osoba siedzi przy drewnianym stole w restauracji, trzyma nóż i widelec nad talerzem, na którym leży smartfon przykryty kawałkiem mięsa z ziołami.
Typ_aktualnosc Aktualność
17 Grudnia 2025|8 min. czytania

Od lajków do lęków – zaburzenia odżywiania w erze scrollowania

Zaburzenia psychiczne związane z jedzeniem i zniekształcony obraz ciała coraz częściej zaczynają się od ekranu telefonu. Problem ten wpisuje się szerzej w kryzys zdrowia psychicznego zanurzonych w środowisku cyfrowym młodych ludzi. Nastolatki patrzą na idealny świat w mediach społecznościowych, a siebie widzą w krzywym zwierciadle.

Poradnik zakupowy NASK
Typ_aktualnosc Aktualność
27 Listopada 2025|3 min. czytania

Okazja czy pułapka? Kupuj bezpiecznie online

Black Friday i Cyber Monday wyewoluowały w całe tygodnie kuszące okazjami i promocjami, a gorączka świątecznych zakupów już się rozpoczęła. Wiedzą o tym nie tylko klienci, ale i cyberprzestępcy. By się przed nimi ustrzec, warto zajrzeć do najnowszej publikacji NASK o bezpiecznych zakupach online.

Panel dyskusyjny w centrum prasowym PAP. Na scenie Małgorzata Rozenek-Majdan, Iwona Prószyńska i Dariusz Standerski. Standerski mówi do mikrofonu. Widać kamery nagrywające wydarzenie i publiczność na sali.
Typ_aktualnosc Aktualność
12 Listopada 2025|7 min. czytania

Wolność w sieci czy era regulacji?

Co zmieni się w internecie po wdrożeniu unijnych regulacji DSA? Jak nowe prawo może wpłynąć na nasze bezpieczeństwo, ochronę dzieci i wizerunku, a także przyszłość cyfrowej komunikacji? Odpowiedzi na te pytania padły podczas debaty Strefy Dialogu Jutra Human Answer Institute w Polskiej Agencji Prasowej.

Informacje

Najnowsze aktualności

Prelegentka trzyma mikrofon i stoi obok ekranu z prezentacją „Modele PLLuM gotowe do publikacji”; na slajdzie widoczne są warianty modeli PLLuM i Llama-PLLuM w formie kolorowych bloków, a na pierwszym planie siedzi publiczność.
Typ_aktualnosc Aktualność
19 Stycznia 2026|8 min. czytania

Od modeli do wdrożeń – PLLuM na ścieżce realnych zastosowań

PLLuM wspiera już w codziennej pracy urzędników w Gdyni i Poznaniu, a także miliony użytkowników aplikacji mObywatel. Podczas drugiego śniadania z PLLuMem podsumowano postępy w rozwoju polskiej sztucznej inteligencji. Uczestnicy spotkania poznali rezultaty projektu HIVE AI, plany publikacji nowych modeli oraz doświadczenia z pilotażowych wdrożeń.

Napis Koryntia z planetą w tle
Typ_aktualnosc Aktualność
19 Stycznia 2026|5 min. czytania

Koryntia – gdy dezinformacja staje się bronią

Wyobraź sobie rok 2055. Świat, który znasz, właśnie się rozpada – zasoby są na wyczerpaniu, zaufanie stało się luksusem, a stabilność to wspomnienie. W tym chaosie pojawia się „Eksperyment”: selekcja, która ma wyłonić nielicznych szczęśliwców. Nagroda? Nowe życie w kolonii Koryntia.

Grafika promocyjna z kotem w futurystycznym hełmie i goglach; u góry napis „Odgadnij to: CYBERMASTER”, w tle ikony kłódek i symboli cyberbezpieczeństwa, na dole logotypy m.in. NASK oraz adres saferinternet.pl.
Typ_aktualnosc Aktualność
16 Stycznia 2026|4 min. czytania

„Cybermaster” wchodzi do gry. Nowy edukacyjny projekt NASK

Najpierw jest śmiech. Potem ruch, skojarzenia, szybkie hasła. A na końcu – rozmowa o tym, czym jest phishing, dlaczego hasło to nie „1234” i jak dbać o higienę cyfrową. Tak działa „Odgadnij to: Cybermaster”, czyli nowa gra edukacyjna o cyberbezpieczeństwie.