Typ_aktualnosc Aktualność
17 Listopada 2025|4 min. czytania

Jak wychować AI? Poznaj PLLuM-Align

PLLuM-Align to pierwszy w Polsce otwarty zbiór danych z przykładami ludzkich preferencji. Służy do ulepszania i dostrajania modeli językowych. Zawiera ponad 4 tys. ręcznie ocenionych przykładów, które pomagają tworzyć bezpieczne, pomocne i zgodne z polskim kontekstem odpowiedzi.

Grafika promująca model językowy PLLuM. Na górze znajdują się geometryczne kształty w kolorach fioletu, turkusu i bieli. Na dole widnieje logo PLLuM wraz z napisem „Polish Large Language Model”.
Łuna gradientu wychodząca od dołu

Do tej pory polscy twórcy modeli językowych dysponowali obszernymi zasobami tekstowymi, ale brakowało im zbioru danych umożliwiającego alignment. To „wychowanie” LLM-ów tak, aby udzielały odpowiedzi nie tylko zgodnych z faktami, ale też bezpiecznych, pozbawionych uprzedzeń oraz adekwatnych do polskiego kontekstu kulturowego. Ten brak stanowił istotną barierę dla odpowiedzialnego rozwoju modeli polskojęzycznych.

– Alignment, który nazywamy „wychowaniem”, to proces uczenia modelu, jakich odpowiedzi powinien udzielać, a jakich unikać – wyjaśnia mgr Karolina Seweryn.

Zespół koordynowany przez badaczki z NASK – dr Annę Kołos, mgr Karolinę Seweryn i dr Agnieszkę Karlińską – wypełnił tę lukę, udostępniając PLLuM-Align.

– Przygotowanie zbioru było procesem wieloetapowym – tłumaczy dr Anna Kołos. – Zaczynaliśmy od stworzenia kilku kategorii promptów odpowiadających realnym wyzwaniom, z jakimi zmagają się modele językowe. Każdy prompt trafiał następnie do oceniających, którzy analizowali odpowiedzi generowane przez modele. Pracowaliśmy wyłącznie na danych ocenianych przez ludzi, a każdą informację weryfikowaliśmy ręcznie. Taka wieloetapowa procedura pozwoliła nam uzyskać zbiór jednocześnie zróżnicowany i bardzo wysokiej jakości.

PLLuM-Align to część większego zbioru, który wykorzystywany jest do dostrajania modeli z rodziny PLLuM. Zawiera 4 307 ręcznie ocenionych przykładów pytań i odpowiedzi, od prostych zapytań użytkowników, przez pytania wymagające faktograficznej precyzji, aż po tzw. prompty adwersaryjne, czyli celowo trudne, prowokacyjne i często niebezpieczne sytuacje, w których model może zostać skłoniony do wygenerowania treści szkodliwych. Dane te mogą być wykorzystane do alignmentu polsko- lub wielojęzycznych modeli językowych.

– Preferencje są jednym z najważniejszych narzędzi w procesie dostrajania modeli językowych. Dzięki nim modele uczą się nie tylko jasnego formułowania odpowiedzi, ale też rozróżniania między odpowiedziami pomocnymi a tymi, które mogą wprowadzać w błąd, wspierać szkodliwe narracje lub naruszać normy społeczne. Dzięki preferencjom chcemy nauczyć modele PLLuM tworzenia treści, które są jednocześnie poprawne merytorycznie i językowo, pomocne oraz możliwie wyważone i bezpieczne – wyjaśnia dr Agnieszka Karlińska, kierowniczka projektu HIVE AI, w ramach którego rozwijane są obecnie modele PLLuM.

ABC PLLuM-Align

Zbiór preferencji składa się z promptów (zapytań do modeli) i par odpowiedzi ocenianych wysoko i nisko m.in. pod kątem poprawności, pomocności, spójności czy szeroko rozumianego bezpieczeństwa.

– Nasze eksperymenty pokazują, że modele wychowane z wykorzystaniem PLLuM-Align nie tylko tworzą trafniejsze i bardziej pomocne odpowiedzi, ale także znacznie lepiej radzą sobie w sytuacjach prowokacyjnych. To ważny krok w kierunku bezpieczniejszych modeli językowych dostosowanych do polskiego kontekstu – mówi mgr Karolina Seweryn.

W przygotowanie promptów i ocenę odpowiedzi zaangażowanych było ponad 50 osób, w tym członkowie zespołu NASK oraz inni partnerzy konsorcjum PLLuM, dzięki czemu udało się uwzględnić różnorodne perspektywy i doświadczenia. Twórcy zbioru świadomie zrezygnowali z metod automatycznego generowania preferencji, żeby zagwarantować najwyższą jakość merytoryczną i bezpieczeństwo.

To podejście wyraźnie odróżnia PLLuM-Align od wielu anglojęzycznych zbiorów, które często korzystają z danych syntetycznych, a więc tworzonych przez inne modele językowe. Dzięki temu PLLuM-Align idealnie nadaje się do treningu modeli wykorzystywanych w krytycznych zastosowaniach – np. w administracji publicznej, edukacji, sektorze prawnym czy ochronie zdrowia.

Otwarty i dostępny dla każdego

Zbiór PLLuM-Align został udostępniony na otwartej licencji na platformie Hugging Face i może być wykorzystywany zarówno do badań naukowych, jak i rozwoju aplikacji komercyjnych. Udostępniając go publicznie, zespół PLLuM i HIVE AI chce wspierać rozwój bezpiecznego, odpowiedzialnego i transparentnego ekosystemu modeli językowych w Polsce. Szczegółowy opis procedury tworzenia zbioru oraz możliwe sposoby jego wykorzystania zostały przedstawione w ogólnodostępnej publikacji.

Prace nad zbiorem preferencji prowadzone były w ramach projektu PLLuM, realizowanego przez konsorcjum naukowe, w skład którego – poza NASK – wchodziły Politechnika Wrocławska (lider), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy oraz Uniwersytet Łódzki. Prace nad rozwojem modeli PLLuM i dalszym udoskonalaniem zbioru są kontynuowane w ramach konsorcjum HIVE AI, którego liderem pozostaje NASK.

Tematy powiązane
Udostępnij ten post

Wyróżnione aktualności

Dwóch mężczyzn w garniturach siedzi przy stole i przegląda dokumenty, za nimi stoją flagi Polski i Unii Europejskiej.
Typ_aktualnosc Aktualność
31 Października 2025|4 min. czytania

Fakty, nie mity. NASK i UMB wspólnie przeciw dezinformacji medycznej

NASK podpisuje kolejne porozumienie przeciwko dezinformacji medycznej i mówi stanowcze „nie” fake-newsom na temat zdrowia. Po Warszawskim Uniwersytecie Medycznym, czas na Uniwersytet Medyczny w Białymstoku.

Otwarcie ofert na pracownie AI i STEM
Typ_aktualnosc Aktualność
30 Października 2025|2 min. czytania

Szkoły coraz bliżej technologicznej rewolucji. Znamy oferty na szkolne laboratoria przyszłości!

Edukacyjna rewolucja nabiera tempa. Tysiące szkół w całej Polsce już wkrótce zyskają nowoczesne pracownie, w których uczniowie będą mogli rozwijać cyfrowe umiejętności i poznawać technologie przyszłości. 30 października w NASK otwarto oferty firm, które chcą wyposażyć szkoły w laboratoria sztucznej inteligencji i STEM – miejsca, gdzie nauka spotka się z technologią.

Grafika promująca Zawody OSINT CTF organizowane przez NASK, z datą 24–25 listopada 2025 i turkusową flagą z logo OSINT CTF na fioletowym tle.
Typ_aktualnosc Aktualność
31 Października 2025|3 min. czytania

Zostań internetowym detektywem i sprawdź się w zawodach OSINT CTF

Internetowe śledztwa, szukanie tropów i łączenie kropek – brzmi znajomo? Jeśli lubisz rozwiązywać zagadki ukryte w labiryncie danych, zawody OSINT CTF NASK 2025 to miejsce, w którym poczujesz się jak w domu. Właśnie rusza rejestracja uczestników.

Grafika promująca Kongres OSE 2025 organizowany przez NASK. Na plakacie widnieje hasło wydarzenia: „Szacunek i odporność społeczna – edukacja wobec hejtu, AI i wyzwań przyszłości”. W tle widoczny jest nowoczesny, niebieski motyw graficzny symbolizujący technologię i edukację cyfrową. Na dole umieszczono informacje o dacie wydarzenia – 2 grudnia 2024 roku – oraz link do strony rejestracyjnej: kongres.ose.gov.pl.
Typ_aktualnosc Aktualność
03 Listopada 2025|4 min. czytania

Kongres OSE 2025 – zarejestruj się!

Jak promować język szacunku w cyfrowym świecie? W jaki sposób budować w szkole przestrzeń dla dialogu i różnicy zdań? Na te i inne pytania odpowiedzą eksperci podczas Kongresu OSE, który jest organizowany przez NASK. Wydarzenie odbędzie się 2 grudnia. Właśnie ruszyła rejestracja uczestników. Na zgłoszenia czekamy do 24 listopada.

Informacje

Najnowsze aktualności

Zbliżenie na podświetlone logo PLLuM – Polish Large Language Model – na stoisku Polski podczas międzynarodowych targów technologicznych. W tle widoczne oznaczenia Ministerstwa Cyfryzacji.
Typ_aktualnosc Aktualność
13 Listopada 2025|4 min. czytania

Polska w centrum innowacji - Web Summit 2025 

– Polska staje się symbolem nowej Europy – ambitnej, zmotywowanej i zorganizowanej. Gdy część Europy Zachodniej zwalnia, Polska i Europa Wschodnia nabierają rozpędu – mówił w Lizbonie Paddy Cosgrave, CEO Web Summit.

Panel dyskusyjny w centrum prasowym PAP. Na scenie Małgorzata Rozenek-Majdan, Iwona Prószyńska i Dariusz Standerski. Standerski mówi do mikrofonu. Widać kamery nagrywające wydarzenie i publiczność na sali.
Typ_aktualnosc Aktualność
12 Listopada 2025|7 min. czytania

Wolność w sieci czy era regulacji?

Co zmieni się w internecie po wdrożeniu unijnych regulacji DSA? Jak nowe prawo może wpłynąć na nasze bezpieczeństwo, ochronę dzieci i wizerunku, a także przyszłość cyfrowej komunikacji? Odpowiedzi na te pytania padły podczas debaty Strefy Dialogu Jutra Human Answer Institute w Polskiej Agencji Prasowej.

NASK na Web Summit
Typ_aktualnosc Aktualność
07 Listopada 2025|4 min. czytania

Polska technologia wśród światowych liderów - NASK i PLLuM na Web Summit 2025

Ponad 70 tysięcy uczestników, 3 tysiące wystawców, 160 krajów i cztery dni rozmów o technologii, która zmienia świat, czyli Web Summit 2025. To jedno z największych i najważniejszych wydarzeń branży technologicznej na świecie. W halach MEO Arena w Lizbonie 10 listopada spotkają się liderzy firm technologicznych, naukowcy, startupy i przedstawiciele administracji publicznej.