
Stażysta/-ka NLP - RAG
- 5000 brutto
- Warszawa
- - umowa o staż
- - pełny etat
- - stażysta
- - praca hybrydowa
Oferujemy staż badawczy w Zakładzie Przetwarzania Języka Naturalnego. Celem stażu jest prowadzenie badań dot. RAG oraz napisanie na podstawie tych prac publikacji naukowej.
Celem planowanego projektu jest stworzenie narzędzia dla Ośrodka Studiów Wschodnich w postaci chatbota opartego na architekturze Retrieval-Augmented Generation (RAG). Projektowany system ma wspierać analityków OSW w ich codziennej pracy poprzez usprawnienie dostępu do wiedzy oraz automatyzację procesu wyszukiwania. Realizacja takiego rozwiązania może w dłuższej perspektywie przyczynić się do nawiązania stałej współpracy z Ośrodkiem Studiów Wschodnich, obejmującej zarówno utrzymanie, jak i dalszy rozwój systemu.
Rozwój kompetencji w zakresie budowy systemów opartych o RAG jest strategicznie istotny dla Zakładu NLP, ze względu na duże zainteresowanie tą technologią zarówno w sektorze publicznym, jak i komercyjnym. Staż umożliwi praktyczne rozwijanie i testowanie nowoczesnych rozwiązań w ramach budowy chatbota wykorzystującego RAG.
Dodatkowo, stażysta będzie wspierał badania nad wykorzystaniem dużych modeli językowych oraz zaawansowanych technik NLP w wykrywaniu dezinformacji i propagandy. Działania te mają szczególne znaczenie w kontekście niedawno nawiązanej współpracy z Pionem Ochrony Informacyjnej Cyberprzestrzeni. Rozwój metod analizy treści pod kątem dezinformacji może stanowić istotną wartość zarówno naukową, jak i aplikacyjną. Istotnym elementem realizacji stażu będzie przegląd aktualnej literatury naukowej, prowadzenie eksperymentów oraz analiza ich wyników, co stworzy podstawy do przygotowania publikacji naukowej. Planowane jest zgłoszenie wyników badań do renomowanych konferencji międzynarodowych, takich jak EACL lub EMNLP, co przyczyni się do zwiększenia rozpoznawalności jednostki oraz wzmocnienia jej pozycji w środowisku naukowym.
Podsumowując, realizacja stażu przyczyni się zarówno do rozwoju kompetencji badawczych i technologicznych Zakładu NLP, jak i do budowy relacji z partnerami instytucjonalnymi oraz zwiększenia potencjału publikacyjnego jednostki.
Twój zakres obowiązków:
- Przygotowanie i przetwarzanie danych tekstowych na potrzeby budowy baz wiedzy wykorzystywanych w systemach RAG
- Rozwój komponentu retrieval: eksperymenty z embeddingami, optymalizacja wyszukiwania (np. reranking), implementacja technik query rewriting
- Integracja komponentu retrieval z modelami językowymi: projektowanie pipeline’u RAG (retrieval + generation)
- Opracowanie i implementacja metod ewaluacji systemu: ewaluacja jakości retrievalu i generowanych odpowiedzi, iteracyjne ulepszanie systemu
- Wsparcie wdrożeń systemów opartych na RAG w zastosowaniach analitycznych i instytucjonalnych
- Przegląd literatury naukowej i badania w zakresie wykorzystania dużych modeli językowych i innych technik przetwarzania języka naturalnego w wykrywaniu dezinformacji i propagandy
- Analiza wyników eksperymentów oraz udział w przygotowaniu publikacji naukowej
Nasze wymagania:
- Student lub absolwent studiów magisterskich (preferowane kierunki: informatyka, matematyka lub pokrewne)
- Wiedza z zakresu przetwarzania języka naturalnego (NLP), w szczególności znajomość modeli językowych opartych na architekturze Transformer
- Doświadczenie w pracy z Pythonem i bibliotekami do uczenia maszynowego (PyTorch, Hugging Face Transformers)
- Znajomość zagadnień związanych z transfer learning i adaptacją modeli do domeny specjalistycznej (mile widziana)
- Umiejętność pracy z dużymi zbiorami danych tekstowych (przetwarzanie, czyszczenie, analiza)
- Umiejętność pracy zespołowej, dobra organizacja pracy oraz znajomość języka angielskiego na poziomie umożliwiającym czytanie literatury naukowej.
- Zainteresowanie i pierwsze doświadczenia w budowie systemów typu Retrieval-Augmented Generation (RAG)
- Zainteresowania badawcze w zakresie RAG oraz/lub zastosowań NLP w analizie dezinformacji
Oferujemy:
- 3-miesięczny staż w Zakładzie naukowym Przetwarzania Języka Naturalnego w Zespole Inżynierii Lingwistycznej
- Staż w pełnym wymiarze godzin tygodniowo
- Wynagrodzenie 5000 PLN miesięcznie
- Możliwość rozwoju naukowego
Zapewniamy dobre warunki pracy
O właściwych ludzi trzeba odpowiednio dbać. Dlatego oferujemy cały szereg dodatkowych korzyści. Od szkoleń i kursów zawodowych, poprzez zajęcia z jogi i owocowe czwartki, po dofinansowaną kartę Multisport albo zwrot za bilety do kina czy teatru. To wszystko jest jednak dodatkiem do tego, że po prostu dobrze się z nami pracuje.
Zaczynamy między 7 a 10 rano.
Dbamy o zachowanie zdrowego podejścia do obowiązków służbowych.
Daje możliwość podnoszenia swoich kompetencji.
Działamy na pograniczu nauki, cyberbezpieczeństwa i nowych technologii.
Każdy pracownik ma możliwość korzystania z prywatnej opieki medycznej
Zachęcamy do aktywności sportowej lub uzyskania zwrotu za wydatki poniesione na kulturę.
Zwracamy część kosztów związanych z urlopem (tzw. wakacje pod gruszą).
Dajemy możliwość zawarcia dodatkowego ubezpieczenia na życie.