
Opublikowany w środę nowy wariant PLLuM został wytrenowany na większym zbiorze danych, dostrojony do nowych zadań, m.in. urzędowych oraz lepiej zabezpieczony przed atakami - przekazał Instytut NASK w komunikacie. Zaktualizowany polski model został udostępniony w trzech wersjach.
Jak wskazał NASK-PIB, nowy wariant polskiego modelu AI, czyli PLLuM-12B-nc-250715 został wytrenowany na „znacznie lepiej” przygotowanym i większym zbiorze danych; został też dostrojony do nowych zadań, w tym zadań urzędowych.
Model trenowany był m.in. na tekstach z domeny gov. pl, Biuletynu Informacji Publicznej oraz z Biblioteki Nauki. „Dane gromadzone są w sposób w pełni zgodny z prawem polskim i europejskim” – podkreśliła w komunikacie dr Agnieszka Karlińska z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu NASK.
Jak podano, zaktualizowany PLLuM dostępny jest w trzech wariantach: bazowym, instrukcyjnym, czyli dostosowanym do realizacji szeregu zadań oraz „wychowanym”, czyli zabezpieczonym przed nadużyciami. Ta ostania wersja, jest „najbardziej zaawansowana” - podkreślił instytut NASK. Oparto ją na zbiorach promptów (zapytań - PAP) oraz odpowiedzi ocenianych przez ludzi jako lepsze lub gorsze, co pomaga jej reagować bardziej precyzyjnie i bezpiecznie podczas rozmów.
Modele z tej serii są dostępne na platformie Hugging Face, skąd, po wypełnieniu formularza, może je pobrać każdy użytkownik - dodano.
„Od początku staliśmy na stanowisku, że masowe kopiowanie gotowych modeli AI, tzw. silnych LLM-ów wiąże się z szeregiem zagrożeń. Dlatego wypracowujemy metodologię kontrolowanego generowania danych syntetycznych, czyli takich, które powstają z udziałem innych modeli, ale są sprawdzane i zatwierdzane przez ludzi” - wskazał dr hab. Piotr Pęzik, prof. Uniwersytetu Łódzkiego, kierownik operacyjny projektu HIVE AI, odpowiedzialnego za polski model. Dzięki temu PLLuM lepiej rozumie polski kontekst kulturowy i odpowiada precyzyjniej, a także generuje mniej zbędnych i przypadkowych słów - wyjaśniono.
Model został też dodatkowo zabezpieczony przed atakami - zapewniono. Testy podatności pokazały, że skuteczność ataków promptowych udało się zmniejszyć do 2-3 przypadków na 100 prób. To znacznie mniej niż w przypadku innych otwartych modeli - zaznaczył NASK. Ataki promoptowe (z ang. prmompt injcetion) to technika, w której atakujący kieruje „złośliwe” instrukcje, obchodząc zabezpieczenia modele, wskutek czego może dojść np. do generowania szkodliwych odpowiedzi, czy ujawniania poufnych informacji.
Dr Karlińska zapowiedziała, że konsorcjum HIVE „już wkrótce” zaprezentuje drugi produkt z rodziny PLLuM - prototyp asystenta (czatbota) obywatelskiego, który posłuży badaczom do zbierania promptów pod kątem wdrożenia modeli PLLuM w aplikacji mObywatel.
NASK podała, że kolejne premiery konsorcjum HIVE AI zostaną ogłoszone w najbliższych tygodniach.
PLLuM to model językowy stworzony dla administracji, firm i naukowców, a także dla obywateli - w formie czatbotu. Miał on swoją premierę pod koniec lutego br. Ministerstwo Cyfryzacji ogłosiło wtedy powołanie HIVE AI, czyli konsorcjum polskich ośrodków naukowych oraz instytucji skupionych wokół usług cyfrowych, na czele którego stoi NASK-PIB. Konsorcjum opracowuje nowe polskojęzyczne modele językowe PLLuM i wdraża je w jednostkach administracji publicznej. (PAP)
mbl/ mick/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.