Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH

Adobe Stock
Adobe Stock

Udostępniono nową wersję Bielika. To ogromny model językowy o otwartym kodzie źródłowym, który uczy się generowania tekstów na podstawie ogromnej bazy polskich tekstów. W szkoleniu Bielika wykorzystano zasoby obliczeniowe dwóch najszybszych superkomputerów w Polsce - Heliosa i Atheny przy krakowskim AGH.

Model językowy ma - w założeniu sprawniej, niż zagraniczne modele językowe - posługiwać się językiem polskim i lepiej poruszać się w polskich realiach. Poza tym jest opensource'owy, dzięki czemu można go będzie używać również do przetwarzania niepublicznych baz danych.

Pod koniec sierpnia udostępniono nową wersję modelu językowego - Bielik-11B-v2. Bielik powstał w efekcie prac zespołu działającego w ramach Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH i jest polskim modelem z kategorii LLM (z ang. Large Language Models), tj. dużym modelem językowym, posiadającym 11 miliardów parametrów.

"Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie" – tłumaczy cytowany w komunikacie AGH pomysłodawca Bielika, Sebastian Kondracki ze SpeakLeash.

SpeakLeash to fundacja, której członkowie postawili sobie za cel stworzenie największego polskiego zbioru danych tekstowych. I dopięli swego: jak podkreślają, obecnie zasoby fundacji SpeakLeash są największym, najlepiej opisanym i udokumentowanym zbiorem danych w języku polskim.

W treningu Bielika wykorzystano superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH. Jak informuje rzeczniczka uczelni, wsparcie zespołu ACK Cyfronet dotyczyło optymalizacji i skalowania procesów treningowych, prac nad potokami przetwarzania danych oraz rozwoju i działania metod generowania danych syntetycznych, a także prac w zakresie metod testowania modeli.

Wynikiem tego jest Polski ranking modeli (Polish OpenLLM Leaderboard).

"Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych" – precyzuje Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – "Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego".

Magryś przyznaje, że nawet największe polskie superkomputery nie mogą się równać z możliwościami światowych liderów LLM. "Nasze systemy umożliwiają jednak przeprowadzenie w kilka godzin lub dni obliczeń, które na zwykłych komputerach mogłyby trwać lata lub - w niektórych przypadkach, nawet stulecia" - porównuje.

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS (petaflops to milion miliardów flopsów), a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS (eksaflops to miliard miliardów flopsów - przyp PAP).

BIELIK A CHAT GPT

"Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim, jest znacznie mniejsza niż w angielskim" – wyjaśniają twórcy.

Najbardziej popularnym produktem wykorzystującym duży model językowy jest ChatGPT, który powstał w oparciu o zasoby firmy OpenAI. Konieczność opracowywania modeli językowych w różnych innych językach znajduje jednak swoje uzasadnienie.

Marek Magryś podkreśla: "O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury. Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim i odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych".

Wersja, którą mogą testować użytkownicy, jest utrzymywana nieodpłatnie w domenie publicznej i jest wciąż udoskonalana. Autorzy udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji, które umożliwiają uruchomienie modelu na własnym komputerze.

"Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku" – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.

PO CO KOMU POLSKI LLM?

Twórcy Bielika wyjaśniają, że usługi sztucznej inteligencji funkcjonujące w internecie, w tym te najpopularniejsze jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli jakaś firma czy branża rozwija rozwiązanie, które operuje na specjalistycznych danych np. medycznych lub na tekstach, które z różnych powodów nie mogą opuścić firmy, np. są poufne, to jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie będzie tak doskonały jak ChatGPT, ale nie musi też być tak bardzo ogólny.

"Dodatkową korzyścią płynącą z uruchomienia modeli językowych typu Bielik jest wzmocnienie pozycji Polski w obszarze innowacji w sektorze AI. Ponadto, co podkreślają twórcy, warto zabiegać o to, aby budować własne narzędzia i tym samym uniezależniać się od zewnętrznych firm, które w przypadku zawirowań na rynkach, regulacji czy ograniczeń prawnych mogą np. uniemożliwiać dostęp do swoich zasobów. Tym samym rozwijając i udoskonalając narzędzia w Polsce, budujemy stabilne zaplecze i jesteśmy w stanie zabezpieczać wiele naszych sektorów - bankowy, administracyjny medyczny lub prawniczy.

"Intensywne działania nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o sztuczną inteligencję są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach" – wyjaśnia Jan Maria Kowalski z Fundacji Speakleash.

Informacje o liczbie zebranych danych - na TEJ stronie

Ludwika Tomala, PAP - Nauka w Polsce

lt/ zan/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Orlen i Politechnika Śląska zawarły ramową umowę ws. konsorcjum w dziedzinie katalizy

  • Fot. Adobe Stock

    Szczecin/ Naukowcy Zachodniopomorskiego Uniwersytetu Technologicznego zrobili chipsy z mięsa karpia

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera