Instytut Badawczy OPI udostępnia publicznie neuronowe modele języka

30.11.2021 aktualizacja: 30.11.2021

2 minuty czytania

Read the English version of this article

adobeStock

Ośrodek Przetwarzania Informacji rozwija „neuronowe modele języka” na co dzień wykorzystywane do wychwytywania spamu lub jako system antyplagiatowy. W tym roku oddali do użytku dwa kolejne – Polish RoBERTa v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 .

W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. Obserwuje się też bardzo szybki wzrost ich rozmiaru (liczby parametrów). Wykorzystywane są one powszechnie, jednak niewiele osób zdaje sobie z tego sprawę. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem - przypomniano w informacji prasowej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB), przesłanej PAP.

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. Opracowanie nowych modeli neuronowych wymaga jednak dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo niezbędne są duże ilości danych. Tak jak w przypadku innych narzędzi opartych na sztucznej inteligencji (SI) – im większy zbiór danych został wykorzystany do wytrenowania modelu, tym będzie on bardziej precyzyjny.

Większość tych modeli opracowywanych jest jednak dla języka angielskiego. Dlatego naukowcy z OPI PIB rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

„Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych” – czytamy w komunikacie dla mediów.

Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

„Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny” – mówi cytowany w komunikacie Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Wszystkie swoje neuronowe modele języka OPI PIB przetestował z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. (PAP)

uka/ zan/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Kosmos

Prof. Wrochna o decyzji ws. składki do ESA: innej drogi niż rozwój technologii kosmicznych nie ma
Technologia

Naukowcy sprawdzili, jak bardzo można ufać satelitom monitorującym zanieczyszczenia środowiska

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Rybiki starsze niż dinozaury; są prymitywne, niezwykłe i fascynujące – ocenia prof. Ignatowicz
Badania socjologów z UŁ: pięć metropolii wysysa młodzież ze wsi i mniejszych miast
Prof. Jemielniak: rankingi dużo mówią o tych, których w nich nie ma
Czy komputery kwantowe rzeczywiście mają większą wydajność niż klasyczne?
Psychologowie: szczyt możliwości psychicznych przypada na okres między 55. a 60. r. ż.

ESA użyła swojej sondy marsjańskiej do zbadania komety 3I/ATLAS
Rada Europy: w Europie słabnie wolność akademicka
Technologia szczepionek przeciw COVID-19 może chronić przed jadem węży
AI pomogło zrekonstruować babiloński hymn sprzed trzech tys. lat
W sobotę koniunkcja Księżyca z Saturnem

Uczelnie i instytucje

Filolodzy z Uniwersytetu Łódzkiego współpracują z Polonią w Australii
Człowiek

Psycholog: język, którym się posługujemy, może wpływać na nasze decyzje
Świat

Modele językowe AI generują decyzje nacechowane ukrytym rasizmem

Na zdjęciu dyrektor generalny ESA Josef Aschbacher (L) i minister finansów i gospodarki Andrzej Domański. 27.11.2025 EPA/CLEMENS BILAN

Niemcy/ Składka w wysokości blisko 550 mln euro i list intencyjny w sprawie budowy ośrodka ESA w Polsce

W trakcie Rady Ministerialnej Europejskiej Agencji Kosmicznej (ESA) w Bremie w Niemczech Polska zadeklarowała składkę w wysokości blisko 550 mln euro na programy opcjonalne ESA na lata 2026-2028 – podał resort rozwoju. Podpisano również list intencyjny w sprawie budowy ośrodka ESA w Polsce.