Ministerstwo Edukacji i Nauki

16.05.2022
PL EN
30.11.2021 aktualizacja 30.11.2021

Instytut Badawczy OPI udostępnia publicznie neuronowe modele języka

adobeStock adobeStock

Ośrodek Przetwarzania Informacji rozwija „neuronowe modele języka” na co dzień wykorzystywane do wychwytywania spamu lub jako system antyplagiatowy. W tym roku oddali do użytku dwa kolejne – Polish RoBERTa v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 .

W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. Obserwuje się też bardzo szybki wzrost ich rozmiaru (liczby parametrów). Wykorzystywane są one powszechnie, jednak niewiele osób zdaje sobie z tego sprawę. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem - przypomniano w informacji prasowej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB), przesłanej PAP.

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. Opracowanie nowych modeli neuronowych wymaga jednak dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo niezbędne są duże ilości danych. Tak jak w przypadku innych narzędzi opartych na sztucznej inteligencji (SI) – im większy zbiór danych został wykorzystany do wytrenowania modelu, tym będzie on bardziej precyzyjny.

Większość tych modeli opracowywanych jest jednak dla języka angielskiego. Dlatego naukowcy z OPI PIB rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

„Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych” – czytamy w komunikacie dla mediów.

Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

„Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny” – mówi cytowany w komunikacie Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Wszystkie swoje neuronowe modele języka OPI PIB przetestował z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. (PAP)

uka/ zan/

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Copyright © Fundacja PAP 2022