Akcja „niech Bloom przemówi po polsku” – czyli rozkwit języka polskiego w rewolucyjnym transformerze

Jak napisał Piotr Bąk, „Język jest nie tylko składnikiem kultury narodu, ale zarazem najlepszym odbiciem tej kultury. W języku jak w zwierciadle odbijają się doświadczenia społeczne jednostki i narodu”. Trudno nie zgodzić się z tym cytatem. Aby mieć pewność co do poprawnej pisowni, warto wspomagać się narzędziami AI do generowania automatycznych tekstów. Tylko czy wszystkie narzędzia AI do przetwarzania języka naturalnego działają w języku polskim?

Generowanie automatycznych tekstów

Na popularności zyskują modele deep learning z architekturą transformer. Są to modele wielozadaniowe wykorzystywane początkowo do języka naturalnego. Generowanie automatycznych tekstów na podstawie kilku słów to pierwsze, z czym kojarzy nam się transformer. Jednak spośród licznych możliwości możemy wyróżnić także odpowiadanie na niemal każde pytanie, tłumaczenie maszynowe, korektę stylu lub gramatyki, czy parafrazowanie. Poza popularnymi działaniami językowymi, transformery znajdują zastosowanie także przy wspomaganiu generowania kodu źródłowego, a nawet tworzeniu obrazów i muzyki.

Rozkwit narzędzi OpenAI

Najbardziej znaną organizacją, która zasiała ważne dla świata transformerów nasiona o nazwie GPT-3, jest OpenAI. Choć Microsoft jako pierwszy zebrał plon i zapewnił sobie wyłączność na licencjonowanie sprzedaży i komercjalizację tego modelu, środowisko AI nie czekało długo w uśpieniu. Przyszedł czas na powstanie konkurencyjnych transformerów.

Owoc badań pojawił się po 112 dniach

W lipcu 2022 r. pojawił się model Bloom, odpowiedź europejskich naukowców na GPT-3. W zaledwie 112 dni ponad 1000 naukowców z 250 zaangażowanych w projekt instytucji z 70 krajów, stworzyło najlepszą alternatywę dla narzędzia Microsoft. Tak powstał owoc badań, czyli Bloom, jeden z największych modeli do przetwarzania języka naturalnego.

Bloom działa w 46 językach naturalnych. Tłumaczy, odpowiada na dowolne pytania, parafrazuje i sprawdza gramatykę. Dodatkowo obsługuje (w zakresie analizy i generowania kodu) ponad 10 języków programowania, a korzystanie z narzędzia jest zupełnie darmowe. Jedyne, czego brakuje w Bloomie, to możliwości pracy w języku polskim.

Pomysł na polonizację Blooma

Bez względu na to, czy rozmawiamy o postanowieniach noworocznych, oszczędzaniu, czy rozwoju aplikacji, każda zmiana potrzebuje śmiałego “spróbuję”. Taką deklarację złożył Sebastian Kondracki, Chief Innovation Officer w Deviniti, autor książki pt. „Python i AI dla e-commerce”. Zapytany przez Michała Dulembę podczas udziału w podcaście nieliniowy.pl o to, kto wpłynie na polonizację Blooma, jak nie on, podjął się tego wyzwania.

Po kilku próbach kontaktu z BigScience i HuggingFace, odbijając się od linków do naukowych artykułów, Sebastian Kondracki postanowił zadziałać inaczej.

Bloom jako synergia pomiędzy biznesem a nauką

13 września, na zaproszenie Dominiki Kaczorowskiej-Spychalskiej, Sebastian jako przedstawiciel Deviniti uczestniczył w panelu „Nauka dla biznesu, biznes dla nauki — sztuczna inteligencja w praktyce” podczas konferencji podsumowującej rok pracy grupy roboczej ds. AI. Jako że konsorcjum BigScience, twórca Blooma, jest globalnym przykładem synergii biznes-nauka, Sebastian wrócił do tematu polonizacji narzędzia. Już podczas panelu Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji Państwowego Instytutu Badawczego, zapewnił, że pomoże w tej sprawie. Ponadto, po panelu zgłosili się przedstawiciele Sieci Badawczej Łukasiewicz (zrzeszającej ponad 26 instytutów badawczych w całej Polsce), którzy również zaoferowali pomoc. Tak narodził się projekt “niech Bloom przemówi po polsku!”

W Deviniti wierzymy, że wspólnie ze środowiskiem biznesowym, jak i akademickim, zrobimy coś naprawdę ważnego dla rozwoju przetwarzania języka naturalnego w Polsce. Czy się uda? Czas pokaże. Jednak siejąc nadzieję na umożliwienie Polakom korzystania z darmowego transformera w ojczystym języku, liczymy na rozkwit możliwości biznesowych zarówno użytkowników, jak i twórców Blooma.

Joanna Fink

Content Specialist at Deviniti. Writing in a cosmic style isn’t a challenge as I am often drifting through the space galaxy in my mind. I explore the IT world with the same passion as my enthusiasm for fashion. One day, I will be the first woman to land on the Moon wearing high heels.

Więcej od tego autora