
Саме стільки – 10 терабайтів унікальних історичних матеріалів, державних документів та наукових текстів – Державна архівна служба України вперше передає для тренування національної мовної моделі Сяйво.
Більшість глобальних АІ-помічників генерують відповіді англійською і перекладають ці тексти українською, часто втрачаючи контекст. Щоб Сяйво стало надійним джерелом інформації для людей і бізнесу, команда Мінцифри тренує його на українських даних. Для цього модель вивчатиме історичні джерела, рукописи, закони, судові рішення, медіаматеріали та словники.
Частина великого проєкту
Створення великої мовної моделі – важливий крок до побудови ШІ-суверенітету. Зараз проходить збір якісних даних для моделі. Свої матеріали надають вже понад 50 партнерів, серед яких медіа, університети, бібліотеки тощо. Щойно модель запрацює, буде оприлюднено повний перелік інституцій та людей, які допомогли створити національний український ШІ.
«Для тренування національної мовної моделі ми збираємо дані, щоб мовна модель була натренована на унікальному масиві інформації. Це державні документи, наукові статті, медіаматеріали, словники, історичні матеріали, закони, судові рішення тощо», – Олександр Борняков, т. в. о. Міністра цифрової трансформації України.
Залучення таких даних пришвидшує створення якісної української моделі, яка розумітиме нашу історію та контекст.
«Це унікальний випадок, коли Укрдержархів вперше надає свої дані для розвитку цифрових сервісів в Україні. Ми маємо великий масив даних різних історичних епох, друкованих та рукописних, українською та іншими мовами. До кінця 2026 року кількість цифрових копій держархівів збільшаться із 150 млн до понад 200 млн – це один із найвищих у світі темпів оцифрування архівної спадщини», – Анатолій Хромов, голова Укрдержархіву.
Хочете, щоб ваші дані також стали основою національної LLM? Заповнюйте форму за посиланням. Якщо маєте запитання, звертайтеся на пошту ai@thedigital.gov.ua – наша команда вийде на зв‘язок і надасть усі деталі.
За матеріалами Міністерства цифрової трансформації України.




