17 февраля 2025 года в Абу-Даби презентовали SHERKALA — первую высокоточную казахскоязычную модель (LLM). Разработкой занималась компания Inception совместно с университетом имени Мухаммада бен Заида при поддержке Cerebras.

Инновационный проект откроет 13 миллионам носителей казахского языка доступ к передовым технологиям генеративного ИИ.

Основной фокус на казахский язык 

SHERKALA — языковая модель с 8 миллиардами параметров, обученная на 45 миллиардах слов. Основной фокус — казахский язык, также поддерживаются английский, русский и турецкий. Модель использует Llama 3.1, адаптированную для казахского с расширением токенизатора на 25%, что повышает эффективность понимания и генерации текста. Обучение модели проходило на одном из самых мощных суперкомпьютеров для ИИ Condor Galaxy, который создали G42 и Cerebras.

Эндрю Джексон

CEO Inception

«Запуск SHERKALA — это важный шаг в поддержке языковых сообществ, которые раньше были недостаточно представлены в AI. Вместе с MBZUAI мы создали модель, которая поможет носителям казахского языка изменить рынок LLM и сделать технологии более доступными и эффективными. С моделями JAIS для арабского, NANDA для хинди и SHERKALA для казахского мы продолжаем расширять границы AI и обеспечивать языковое разнообразие в цифровом мире».

SHERKALA задает новый уровень для казахских языковых моделей, отлично справляясь с пониманием и созданием текстов. Благодаря эффективной работе с токенами и продвинутым диалоговым возможностям, она превосходит более крупные модели, даже те, что значительно превышают ее по числу параметров.

Преслав Наков

Заведующий кафедрой и профессор обработки естественного языка в MBZUAI

«Мы рады работать с Inception над SHERKALA — передовой казахской AI-моделью. Этот проект помогает развивающимся рынкам, делает AI доступнее, сохраняет язык и поддерживает цифровые сообщества». 

SHERKALA теперь доступна как open-source модель на Hugging Face:
SHERKALA на Hugging Face