Появилась первая AI-модель, которая думает на казахском языке
17 февраля 2025 года в Абу-Даби презентовали SHERKALA — первую высокоточную казахскоязычную модель (LLM). Разработкой занималась компания Inception совместно с университетом имени Мухаммада бен Заида при поддержке Cerebras.
Инновационный проект откроет 13 миллионам носителей казахского языка доступ к передовым технологиям генеративного ИИ.
Основной фокус на казахский язык
SHERKALA — языковая модель с 8 миллиардами параметров, обученная на 45 миллиардах слов. Основной фокус — казахский язык, также поддерживаются английский, русский и турецкий. Модель использует Llama 3.1, адаптированную для казахского с расширением токенизатора на 25%, что повышает эффективность понимания и генерации текста. Обучение модели проходило на одном из самых мощных суперкомпьютеров для ИИ Condor Galaxy, который создали G42 и Cerebras.
Эндрю Джексон
CEO Inception
«Запуск SHERKALA — это важный шаг в поддержке языковых сообществ, которые раньше были недостаточно представлены в AI. Вместе с MBZUAI мы создали модель, которая поможет носителям казахского языка изменить рынок LLM и сделать технологии более доступными и эффективными. С моделями JAIS для арабского, NANDA для хинди и SHERKALA для казахского мы продолжаем расширять границы AI и обеспечивать языковое разнообразие в цифровом мире».
SHERKALA задает новый уровень для казахских языковых моделей, отлично справляясь с пониманием и созданием текстов. Благодаря эффективной работе с токенами и продвинутым диалоговым возможностям, она превосходит более крупные модели, даже те, что значительно превышают ее по числу параметров.
Преслав Наков
Заведующий кафедрой и профессор обработки естественного языка в MBZUAI
«Мы рады работать с Inception над SHERKALA — передовой казахской AI-моделью. Этот проект помогает развивающимся рынкам, делает AI доступнее, сохраняет язык и поддерживает цифровые сообщества».
SHERKALA теперь доступна как open-source модель на Hugging Face:
SHERKALA на Hugging Face
Комментарии
Подписаться