Об утверждении Правил формирования и ведения Национального корпуса казахского языка

Приказ Министра науки и высшего образования Республики Казахстан от 30 апреля 2025 года № 227

      В соответствии с пунктом 5 статьи 24-4 Закона Республики Казахстан "О культуре" и подпунктом 161-1) пункта 15 Положения о Министерстве науки и высшего образования Республики Казахстан, утвержденного постановлением Правительства Республики Казахстан от 19 августа 2022 года № 580 "О некоторых вопросах Министерства науки и высшего образования Республики Казахстан", ПРИКАЗЫВАЮ:

      1. Утвердить прилагаемые Правила формирования и ведения Национального корпуса казахского языка.

      2. Комитету языковой политики Министерства науки и высшего образования Республики Казахстан в установленном законодательством порядке Республики Казахстан обеспечить:

      1) государственную регистрацию настоящего приказа в Министерстве юстиции Республики Казахстан;

      2) размещение настоящего приказа на интернет-ресурсе Министерства науки и высшего образования Республики Казахстан.

      3. Контроль за исполнением настоящего приказа возложить на курирующего вице-министра науки и высшего образования Республики Казахстан.

      4. Настоящий приказ вводится в действие после дня его первого официального опубликования.

      Министр С. Нурбек

  Утверждены приказом
Министра науки и
высшего образования
Республики Казахстан
от 30 апреля 2025 года № 227

Правила формирования и ведения Национального корпуса казахского языка

Глава 1. Общие положения

      1. Настоящие Правила формирования и ведения Национального корпуса казахского языка (далее – Правила) разработаны в соответствии с пунктом 5 статьи 24-4 Закона Республики Казахстан "О культуре" и подпунктом 161-1) пункта 15 Положения о Министерстве науки и высшего образования Республики Казахстан, утвержденного постановлением Правительства Республики Казахстан от 19 августа 2022 года № 580 "О некоторых вопросах Министерства науки и высшего образования Республики Казахстан", и устанавливают общие требования и процедуры для создания, пополнения, обработки, хранения и использования Национального корпуса казахского языка (далее – Национальный корпус), который служит основой для научных, образовательных и практических исследований в области казахского языка и лингвистики.

      2. Администратор Национального корпуса – Министерство науки и высшего образования Республики Казахстан.

      3. Работу по координации Национального корпуса осуществляет Республиканское государственное предприятие на праве хозяйственного ведения "Институт языкознания имени Ахмета Байтурсынулы" Комитета науки Министерства науки и высшего образования Республики Казахстан (далее – Институт).

      4. В настоящих Правилах используются следующие понятия:

      1) аннотация – описание данных в корпусе, включающее информацию о источнике заданного элемента поиска, такую как автор текста, его тема, жанр, контекст, структура и содержание, а также фонетические, морфологические, просодические, лексические, семантические, синтаксические и другие лингвистические характеристики;

      2) разметка – метод кодирования и систематизации лингвистической и структурной информации в текстах корпуса, обеспечивающий их анализ и обработку;

      3) научные стандарты качества – совокупность критериев, которым соответствуют тексты и их аннотации в корпусе для обеспечения точности, достоверности и пригодности для лингвистических исследований;

      4) унифицированные форматы данных – стандартные структуры и правила, которые делают данные совместимыми и удобными для обработки и объединения, устанавливая требования к кодировке, структуре и разметке, что упрощает обмен и анализ данных, снижая риск ошибок и потребность в доработках;

      5) жанр – категория текста, определяющая его тип, назначение и устоявшуюся форму обладающую определененными стилистическими чертами, что помогает классифицировать материалы для анализа и исследования;

      6) частотность – числовой показатель, отражающий, как часто языковые элементы встречаются в определенном тексте или корпусе;

      7) интерфейс – программно-аппаратная система корпуса, позволяющая пользователю искать, извлекать, просматривать результаты, фильтровать и анализировать данные;

      8) система кодирования и классификации – упорядоченная структура, позволяющая присваивать текстам уникальные коды и классифицировать их по ключевым характеристикам, обеспечивая удобство поиска, хранения и анализа данных в корпусе;

      9) корпус – часть Национального корпуса, состоящая из отдельных подкорпусов и сформированная по определҰнным критериям для проведения целенаправленного лингвистического или статистического анализа;

      10) база данных корпуса – электронные версии письменных и устных текстов на естественном языке, которые предварительно обработаны и размечены для включения в корпус;

      11) национальный корпус казахского языка – информационно-справочная система, содержащая тексты во всех стилях и жанрах казахского языка, оснащенная системой поиска и другими средствами работы с текстом;

      12) тексты – языковые единицы, которые составляют основу корпуса;

      13) метаразметка – краткое источниковедческое описание текста, включенного в корпус и его содержания, которое предоставляет ключевую информацию о его тематике, авторе, жанре, цели, стиле и других характеристиках;

      14) морфологическая разметка – процесс автоматического или ручного снабжения текстов в корпусе морфологическими характеристиками и определения их грамматических признаков;

      15) синтаксическая разметка – процесс снабжения и описания синтаксической структуры предложений в тексте, включая определение связей между словами и их грамматических ролей, для изучения грамматической структуры языка и его правил;

      16) семантическая разметка – процесс аннотирования смысла, значений, контекстуальных оттенков слов, выражений и предложений в тексте, а также их взаимосвязей, с целью создания инструмента для естественно-языковой обработки, корпусной лингвистики, машинного обучения и цифровых технологий;

      17) словоупотребление – совокупность характеристик использования слова в текстах, входящих в корпус;

      18) стиль – способ выражения в языке, который определяется такими характеристиками, как тон, словарный запас, грамматическая структура и другие особенности, отражающие цель и особенности текста.

Глава 2. Формирование Национального корпуса

      5. Все работы, связанные с формированием, ведением и использованием Национального корпуса, проводятся в рамках единого национального подхода с обеспечением высокого уровня качества, безопасности и доступности данных.

      6. Национальный корпус формируется в соответствии с настоящими Правилами за счет корпусов и подкорпусов.

      7. Формирование Национального корпуса начинается с тщательного сбора и отбора текстов, представляющих все аспекты его функционирования – от письменных источников до устных материалов, которые отражают особенности языка, используемый в различных сферах и временных срезах.

      8. Все материалы Национального корпуса соответствуют научным стандартам качества, имеют метаданные и источниковедческую информацию, проходят проверку на грамматические и орфографические ошибки, а также редактируются и упорядочиваются в соответствии с единой системой кодирования и классификации.

      9. Национальный корпус отражает разнообразие языковых практик, включая различные жанры, типы текстов, диалекты и стили, а также учитывает региональные и исторические особенности.

      10. Все собранные тексты систематизируются и аннотируются по жанру, стилю, времени, источнику, по лексическим и грамматическим уровням.

      11. После сбора и аннотирования текстов с учҰтом энциклопедического и источниковедческого анализа применяются методики лингвистической обработки и анализа данных, что позволяет создавать целевые эмпирические языковые базы для научных исследований и модели языка, используемые для разработки языковых технологий и лексикографических проектов.

      12. Функции Национального корпуса:

      1) Метаразметка предоставляет информацию, которая подробно описывает текст и его характеристики, включая автора, название, жанр, источник, дату создания, целевую аудиторию, стиль, размер, формат, структурные особенности;

      2) Цифровая структура Национального корпуса обеспечивает систематизацию текстов в цифровом формате, что позволяет использовать современные инструменты автоматизированного анализа;

      3) Многофункциональность Национального корпуса позволяет использовать его в различных областях, включая лингвистические исследования, лексикографию, обучение языкам, компьютерную лингвистику и нейролингвистическое программирование;

      4) Прикладные задачи Национального корпуса позволяют автоматизировать обработку текстов, улучшать качество языковых моделей, разрабатывать эффективные инструменты для анализа текста, создания приложений для обучения языкам, машинного перевода и разработки искусственного интеллекта.

      13. Структура Национального корпуса:

      1) Национальный корпус состоит из отдельных корпусов и подкорпусов, каждый из которых охватывает конкретные направления;

      2) Все корпусы и подкорпусы соответствуют техническим, функциональным и операционным характеристикам Национального корпуса, установленным Институтом с согласования Администратора, обеспечивая единообразие, совместимость и безошибочную интеграцию в процессе эксплуатации;

      3) Все тексты в Национальном корпусе хранятся в унифицированных форматах, также обеспечивается интеграция API;

      4) Текстовые данные охватывают широкий спектр жанров и стилей, включая научные работы, художественные произведения, публицистику, деловую документацию, разговорную речь и цифровые тексты;

      5) Лексическая информация включает сведения о словах, их формах, значениях, сочетаемости и метаданные, такие как частотность, стилистика, синонимы, антонимы, с классификацией по частям речи и тематическим областям;

      6) Грамматическая информация включает описание синтаксиса, морфологии и словообразования с разбором структуры предложений, частей речи, синтаксических связей и морфологических характеристик;

      7) Стилистическая информация включает описание особенностей текста, различие между стилями, анализ языка в различных жанрах и классификацию текстов по категориям, таким как формальные и неформальные стили, жанры и их характерные черты;

      8) В Национальном корпусе имеется кросс-языковая привязка, включающая параллельные тексты, которая позволяет проводить исследования в области машинного перевода, контрастивной лингвистики и изучения влияния языковых контактов;

      9) Каждый текст снабжается метаданными, включая идентификационные данные, библиографические данные, жанрово-стилистические характеристики, лингвистические данные, контекстуальные данные, технические данные и аннотативные данные;

      10) Медиафайлы, сопровождающие текстовые данные, служат для анализа различных аспектов языка в контексте мультимодальной информации;

      11) Интерфейс обеспечивает удобное взаимодействие пользователя с Национальным корпусом для поиска, анализа и аннотирования данных;

      12) Поисковая система позволяет пользователям искать и извлекать данные из базы Национального корпуса на основе различных критериев;

      13) Официальная платформа Национального корпуса позволяет отслеживать количество словоупотреблений в реальном времени;

      14) Структура данных позволяет добавлять в Национальный корпус новые категории и компоненты по мере необходимости.

Глава 3. Ведение Национального корпуса

      14. Национальный корпус непрерывно обновляется и расширяется за счет добавления новых материалов, отражающих изменения в языке и актуальные достижения в различных областях, с обеспечением доступа архивных версии.

      15. Для повышения качества и актуальности базы данных обеспечивается взаимодействие с международными научными и лингвистическими организациями.

      16. Для координации эффективного функционирования Национального корпуса создается рабочая группа, состоящая из профильных специалистов, которые обладают необходимыми знаниями и опытом.

      17. Все материалы, загруженные в Национальный корпус, соответствуют требованиям по форматированию, орфографии, пунктуации, стилю и структуре.

      18. Все участники, предоставляющие материалы для включения в Национальный корпус, обеспечивают их качество, точность, достоверность, актуальность.

      19. Для обеспечения высокого качества данных регулярно проводится мониторинг.

      20. Национальный корпус служит основой для разработки лексикографических и грамматических проектов, научных и образовательных материалов, а также для создания программных продуктов.

      21. В случае сбоев или ошибок в процессе ведения Национального корпуса Институт принимает меры для их устранения, а также проводит обновления программного обеспечения Национального корпуса для обеспечения стабильной и бесперебойной работы.

      22. Национальный корпус расширяется с учҰтом изменений в языке, новых тенденций, а также появления новых жанров, стилей и направлений, что гарантирует его актуальность и соответствие языковым инновациям.

      23. В Национальный корпус могут быть включены материалы из открытых и доступных источников, если их использование не нарушает авторские права и соответствует нормам добросовестного использования.

      24. Национальный корпус, корпусы и подкорпусы общедоступны и предоставляются для использования всем заинтересованным сторонам.

      25. При ведении Национального корпуса учитываются этические принципы, включая исключение дискриминационного контента и обеспечение инклюзивности.

Қазақ тілінің Ұлттық корпусын қалыптастыру және жүргізу қағидаларын бекіту туралы

Қазақстан Республикасы Ғылым және жоғары білім министрінің 2025 жылғы 30 сәуірдегі № 227 бұйрығы

      "Мәдениет туралы" Қазақстан Республикасы Заңының 24-4 бабының 5-тармағына және "Қазақстан Республикасы Ғылым және жоғары білім министрлігінің кейбір мәселелері туралы" Қазақстан Республикасы Үкіметінің 2022 жылғы 19 тамыздағы № 580 қаулысымен бекітілген Қазақстан Республикасы Ғылым және жоғары білім министрлігі туралы ереженің 15-тармағының 161-1) тармақшасына сәйкес БҰЙЫРАМЫН:

      1. Қоса беріліп отырған Қазақ тілінің Ұлттық корпусын қалыптастыру және жүргізу қағидалары бекітілсін.

      2. Қазақстан Республикасы Ғылым және жоғары білім министрлігінің Тіл саясаты комитеті Қазақстан Республикасының заңнамасында белгіленген тәртіппен:

      1) осы бұйрықтың Қазақстан Республикасы Әділет министрлігінде мемлекеттік тіркелуін;

      2) осы бұйрықты Қазақстан Республикасы Ғылым және жоғары білім министрлігінің интернет-ресурсында орналастыруды қамтамасыз етсін.

      3. Осы бұйрықтың орындалуын бақылау жетекшілік ететін Қазақстан Республикасының Ғылым және жоғары білім вице-министріне жүктелсін.

      4. Осы бұйрық алғашқы ресми жарияланған күнінен кейін қолданысқа енгізіледі.

      Министр С. Нұрбек

  Қазақстан Республикасының
Ғылым және жоғары
білім министрінің
2025 жылғы 30 сәуірдегі
№ 227 бұйрығымен
бекітілген

Қазақ тілінің Ұлттық корпусын қалыптастыру және жүргізу қағидалары

1-тарау. Жалпы ережелер

      1. Қазақ тілінің ұлттық корпусын қалыптастыру және жүргізу қағидалары (бұдан әрі – Қағидалар) "Мәдениет туралы" Қазақстан Республикасы Заңының 24-4 бабының 5-тармағына және "Қазақстан Республикасы Ғылым және жоғары білім министрлігінің кейбір мәселелері туралы" Қазақстан Республикасы Үкіметінің 2022 жылғы 19 тамыздағы № 580 қаулысымен бекітілген Қазақстан Республикасы Ғылым және жоғары білім министрлігі туралы ереженің 15-тармағының 161-1) тармақшасына сәйкес әзірленді және қазақ тілі мен лингвистика саласындағы ғылыми, білім беру және практикалық зерттеулер жүргізуге негіз болатын Қазақ тілінің ұлттық корпусын (бұдан әрі – Ұлттық корпус) құру, толықтыру, өңдеу, сақтау және пайдалануға қойылатын жалпы талаптар мен рәсімдерді белгілейді.

      2. Ұлттық корпустың әкімшісі – Қазақстан Республикасының Ғылым және жоғары білім министрлігі.

      3. Ұлттық корпусты үйлестіру жұмысын Қазақстан Республикасы Ғылым және жоғары білім министрлігі Ғылым комитетінің "Ахмет Байтұрсынұлы атындағы Тіл білімі институты" шаруашылық жүргізу құқығындағы республикалық мемлекеттік кәсіпорны (бұдан әрі – Институт) жүзеге асырады.

      4. Осы Қағидаларда мынадай ұғымдар пайдаланылады:

      1) аннотация – мәтіннің авторы, оның тақырыбы, жанры, контексті, құрылымы мен мазмұны, сондай-ақ фонетикалық, морфологиялық, просодикалық, лексикалық, семантикалық, синтаксистік және басқа да лингвистикалық сипаттамалары тәрізді берілген іздеу элементінің дереккөзі туралы ақпаратты қамтитын корпустағы деректердің сипаттамасы;

      2) белгіленім – корпус мәтіндеріндегі лингвистикалық және құрылымдық ақпаратты талдау мен өңдеуді қамтамасыз ететін кодтау және жүйелеу әдісі;

      3) ғылыми сапа стандарттары – лингвистикалық зерттеулер жүргізу үшін дәлділік, нақтылық және жарамдылықты қамтамасыз ету үшін мәтіндер мен олардың корпустағы аннотациялары сәйкес келетін өлшемшарттар жиынтығы;

      4) деректердің бірыңғай форматы – кодтауға, құрылымға және белгілеуге талап қою арқылы өзара дерек алмасу мен талдауды жеңілдететін, қателік қаупін азайта және түзетулер енгізу қажеттілігін төмендете отырып, деректерді үйлесімді және өңдеу мен біріктіруге ыңғайлы ететін стандартты құрылымдар мен ережелер;

      5) жанр – материалды талдау мен зерттеу үшін оны жіктеуге көмектесетін, түрін, мақсатын және белгілі бір стилистикалық белгілері бар қалыптасқан формасын айқындайтын мәтіннің категориясы;

      6) жиілік – белгілі бір мәтінде немесе корпуста тілдік элементтердің қаншалықты жиі кездесетінін көрсететін сандық көрсеткіш;

      7) интерфейс – пайдаланушыға нәтижелерді іздеуге, алуға, қарауға, деректерді сүзуге және талдауға мүмкіндік беретін корпустың бағдарламалық-аппараттық жүйесі;

      8) кодтау және жіктеу жүйесі – корпуста деректерді іздеу, сақтау және талдаудың ыңғайлылығын қамтамасыз ете отырып, мәтіндерге бірегей кодтар тағайындауға және оларды негізгі белгілері бойынша жіктеуге мүмкіндік беретін ретті құрылым;

      9) корпус – жекелеген ішкорпустардан тұратын және мақсатты лингвистикалық немесе статистикалық талдау жүргізу үшін белгілі бір критерийлер бойынша құрылған Ұлттық корпустың бөлігі;

      10) корпустың дерекқоры – корпусқа қосу үшін алдын ала өңделген және белгіленген табиғи тілдегі жазбаша және ауызша мәтіндердің электрондық нұсқалары;

      11) қазақ тілінің ұлттық корпусы – қазақ тілінің барлық стиліндегі және жанрындағы мәтіндерді қамтитын, іздеу жүйесімен және мәтінмен жұмыс істеудің басқа да құралдарымен жарақтандырылған ақпараттық-анықтамалық жүйе;

      12) мәтіндер – корпустың негізін құрайтын тілдік бірліктер;

      13) метабелгіленім – корпусқа енгізілген мәтін мазмұнының тақырыбы, авторы, жанры, мақсаты, стилі және басқа сипаттамалары туралы түпкілікті ақпарат беретін қысқаша дереккөздік сипаттама;

      14) морфологиялық белгіленім – корпустағы мәтіндерді автоматты немесе жазбаша түрде морфологиялық сипаттамалармен қамтамасыз ету және олардың грамматикалық белгілерін анықтау процесі;

      15) синтаксистік белгіленім – тілдің құрылымы мен оның ережелерін зерттеу үшін сөздер мен олардың грамматикалық рөлдері арасындағы байланыстарды анықтауды қоса алғанда, мәтіндегі сөйлемдердің грамматикалық құрылымын жабдықтау және сипаттау процесі;

      16) семантикалық белгіленім – табиғи-тілдік өңдеу, корпустық лингвистика, машиналық оқыту және цифрлық технологиялар әзірлеу мақсатында мәтіндегі сөздердің, сөз орамдары мен сөйлемдердің мағынасын, контекстік реңктерін, сондай-ақ олардың өзара байланыстарын аннотациялау процесі;

      17) сөзқолданыс – корпусқа кіретін мәтіндерде сөзді қолдану сипаттамаларының жиынтығы;

      18) стиль – мәтіннің мақсаты мен ерекшеліктерін көрсететін реңк, сөздік қор, грамматикалық құрылым және басқа да сипаттамалармен айқындалатын тілдегі жеткізу тәсілі.

2-тарау. Ұлттық корпусты әзірлеу

      5. Ұлттық корпусты әзірлеуге, жүргізуге және пайдалануға байланысты барлық жұмыстар деректердің сапасы, қауіпсіздігі мен қолжетімділігінің жоғары деңгейі қамтамасыз етіле отырып, бірыңғай ұлттық тәсіл шеңберінде жүргізіледі.

      6. Ұлттық корпус осы Қағидалардың талаптарына сәйкес келетін корпустар мен ішкорпустар есебінен қалыптасады.

      7. Ұлттық корпусты қалыптастыру оның қызметінің барлық аспектілерін қамтитын мәтіндерді, тілдің әртүрлі салаларда және уақыт кезеңдерінде қолданылу ерекшеліктерін көрсететін жазбаша дереккөздерден бастап ауызша материалдарға дейін мұқият жинаудан және іріктеуден басталады.

      8. Ұлттық корпустағы барлық материалдар ғылыми сапа стандарттарына сәйкес келеді, метадеректері мен дереккөздері болады, грамматикалық және емле қателерінің бар-жоғына тексеріледі, сондай-ақ бірыңғай кодтау және жіктеу жүйесіне сәйкес өңделеді және реттеледі.

      9. Ұлттық корпуста әртүрлі жанрларды, мәтін түрлерін, диалектілер мен стильдерді қоса алғанда лингвистикалық тәжірибелердің алуан түрлілігі көрініс табады, сондай-ақ аймақтық және тарихи ерекшеліктер ескеріледі.

      10. Барлық жиналған мәтіндер жанр, стиль, кезең, дереккөз, лексикалық және грамматикалық деңгейлер бойынша жүйеленеді және аннотациясы беріледі.

      11. Энциклопедиялық және дереккөздік талдау ескеріле отырып, мәтіндер жиналғаннан және аннотацияланғаннан кейін, ғылыми зерттеулерге қажетті мақсатты эмпирикалық тілдік базалар құруға және тілдік технологиялар мен лексикографиялық жобаларды әзірлеуде қолданылатын тіл модельдерін әзірлеуге мүмкіндік беретін лингвистикалық өңдеу және деректерді талдау әдістері қолданылады.

      12. Ұлттық корпустың функциялары:

      1) Метабелгіленім мәтінді және оның сипаттамаларын, соның ішінде авторларды, тақырыпты, жанрды, дереккөзді, әзірленген күнін, мақсатты аудиторияны, стильді, мәтіннің өлшемін, форматын, құрылымдық ерекшеліктерін егжей-тегжейлі сипаттайтын ақпаратты береді;

      2) Ұлттық корпустың цифрлық құрылымы мәтіндерді цифрлық форматта жүйелеуді қамтамасыз етеді, бұл заманауи автоматтандырылған талдау құралдарын пайдалануға мүмкіндік береді;

      3) Ұлттық корпустың көпфункционалдығы оны лингвистикалық зерттеулер, лексикография, тілдерді оқыту және компьютерлік лингвистика және нейролингвистикалық бағдарламалау сияқты әртүрлі салаларда қолдануға мүмкіндік береді;

      4) Ұлттық корпустың қолданбалы міндеттері мәтінді өңдеуді автоматтандыруға, тілдік модельдердің сапасын жақсартуға, мәтінді талдаудың тиімді құралдарын әзірлеуге, тілдерді оқытуға арналған қосымшалар жасауға, машиналық аудармаға және жасанды интелектті әзірлеуге мүмкіндік береді.

      13. Ұлттық корпустың құрылымы:

      1) Ұлттық корпус әрқайсысы нақты бағыттарды қамтитын жекелеген корпустардан және ішкорпустардан тұрады;

      2) Барлық корпустар және ішкорпустар Әкімшінің келісімімен Институт белгілеген Ұлттық корпустың техникалық, функционалдық және операциялық сипаттамаларына сәйкес келеді, бұл пайдалану барысында біркелкілікті, үйлесімділікті және қатесіз интеграцияны қамтамасыз етеді;

      3) Ұлттық корпустағы барлық мәтіндер бірегей форматтарда сақталады, сондай-ақ API кіріктірілуі қамтамасыз етіледі;

      4) Мәтіндік деректер ғылыми жұмыстарды, көркем шығармаларды, публицистика, іскерлік құжаттама, ауызекі сөйлеу және сандық мәтіндерді қоса алғанда жанрлар мен стильдердің кең ауқымын қамтиды;

      5) Лексикалық ақпарат сөздер, олардың формалары, мағыналары, үйлесімділігі және сөз таптары мен тақырыптық бағыттар бойынша жіктелген жиілік, стилистика, синонимдер, антонимдер тәрізді метадеректерді қамтиды;

      6) Грамматикалық ақпарат сөйлем құрылымы, сөз таптары, синтаксистік байланыстар және морфологиялық сипаттамалар талданған синтаксис, морфология және сөзжасам сипаттамаларын қамтиды;

      7) Стилистикалық ақпарат мәтін ерекшеліктерінің сипаттамасы, стильдер арасындағы айырмашылық, әртүрлі жанрлардағы тілдік талдау және мәтіндерді ресми және бейресми стильдер, жанрлар мен оларға тән сипаттамалар тәрізді категориялар бойынша жіктеуді қамтиды;

      8) Ұлттық корпуста машиналық аударма, контрастивтік лингвистика саласында зерттеулер жүргізуге және тілдік байланыстардың әсерін зерделеуге мүмкіндік беретін параллель мәтіндерді қамтитын кросс-тілдік байланыс бар;

      9) Әрбір мәтін сәйкестендіру деректерін, библиографиялық деректерді, жанрлық-стилистикалық сипаттамаларды, лингвистикалық деректерді, контекстік деректерді, техникалық деректерді және аннотациялық деректерді қоса алғандағы метадеректермен қамтамасыз етіледі;

      10) Мәтіндік деректермен бірге жүретін медиафайлдар мультимодальды ақпарат контекстінде тілдің әртүрлі аспектілерін талдауға қызмет етеді;

      11) Интерфейс деректерді іздеу, талдау және аннотациялау үшін пайдаланушының Ұлттық корпуспен ыңғайлы өзара әрекеттесуін қамтамасыз етеді;

      12) Іздеу жүйесі пайдаланушыларға әртүрлі критерийлер негізінде Ұлттық корпустың дерекқорынан деректерді іздеуге және алуға мүмкіндік береді;

      13) Ұлттық корпустың ресми платформасы нақты уақытта сөзқолданыс санын бақылауға мүмкіндік береді;

      14) Деректер құрылымы қажет болған жағдайда Ұлттық корпусқа жаңа санаттар мен компоненттерді қосуға мүмкіндік береді.

3-тарау. Ұлттық корпусты жүргізу

      14. Ұлттық корпус тілдегі өзгерістер мен әртүрлі салалардағы өзекті жетістіктерді көрсететін жаңа материалдардың енгізілуі арқылы үздіксіз жаңартылып, кеңейтіледі, архивтік нұсқаларының қолжетімдігі қамтамасыз етіледі.

      15. Деректер базасының сапасы мен өзектілігін арттыру үшін халықаралық ғылыми және лингвистикалық ұйымдармен өзара іс-қимыл қамтамасыз етіледі.

      16. Ұлттық корпустың тиімді жұмыс істеуін үйлестіру үшін қажетті білімі мен тәжірибесі бар бейінді мамандардан тұратын жұмыс тобы құрылады.

      17. Ұлттық корпусқа жүктелген барлық материалдар форматтау, емле, пунктуация, стиль және құрылым талаптарына сәйкес келеді.

      18. Ұлттық корпусқа қосу үшін материалдар ұсынатын барлық қатысушылар олардың сапасын, дәлдігін, шынайылығын, өзектілігін қамтамасыз етеді.

      19. Деректердің жоғары сапасын қамтамасыз ету үшін жүйелі түрде мониторинг жүргізіледі.

      20. Ұлттық корпус лексикографиялық және грамматикалық жобаларды, ғылыми және білім беру материалдарын әзірлеуге, сондай-ақ бағдарламалық өнімдерді жасауға негіз болады.

      21. Ұлттық корпусты жүргізу кезінде ақаулар немесе қателер орын алған жағдайда Институт оларды жою үшін шаралар қабылдайды, сондай-ақ Ұлттық корпустың тұрақты және үздіксіз жұмысын қамтамасыз ету үшін бағдарламалық жасақтаманы жаңартып отырады.

      22. Ұлттық корпус тілдегі өзгерістердің, жаңа тенденциялардың, сондай-ақ жаңа жанрлардың, стильдер мен бағыттардың пайда болуы есебінен кеңейеді, бұл оның өзектілігі мен тілдік инновацияларға сәйкестігіне кепілдік береді.

      23. Егер оларды пайдалану авторлық құқықты бұзбаса және әділ пайдалану нормаларына сәйкес келсе, Ұлттық корпусқа ашық және қолжетімді көздерден алынған материалдар енгізілуі мүмкін.

      24. Ұлттық корпус, корпустар пен ішкорпустар жалпыға қолжетімді және барлық мүдделі тараптарға пайдалануға ұсынылады.

      25. Ұлттық корпусты жүргізу кезінде кемсітушілік мазмұнға жол бермілмейді және инклюзивтілікті қамтамасыз етуді қоса алғанда, этикалық қағидаттар ескеріледі.