КЛАССИФИКАЦИЯ ПАРАМЕТРОВ ИСПОЛЬЗУЕМЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ В ГИБРИДНЫХ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ.

Батурин Д.С.

ФГБОУ ВО Амурский государственный университет

КЛАССИФИКАЦИЯ ПАРАМЕТРОВ ИСПОЛЬЗУЕМЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ В ГИБРИДНЫХ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ

Аннотация

В работе предлагается классификация параметров для обработки в рамках гибридных интеллектуальных систем, разрабатываемых с целью создания обнаружения атак на информационные сети. Гибридные интеллектуальные системы являются перспективным направлением развития искусственного интеллекта, используемого, в том числе, для прогнозирования состояния сетевого трафика, который можно рассматривать как временной ряд данных. Качество параметров, которые оптимизируются методами, входящими в состав гибридной интеллектуальной системы, оказывает важнейшее значение на эффективность такой системы в целом.

Ключевые слова: гибридные интеллектуальные системы, сетевые атаки, обнаружение аномалий, обнаружение вторжений, обнаружение злоупотреблений, сетевой трафик.

Keywords: hybrid intelligent systems, network attacks, anomaly detection, intrusion detection, abuse detection, network traffic.

Прогнозирование временного ряда по существу является определением состояния объекта (например, состояния сетевого трафика) в следующую единицу или несколько единиц времени. В настоящее время ни один из методов искусственного интеллекта не дает достаточной эффективности в задаче прогнозирования временных рядов данных, но объединение различных методов в рамках гибридной интеллектуальной системы (ГИС) повышает эффективность работы такого объединения по сравнению с отдельным методом. При этом результаты работы одного метода становятся исходными параметрами (или их частью) для другого метода в рамках ГИС. Понимание того какие параметры для конкретного метода дадут наибольшую эффективность дает понимание того какие методы обработки данных и в какой последовательности необходимо применять в рамках ГИС [1].

Состояние наблюдаемого объекта описывается набором исходных (назовем их абсолютными) параметров, которые для наблюдателя являются мгновенными, например, пакет данных пришедший в конкретный момент времени. При этом такие параметры часто нельзя считать полностью сформированными в конкретный момент времени, но для наблюдателя, который сделал выбор в пользу конкретного инструмента по сбору данных нет возможности их дробления, и таким образом именно такие сведения будем считать абсолютными исходными параметрами для ГИС [2]. Важной возможностью для наблюдателя, который собирается прогнозировать состояние объекта путем прогноза временного является возможность накапливать такие абсолютные исходные параметры.

Абсолютные параметры, которые в случае с трафиком информационной сети показывают в конкретный момент времени приход пакета данных, не несут значительной информации. Информация, которая содержится в таких пакетах (адрес источника пакета, порт на который адресован пакет и т.д.), может быть использована только в случае, если была ранее идентифицирована как показатель вторжения. Таким образом, параметры поступившего в текущий момент времени пакета данных (размер, адрес источника и т.д.) имеют гораздо меньшую прогнозную способность по сравнению со значением изменения этого показателя относительно его предыдущего значения (суммарный объем поступивших пакетов за интервал времени и т.д.), пусть даже в совокупности с параметрами пакета данных. Более того усреднение моментальных значений по различным интервалам времени так же будут давать новые сведения, использование которых в качестве исходных показателей для методов ГИС повысит ее качество прогнозов [3]. Следовательно, для обнаружения аномалий необходимо использовать агрегированные показатели за определенный промежуток времени.

Для эффективной работы отдельных методов ГИС важное значение имеет качество и объем исходных параметров и скорость их получения. При таком подходе необходимо использовать все доступные сведения о текущем и предыдущих состояниях объекта, состояние которого необходимо спрогнозировать. При этом во многих задачах прогнозирования такие сведения не используются напрямую, чаще всего происходит их предварительная обработка (суммирование, усреднение и т.п.) в результате которой будут получены результаты из исходных параметров, то есть будет произведена обработка исходных параметров каким-либо статистическим методом [4]. Полученные результаты чаще всего не дают достаточных сведений для прогноза и их так же необходимо использовать как исходные параметры в работе другого численного метода или метода искусственного интеллекта в рамках ГИС для эффективного прогноза. При этом выбор численных методов для такой предварительной обработки первоначальных сведений задается экспертами в области объектов, состояние которых прогнозируется. Такими методами могут являться в том числе: вычисление суммы или среднего за больший период, выявление максимального и минимального значения (например, такие операции не будут иметь смысла для номера программного порта, но будут иметь смысл для размера пакета) [5].

Таким образом, можно сделать вывод о необходимости классификации входных параметров ГИС для лучшего понимания способов увеличения их количества в результате обработки и методов такой обработки, а также задания исходных весов параметров в зависимости от их значимости для объектов определенного типа или времени, для которого производится прогноз (время суток, время года и т.п.), и коррекция таких весов в зависимости от состояния объекта.

Первый класс будет состоять из абсолютных исходных параметров, исходными для ГИС в целом, которые накапливаются в базе данных и только на их основе ГИС сможет сформировать параметры второй группы –вычисляемые параметры [6].

Вычисляемые параметры могут быть получены как в результате работы численных методов, так и в результате работы методов искусственного интеллекта, которые будут включены в ГИС. Вычисляемые параметры так же можно разделить на две подгруппы: первая это вычисленные ГИС (сформированные) на основании последних данных и предыдущих, которые будут выступать как неделимые в хранилище, то есть будет произведено дополнительное обобщение абсолютных параметров. Вторая подгруппа статистически вычисляемые из набора настоящих и предыдущих (первой подгруппы), а также третья подгруппа второй группы – параметры, вычисляемые на основании статистических (второй подгруппы второй группы параметров).

Первая подгруппа второй группы часто выступает как замена абсолютных исходных данных для более компактного хранения в базе данных, с соблюдением достаточной детализации с точки зрения исследователя или экспертов в этой области. Третья подгруппа второй группы параметров является наиболее сложной в выборе методов формирования, но и наиболее перспективной с точки зрения прогноза дальнейшего развития событий (прогноза временного ряда и состояния объекта). Для формирования третьей подгруппы могут использоваться все остальные подгруппы второй группы, а также и первая группа параметров с разной степенью обобщения (с различным размером периода обобщения – минута, час, сутки и т.д.). В отношении третьей подгруппы стоит отметить, что чем большая выборка была учтена, тем точнее можно ожидать предсказание, но при этом увеличивается вероятность ошибки за счет непредсказуемых во времени новых предстоящих внешних событий, которые невозможно учесть, а также ошибок за счет недостаточно подробной (точной) формулы (алгоритма) преобразования параметров для прогноза. Кроме того, чем более детальная (менее обобщенная) информация была использована из подгрупп второй группы тем точнее и детальнее будет прогноз, однако время обработки более детальной информации может стать таковым, что результаты работы ГИС уже устареют и прогноз не будет иметь практического смысла.

Поэтому в реальности, учитывая эти противоположные тенденции, увеличивающие время обработки, размеры и количество ошибок, необходимо идти на компромисс и ограничивать выборки для анализа и ограничивать наиболее оптимальными размерами на основе тестовых значений. Кроме того, принятие характеристик текущего времени для отбора выборок из предыдущих периодов, например, последний промежуток за некоторый период, а также промежутки аналогичные данному по времени (ночь/день, день недели, день месяца (день недели месяца), месяц, известные предстоящие события) с соответствующими весами. Такие веса также могут быть не постоянными, их значения могут зависеть, например, от того же времени, в котором происходит принятие решение. Также такие веса могут меняться в зависимости от состояния объекта, особенно при обнаружении очень характерного состояния потока данных. Такие характерные состояния потока данных можно первоначально выявлять для ускорения данного этапа обработки по наиболее обобщенным прошлым параметрам, таким образом можно переходить от чисто временного способа выбора данных из прошлого к выбору данных из прошлого по характеристикам. При этом такой способ обращения к данным прошлого даст несколько вариантов поведения объекта в прошлом и для наиболее верной идентификации текущего поведения объекта необходимо будет перейти к более детальной информации, а иногда и расширить диапазон рассматриваемого промежутка времени состояния объекта в прошлом. И так можно выделить два способа обращения к сведениям, содержащимся в базе данных позволяющим значительно сократить объемы обрабатываемой ГИС информации: по времени и по максимально обобщенным характеристикам схожим с характеристиками текущего состояния. Такие характеристики также нужно будет хранить в базе данных для их быстрой идентификации в текущей обработке. Способ для такого обобщения параметров в случае с информационным трафиком может быть основан, например, на размере изменения объема трафика за выбранную единицу времени.

Заключение

Изложенный подход к классификации параметров для работы методов ГИС позволяет при выборе методов, составляющих ГИС, провести более эффективно их отбор и выстроить очередность работы таких методов для эффективной работы ГИС. Задача следующих исследований разработать наиболее универсальный и максимально детальный перечень параметров для выбора методов их получения в рамках гибридной интеллектуальной системы [7].

Литература

  1. Амосов О.С., Баена С.Г., Магола Д.С. Сетевая классификация атак в задачах информационной безопасности на основе интеллектуальных технологий, фрактально-го и вейвлет-анализа // Ученые записки КнАГУ. – 2017, Т1, № 4(32). – С.19–29.
  2. Шаньгин В.Ф. Информационная безопасность компьютерных систем и сетей – М.: ИД «ФОРУМ»: ИНФРА-М. 2008.
  3. Лукацкий А.В. Обнаружение атак – СПб.: БХВ-Петербург. 2003.
  4. Анализ и классификация методов обнаружения сетевых атак / А.А.Браницкий, И.В. Котенко // Труды СПИИРАН. – 2016. –  Вып. 45. – C. 207-244.
  5. Колесников А.В. Гибридные интеллектуальные системы: теория и технология разработки. – СПб.: Изд-во СПбГТУ, 2001.
  6. Гаврилов А.В. Гибридные интеллектуальные системы: Монография. – Новосибирск: Изд-во НГТУ, 2002.
  7. Батурин Д.С. классификация методов обнаружения вторжений в информационные сети медицинских учреждений для использования в гибридных интеллектуальных системах // Материалы XII международной научной конференции «Системный анализ в медицине» (САМ 2018) / под общ. ред. В.П.Колосова. Благовещенск, 2018. 208 с. ISBN 978-5-905864-16-2. DOI: 10.12737/collection_5bdaacdabfaa21.62437081