DOM совместимые анализаторы

Данные Разработка Безопасность Инфраструктура Курсы и книги

DOM совместимые анализаторы

Другим способом представления внутренней структуры документа являются DOM - интерфейсы. Как уже упоминалось, их реализацией занимаются разработчики XML-анализатора, используя для этого возможности конкретного языка программирования. Программисты на Java могут найти эти классы в библиотеке org.w3.dom. Наследуя виртуальные методы DOM интерфейсов, классы анализатора предоставляют приложению стандартный способ манипулирования структурой документа. В свою очередь, приложение, использующее XML-анализатор, может не знать о способе реализации интерфейсов, ему доступна готовая библиотека методов, при помощи которой он может производить поиск нужных фрагментов документа, создавать, удалять и модифицировать его элементы.

Одним из доступных на сегодня DOM-совместимых наборов классов для работы с документами является библиотека com.ibm.dom, входящая в состав XML анализатора xml4j от IBM. Получить ее можно по адресу www.alphaworks.ibm.com. Принцип использования DOM интерфесов по сравнению с IE5 практически не изменился - поменялись только названия объектов и методов. Их краткий обзор представлен в следующей таблице.

Node

Базовый интерфейс для остальных элементов объектной модели XML, представляющий узел дерева структуры документа.

Document

Используется для получения информации о документе и изменения его структуры. Это интерфейс представляет собой корневой элемент XML документа и содержит методы доступа ко всему содержимому документа. При помощи методов объекта Document в программе можно создавать дочерние объекты, представляющие различные конструкции документа (например, createElement - создание элемента, createComment - создание комментария, createTextNode - текстового фрагмента), удалять, перемещать, добавлять объекты (removeChild, replaceChild, insertBefore, ...), перемещаться по дереву элементов(getFirstChild, getLastChild, getNextSibling, getParentNode, getPreviousSibling, ...), получать элементы по их названию (getElementsByTagName, :) и т.д. В объектной модели IE5 этот интерфейс доступен для сценариев на JScript, VB через объект XMLDOMDocument

Element

Представляет элемент документа, определяя методы доступа к его названию(getTagName, getElementsByTagName), атрибутам (getAttribute, getAttributeNode, setAttribute, removeAttribute, : ) и дочерним элементам(appendChild, getChildNodes, getFirstChild, ...).

Attr

Интерфейс, представляющий атрибут элемента. Имеет методы для получения(getValue) и установления(setValue) значения атрибута. Хотя согласно синтаксису XML атрибуты должны назначаться только элементам, в DOM возможно их создание любым объектом, наследующим интерфейс Node. Поэтому можно создать атрибут для документа, который будет находится в списке атрибутов, но не принадлежать ни одному из его элементов.

CharacterData

Интерфейс, предоставляющий доступ к текстовым данным документа. В XML документе к этому типу данных относятся комментарии, текстовое содержимое элементов, секции CDATA. При помощи методов этого интерфейса можно добавлять, удалять, редактировать данные(appendData, deleteData, replaceData, setData), получать размер области текста (getLength) и извлекать текстовое содержимое(getData, substringData, ...)

Comments

Интерфейс для доступа к тексту комментариев

Text

Представляет текстовое содержимое элемента

CDATASection

Интерфейс, представляющий секции CDATA - фрагментов документа, заключенные в символы "[[" и "]]>", которые не обрабатываются XML-анализатором и поэтому могут содержать символы, "запрешенные" в спецификации XML. В эту область можно, к примеру, помещать стилевые таблицы или JavaScript сценарии, используемые при отображении HTML страницы.

ProcessingInstruction

Предоставляет доступ к т.н. области "инструкций процессора", данные из которой используются XML-анализатором при разборе документа. Доступ к этим данным возможен при помощи методо getData, setData и getTarget

Notation

Определяет инструкцию DTD описания. Для получения ее идентификаторов используются методы getPublicId и getSystemId . DOM Level 1 не поддерживает прямого доступа к DTD декларациям по записи и сейчас они доступны лишь для чтения (при помощи параметра nodeName интерфейса Node)

В следующем примере демонстрируется использование DOM-объектов для вывода содержимого XML документа в двух форматах - в виде дерева элементов и обычной HTML страницы. Немного изменив пример, можно заставить программу сохранять выходной формат в файле и мы получим таким образом обычный XML-HTML конвертор.

/*
Пример использования DOM анализатора.
Демонстрируется возможность рекурсивного обхода дерева элементов,
создание новых элементов, фильтрация элементов (поиска по параметрам)
*/

import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.io.UnsupportedEncodingException;
import java.util.*;

import org.w3c.dom.*;

import org.xml.sax.Parser;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.ParserFactory;

import com.ibm.xml.parsers.DOMParser;

public class logParser {

    static String defaultParser = "com.ibm.xml.parsers.DOMParser";
    static String urlLog;
    static  Document xmldoc = null;
    static  PrintWriter out;

/* 
Конструктор нашего класса- обработчика. 
В нем создается выходной поток для печати 
*/
 
    public logParser(String url){
     urlLog = url;

       try {
            out = new PrintWriter(new OutputStreamWriter(System.out, "koi8-r"));
        }
        catch (UnsupportedEncodingException e) {
         System.err.println(e.toString());
        }

    }

    public void parseDoc(){
     parseDoc(defaultParser);
    }

/* 
Создание класса анализатора, обрабтка им XML-документа 
и создание объектной модели документа
*/

    public void parseDoc(String parserName){
      
        try {
            Parser parser = ParserFactory.makeParser(parserName);
	    parser.parse(urlLog);

// Получение указателя на корневой элемент документа
            xmldoc = ((DOMParser)parser).getDocument();

        }
        catch (Exception e) {
         System.err.println(e.toString());          
        }   
    }

//==========================================================================
// Вывод содержимого документа в виде форматированного списка XML- элементов 
//========================
            
                    
    public void viewLogAsXML(){

        try {

	     viewLogAsXML(xmldoc,"");  

        }
        catch (Exception e) {
         System.out.println(e.toString());          
        }   
      out.flush();

    }

/* 
Рекурсивный обход элементов документа, начиная с указанного
элемента node.
*/

    public void viewLogAsXML(Node node,String offs){

        if (node == null) {
            return;
        }
        int type = node.getNodeType(); // Получение информации о типе текущего узла
        switch (type) {
/* Если текщий узел - корневой элемент документа */

            case Node.DOCUMENT_NODE: {
                out.println("<?xml version=\"1.0\" encoding=\"koi-8\"?>");
                viewLogAsXML(((Document)node).getDocumentElement(),offs);
                out.flush();
                break;
            }

/* Если текщий узел - элемент */

            case Node.ELEMENT_NODE: {
                out.print(offs+"<");
// Печать названия элемента 
                out.print(node.getNodeName());
// Получение списка атрибутов текущего элемента

                NamedNodeMap attrs = node.getAttributes();
		Node attr;
                for (int i = 0; i < attrs.getLength(); i++) {
                    attr = attrs.item(i);
                    out.print(' ');
                    out.print(attr.getNodeName()+"=\""+attr.getNodeValue()+"\"");
                }
                out.println('>');

// Получение списка дочерних элементов
                NodeList children = node.getChildNodes(); 

// Если у текщего элемента есть дочерние, то выводим и их

                if (children != null) {
                    int len = children.getLength();
                    for (int i = 0; i < len; i++) {
                        viewLogAsXML(children.item(i),offs+" ");
                    }
                }
                break;
            }   

/* Если текщий узел - текстовый */
            case Node.TEXT_NODE: {
                out.println(offs+node.getNodeValue());
                break;
            }
    
        }
// Печать закрывающего тэга элемента
        if (type == Node.ELEMENT_NODE) {
            out.print(offs+"</");
            out.print(node.getNodeName());
            out.println('>');
        }          
            
    }               


//=======================================================
// Вывод в формате HTML
//=====================
 
/* Вызов рекурсивного обходчика */

    public void viewLog(){

// Header
        viewAsHTML("All log records:");

        try {

// Вывод содержимого
	     viewLog(null);

        }
        catch (Exception e) {
         System.out.println(e.toString());          
        }

// Header
        viewAsHTML();

    }


/* Печать только сообщений об ошибках */

    public void viewErrors(){

// Header
        viewAsHTML("Log errors:");

        try {
// Вывод содержимого
	     viewLog("error");
        }
        catch (Exception e) {
         System.out.println(e.toString());          
        }
// Footer
        viewAsHTML();

    }


/* 
Рекурсивный обход элементов, у которых атрибут type равен заданному. 
*/                         
                                        
    public int viewLog(String type){
        

        int i=0;
        int elemNum=0;
        int messageCount=0;
	Element elem;
	NodeList elements;

	elements = xmldoc.getElementsByTagName("event");
        if(elements==null) System.out.println("Empty element collection");

        elemNum = elements.getLength();

        if (type == null) {

            for (i = 0; i < elemNum; i++) {
	        if(elements.item(i)==null) System.out.println("Empty element");
              viewLogMessage((Element)elements.item(i));
            }
            messageCount=elemNum;

        }
        else {
            for (i = 0; i < elemNum; i++) {
                elem = (Element)elements.item(i);

                if(elem.getAttribute("type")==type){
                 messageCount++;
                 viewLogMessage(elem);
                }

            }
        }
       return messageCount;
    }

/* Печать заголовка таблицы */

    public void viewAsHTML(String title){
        out.println("<html>");
        out.println("<head><title>Log parser sample</title></head>");
        out.println("<body><br><b>"+title+"</b><hr>");
        out.println("<table cellspacing=\"2\" cellpadding=\"2\" border=\"1\" width=\"600\">");
        out.println("<tr bgcolor=\"silver\"><th>IP</th><th>Date</th><th>Method</th><th>Request</th><th>Response</th></tr>");
    }

/* Печать комментариев к таблице */

    public void viewAsHTML(){
        Date d = new Date();
        String date = new String(""+d.getHours()+":"+d.getMinutes()+":"+d.getSeconds());
        out.println("</table><hr>generated by logParser at <i>"+date+"</i><br></body></html>");
        out.flush();
    }

/* Форматированный вывод содержимого элемента event */

    public void viewLogMessage(Element elem){

      /* 
	 Получение текста внутри элемента - обращаемся к первому
	 дочернему узлу (им должен оказаться текст) и получаем его
	 значение, используя метод getNodeValue() интерфейса Node 
      */

      String str_from=(elem.getElementsByTagName("ip-from")).item(0).getFirstChild().getNodeValue();
      String str_method=(elem.getElementsByTagName("method")).item(0).getFirstChild().getNodeValue();
      String str_to=(elem.getElementsByTagName("url-to")).item(0).getFirstChild().getNodeValue();
      String str_result=(elem.getElementsByTagName("response")).item(0).getFirstChild().getNodeValue();

      out.println("<tr><td>"+str_from+"</td><td>"+elem.getAttribute("date")+"</td><td>"+str_method+"</td><td>"+str_to+"</td><td>"+str_result+"</td></tr>");

    }
                             

//=======================================================
// Модификация дерева элементов
//=============================

    public void logMessage(String result, String datetime, String method, String ipfrom, String urlto, String response){

      if(xmldoc==null) return;

      Element root = xmldoc.getDocumentElement();
      Element log_elem = xmldoc.createElement("event");
      log_elem.setAttribute("result",result);
      log_elem.setAttribute("date",datetime);

      Element elem;
      Text elem_value;

      elem = xmldoc.createElement("method");
      elem_value = xmldoc.createTextNode(method);
      elem.appendChild(elem_value);
      log_elem.appendChild(elem);

      elem = xmldoc.createElement("ip-from");
      elem_value = xmldoc.createTextNode(ipfrom);
      elem.appendChild(elem_value);
      log_elem.appendChild(elem);

      elem = xmldoc.createElement("url-to");
      elem_value = xmldoc.createTextNode(urlto);
      elem.appendChild(elem_value);
      log_elem.appendChild(elem);

      elem = xmldoc.createElement("response");
      elem_value = xmldoc.createTextNode(response);
      elem.appendChild(elem_value);
      log_elem.appendChild(elem);

      root.appendChild(log_elem); 
    }


//=======================================================
// Пример использования методов класса logParser
//==============================================

    public static void main(String argv[]) {

/*
 Создание объекта анализатора. В качестве параметра ему 
 передается название документа(можно и через командную строку, конечно...)
*/

      logParser log_file = new logParser("log.xml");  
      log_file.parseDoc();                            // Анализ документа

        if (argv.length == 0) {                       // Что с ним делать
            log_file.viewLogAsXML();
            System.exit(0);
        }                     

        for (int i = 0; i < argv.length; i++) {
            String arg = argv[i];

            if (arg.startsWith("-")) {
                if (arg.equals("-vx")) {
                    log_file.viewLogAsXML();
                    break;
                }
                if (arg.equals("-va")) {
                    log_file.viewLog();
                    break;
                }
                if (arg.equals("-ve")) {
                    log_file.viewErrors();
                    break;
                }

	        if (arg.equals("-h")) {
        	   usage();
                }
            }
        }


      log_file.logMessage("success","12","GET","127.0.0.1","./index.html","200");
      log_file.viewLogAsXML();


    }
    private static void usage() {

        System.err.println("usage: java logParser (options)");
        System.err.println();
        System.err.println("options:");
        System.err.println("  -vx View result as XML tree (default)");
        System.err.println("  -va View all messages as HTML page");
        System.err.println("  -ve View only errors as HTML page");
        System.err.println("  -h  View help ");

    } 

}

Комментарии

Более подробные комментарии, файлы приложений и результатов их работы можно найти по адресу www.mrcpk.nstu.ru/xml/

Назад | Содержание

Новости IT

14 июля 2026

Anthropic запустила бесплатный Claude for Teachers для учителей школ США

14 июля 2026

Anthropic измерила, как язык запроса меняет ответы Claude

14 июля 2026

RedHook научился получать shell-доступ на Android через Wireless ADB

14 июля 2026

Нью-Йорк ввел мораторий на новые дата-центры с энергопотреблением от 50 МВт

14 июля 2026

Grok Build загружал целые репозитории пользователей в облако

14 июля 2026

Глава Google DeepMind предложил создать независимый орган для проверки frontier-моделей ИИ

14 июля 2026

Apple открыла публичное тестирование iOS 27 с новой Siri AI

14 июля 2026

У российских пользователей возникли сбои при доступе к GitHub, Google и сайтам Apple

14 июля 2026

Nebius предоставит Reflection AI вычислительные мощности более чем на $1 млрд

14 июля 2026

Оптическая связка ПЛИС ускорила тестовый инференс нейросети почти в 149 раз

14 июля 2026

WIRED: команда DOGE использовала ИИ при работе над жилищной политикой США, но HUD не раскрывает детали

14 июля 2026

Intel вложит €5 млрд в ирландский Leixlip для расширения выпуска Xeon

14 июля 2026

Google обновляет Images: персональная галерея и генерация картинок в AI Overviews

14 июля 2026

Spectral Compute продвигает SCALE — компилятор CUDA для GPU AMD без переноса кода

14 июля 2026

Издатели подали коллективный иск к Google из-за обучения Gemini на книгах

14 июля 2026

Financial Times: Nvidia более чем вдвое сократила список азиатских покупателей ИИ-чипов

14 июля 2026

ChatGPT вернулся в WhatsApp в Европе после решения Еврокомиссии

13 июля 2026

Нобелевские лауреаты и специалисты по ИИ призвали срочно готовиться к экономическим последствиям ИИ

13 июля 2026

Intel раскрыла Starfire — процессоры на Intel 18A для космических систем

13 июля 2026

Ричард Саттон запустил Oak Lab для разработки AI-агентов, обучающихся на собственном опыте

Все новости →

Связь с редакцией

Node	Базовый интерфейс для остальных элементов объектной модели XML, представляющий узел дерева структуры документа.
Document	Используется для получения информации о документе и изменения его структуры. Это интерфейс представляет собой корневой элемент XML документа и содержит методы доступа ко всему содержимому документа. При помощи методов объекта Document в программе можно создавать дочерние объекты, представляющие различные конструкции документа (например, createElement - создание элемента, createComment - создание комментария, createTextNode - текстового фрагмента), удалять, перемещать, добавлять объекты (removeChild, replaceChild, insertBefore, ...), перемещаться по дереву элементов(getFirstChild, getLastChild, getNextSibling, getParentNode, getPreviousSibling, ...), получать элементы по их названию (getElementsByTagName, :) и т.д. В объектной модели IE5 этот интерфейс доступен для сценариев на JScript, VB через объект XMLDOMDocument
Element	Представляет элемент документа, определяя методы доступа к его названию(getTagName, getElementsByTagName), атрибутам (getAttribute, getAttributeNode, setAttribute, removeAttribute, : ) и дочерним элементам(appendChild, getChildNodes, getFirstChild, ...).
Attr	Интерфейс, представляющий атрибут элемента. Имеет методы для получения(getValue) и установления(setValue) значения атрибута. Хотя согласно синтаксису XML атрибуты должны назначаться только элементам, в DOM возможно их создание любым объектом, наследующим интерфейс Node. Поэтому можно создать атрибут для документа, который будет находится в списке атрибутов, но не принадлежать ни одному из его элементов.
CharacterData	Интерфейс, предоставляющий доступ к текстовым данным документа. В XML документе к этому типу данных относятся комментарии, текстовое содержимое элементов, секции CDATA. При помощи методов этого интерфейса можно добавлять, удалять, редактировать данные(appendData, deleteData, replaceData, setData), получать размер области текста (getLength) и извлекать текстовое содержимое(getData, substringData, ...)
Comments	Интерфейс для доступа к тексту комментариев
Text	Представляет текстовое содержимое элемента
CDATASection	Интерфейс, представляющий секции CDATA - фрагментов документа, заключенные в символы "[[" и "]]>", которые не обрабатываются XML-анализатором и поэтому могут содержать символы, "запрешенные" в спецификации XML. В эту область можно, к примеру, помещать стилевые таблицы или JavaScript сценарии, используемые при отображении HTML страницы.
ProcessingInstruction	Предоставляет доступ к т.н. области "инструкций процессора", данные из которой используются XML-анализатором при разборе документа. Доступ к этим данным возможен при помощи методо getData, setData и getTarget
Notation	Определяет инструкцию DTD описания. Для получения ее идентификаторов используются методы getPublicId и getSystemId . DOM Level 1 не поддерживает прямого доступа к DTD декларациям по записи и сейчас они доступны лишь для чтения (при помощи параметра nodeName интерфейса Node)