'XML'에 해당되는 글 2건

  1. 2008/03/18 귀차니스트 Systeml.Xml in C# - C#에서 Xml 사용하는 방법
  2. 2008/02/23 귀차니스트 HTML Parser - XHTML 변환 파싱

  C++ 에서는 MSXML Parser SDK 를 별도로 깔아 사용하고, GDI Plus 를 깔아 사용했던 것과는 달리 C++.Net 을 비롯한 C#, 즉 .Net 환경에서는 기본적인 네임 스페이스로 위 기능들이 지원됩니다. 어떻게 하냐구요. 물론 시중에 나와있는 책 들도 많습니다. 하지만 최근에 일하는 도중 XML을 이용한 Data Serialization, Deserialization을 구현하다 보니 그냥 자료정리겸 남겨봅니다.
  일단 System.Xml 네임스페이스를 프로젝트에 참조로 추가하고 System.Xml. 네임스페이스를 입력하게 되면 VS.net 의 인텔리 센스가 작동하여 코드가 표시되는데 대부분의 접두어가 Xml 입니다. 종류도 많습니다. XmlNode, XmlElement, XmlText 등 그런데 실제로 해당 객체를 생성하고하면 생성이 되지 않습니다. 그럼 어떻게 생성을 하여야 할까요?

Test.cs (Language : csharp)
  1. private void test()
  2. {
  3.     System.Xml.XmlDocument Doc = new System.Xml.XmlDocument();
  4.     System.Xml.XmlElement Elem = Doc.CreateElement("String");
  5.     Doc.AppendChild(Elem);
  6.     Doc.Save("a.xml");
  7. }

  위와 같은 코드를 사용하시면 됩니다. Document 에서 멤버 메소드로 CreateElement 를 호출하시면 되죠. 이와 비슷하게 CraeteAttribute 같은 함수를 사용하시면 추가적으로 모든 요소를 생성하실 수 있습니다. 그리고 AppendChild 를 호출하게 되면 자기 자신의 자식으로 속성을 추가하게 되죠. 물론 XmlAttribute 이나 XmlText 이냐에 따라서 Save시의 결과물 값이 달라지게 됩니다. 무작정 자식노드로 추가하지는 않는다는 말이죠.
  그럼 반대로 읽어오는 것은 어떻게 하면 될까요??

Load.cs (Language : csharp)
  1. private void button1_Click(object sender, EventArgs e)
  2. {
  3.     System.Xml.XmlDocument Doc = new System.Xml.XmlDocument();
  4.     Doc.Load("a.xml");
  5. }

 아주 간단합니다. Load 라는 메소드를 사용하면 해당 Xml 파일에 대해서 내부적인 파싱을 하여 데이터를 가지고 있게 됩니다. 물론 형태는 XML 형태를 준수하여야 겠죠. 그리고 내부 사용은 Doc.ChildNodes 들을 가지고 자식으로 노드를 타고 내려가며 처리를 하면 됩니다.
  한 때 XML이 인기가 많았던 적이 있었는데 지금은 영 말이 아닌것 같습니다. 그래도 꽤 쓸만한 것이다 보니 유용하게 사용할 부분도 많을것 같네요.

크리에이티브 커먼즈 라이센스
Creative Commons License
2008/03/18 23:59 2008/03/18 23:59

댓글을 달아 주세요

HTML Parser - XHTML 변환 파싱

Utility/Library 2008/02/23 20:24 귀차니스트

  대학교 3학년이 끝나는 2006년 12월 26일 병역특례를 하게 되었죠. 입사를 하고 나서 한 달이란 짧은 수습기간 동안 프로그램을 만들게 되었는데 그 중 필요했던 기능이 HTML Parsing 부분이었습니다. 그래서 W3C에서 공개 중인 Tidy 라이브러리를 이용한 HTML Parser를 개발하게 되었죠.
  흔히 말하는 HTML이라는 것이 Well-Formed 문서만 존재하면 좋지만 태그가 덜 닫힌 경우, 태그의 순서가 서로 얽혀있는 경우도 있기 때문에 바로 Pasing만 하는 것은 문제가 많습니다. 그래서 Tidy를 이용 HTML 을 XHTML 이나 XML 형식문서로 컨버팅 할 필요가 생기는 것이죠.
  이 라이브러리를 사용하여 XHTML, XML 문서로 컨버팅이 끝나게 되면 Parsing 과정은 말도 안 되게 쉬워집니다. XHTML, XML 이 XML Paser에서 인식이 될 수 있기 때문이죠, 저 같은 경우는 당시 필요한 부분이 그렇게 없었기 때문에 XPath를 이용한 함수들만 제작하여 사용하였습니다. 지금 생각하면 부족한 부분도 없지 않아 많군요^^.
  그런데 이 Tidy라는 라이브러리가 그 당시엔 그렇게도 골치를 썩혔답니다. 왜냐하면 흔히 HTML 문서에 한글이 포함되어있을 때 raw 라던가 자세히 기억나지는 않지만 euc-kr 변환을 하여야 하는데 공백을 나타내는 단어인 &nbsp; 이 포함되어있을 경우 때때로 이 단어의 태그 오픈 '<' 문자가 사라지는 문제점도 있었을 뿐더러 XML의 declaration인 <?xml version="1.0" encoding="euc-kr" ?> 부분이 euc-kr 로 세팅할 수 없어서( 제가 찾지 못했을 수도 있습니다. ) XML 파서에서 한글을 제대로 인식하지 못하는 경우까지 생기더군요.
  뭐 어쩔 수 없이 String 문자를 수동으로 붙이는 등의 꼼수를 동원하고서 원하는 결과를 얻었습니다. 물론 이렇게 만든 것을 사용하고 말았죠. 뭐 이런저런 추억을 잠기게 하는 것이긴 합니다만 필요할 때는 좀 더 좋게 만들어봐야겠습니다.

필요라이브러리 : MSXML Parser SDK 6.0

크리에이티브 커먼즈 라이센스
Creative Commons License

"Utility / Library" 분류의 다른 글

IPangYa - 팡야 계산기 라이브러리 (0)2008/02/21
2008/02/23 20:24 2008/02/23 20:24

댓글을 달아 주세요