Open Format vs Machine Readable Format

이 글은 OKFN Korea 페이스북 그룹에서 먼저 작성된 글입니다.
오픈 데이터와 관련하여 위에 두 가지 형식에 대해 정리가 필요해 보입니다. 미국의 Open Data Policy에서 Machine Readable Format이 언급되면서 이슈가 되었다고 생각합니다.

 

먼저 “Open Format” 데이터를 활용하기 위한 범용적 솔루션을 지향합니다. 웹 브라우저, 메모장과 같이 일반적인 사용자가 갖고 있는 도구로 활용할 수 있는 데이터 형식을 말합니다. 예를 들어, XLS 형식은 마이크로소프트의 엑셀 (Excel)이라는 소프트웨어가 없으면 사용할 수 없지만, 같은 내용을 csv (comma separated value)형태로 제공하면 텍스트 편집기나 웹 브라우저를 통해 확인할 수 있습니다. 그래서 오픈 데이터의 형식은 보편성을 지향합니다.

반면, (꼭 상반된 개념은 아니지만), Machine Readable Format은 데이터를 처리 (processing)하는 관점에서 조금은 공학적인 얘기를 합니다. PDF, HTML 형식은 사람들이 볼 수 있는 (human readable) 목적으로 적합하지만, 컴퓨터가 처리하는데 적합한 형식은 아닙니다. 개발자라면 데이터를 파싱 (parsing) 한다는 의미를 이해할텐데요. 데이터를 활용 목적에 맞게 처리하는 것인데, 위에 언급한 형식들은 이런 작업에 시간도 많이 걸리고 쉽지 않습니다. 결국 어떤 데이터를 활용하고자 할 때, 컴퓨터가 처리하기 어렵다는 말은 누군가-개발자이던 아니던- 더 많은 시간을 데이터 조작에 써야 된다는 의미가 됩니다.


오픈 데이터에서 Machine Readable Format을 지향하는 것은 컴퓨터가 더 많은 일을 처리할 수 있는 가능성을 확보하는 것이고, 궁극적으로 데이터 사용자의 시간과 노력을 절약할 수 있기 위한 목적입니다. 물론 여기에 더해 데이터를 연계하고 통합하고… 상호운용이 가능하고… 라는 수식어를 보탤 수 있지만 데이터 사용자를 위한 목적만으로 그 의미가 있다고 할 수 있습니다. 기술적 관점에서 이런 것들에 가장 가까운 것이 Linked Data 기술이지만, 이 이슈는 다른 포스트에 써 보겠습니다.

두 가지 형식이 상호 배타적 관계가 아닌 보완적인 관계라는 것이 중요합니다. Machine Readable Format으로 제공되는 XML, RDF, OWL과 같은 형식은 웹 브라우저에서 모두 볼 수 있는 보편적 형식입니다. 이런 형식으로 제공하기 위해 추가적인 작업이 필요한 것이 문제(?)이지만, 이를 통해 얻을 수 있는 이점은 많아질 것이라 생각합니다. 이렇게 쓰고 보니, 결국 기술적인 얘기도 같이 해야 겠네요 ^^ Machine readable data에 대한 링크를 남깁니다.

 

http://en.wikipedia.org/wiki/Machine-readable_data

“Machine-readable data is data (or metadata) which is in a format that can be understood by a computer.

There are two types; human-readable data that is marked up so that it can also be read by machines (examples; microformats, RDFa) or data file formats intended principally for machines (RDF, XML, JSON).

For purposes of implementation of the GPRA Modernization Act (GPRAMA), the Office of Management and Budget (OMB) defines “machine readable” as follows: “Format in a standard computer language (not English text) that can be read automatically by a web browser or computer system. (e.g.; xml).

Traditional word processing documents, hypertext markup language (HTML) and portable document format (PDF) files are easily read by humans but typically are difficult for machines to interpret. Other formats such as extensible markup language (XML), (JSON), or spreadsheets with header columns that can be exported as comma separated values (CSV) are machine readable formats. It is possible to make traditional word processing documents and other formats machine readable but the documents must include enhanced structural elements.”[1]

Publishing public data in an open, standard, machine-readable format is a best practice (good operating practice).”

 

*추가자료

David Weinberger가 Human Readable vs. Machine Readable에 대해서 짤막하게 설명한 영상입니다.

http://vimeo.com/48196816

Leave a Reply

Your email address will not be published. Required fields are marked *