Công việc này được hỗ trợ một phần bởi Bộ Quốc phòng, NSF ITR 1040059 và Văn phòng Nghiên cứu Hải quân N00014-02-1-0973 và Quỹ Khoa học Quốc gia thuộc chương trình IGERT về đào tạo và nghiên cứu trong CASOS. Sự hỗ trợ bổ sung được cung cấp bởi CASOS – trung tâm phân tích tính toán các hệ thống tổ chức và xã hội tại Đại học Carnegie Mellon. Các quan điểm và kết luận có trong tài liệu này là của tác giả và không nên được hiểu là đại diện cho các chính sách chính thức, được thể hiện hoặc ngụ ý, của Bộ Quốc phòng, Văn phòng Nghiên cứu Hải quân, Quỹ Khoa học Quốc gia hoặc chính phủ Hoa Kỳ. .

Phiên bản hiện tại

Cập nhật lần cuối: ngày 27 tháng 3 năm 2015

Có thể tìm thấy đặc tả DyNetML trong định dạng RELAX NG tại đây

Ví dụ về DyNetML có thể tìm thấy tại đây:

ví dụ đơn giản 1

ví dụ đơn giản 2

tham gia ví dụ 1 và 2

thêm ví dụ 1 và 2

Để biết thông tin về ORA-PRO
ORA-PRO được cung cấp bởi Netanomics, truy cập trang web của họ.

Để biết thêm các công cụ, vui lòng tham khảo phần công cụ CASOS.

Giới thiệu

Hiện trạng nghệ thuật trong biểu diễn dữ liệu mạng xã hội trình bày một bức tranh khá ảm đạm. Mỗi gói phân tích và mô phỏng sử dụng định dạng dữ liệu riêng, độc quyền và không tương thích của nó. Một số định dạng tệp thậm chí không có tài liệu đặc tả, làm cho các tệp không thể đọc được nếu không có phần mềm tạo ra chúng. Các định dạng dữ liệu được thiết kế cho khả năng tương tác (chẳng hạn như DL) hiếm khi diễn đạt đủ để đại diện đầy đủ các tập dữ liệu. Kết quả là, hầu hết các nhà nghiên cứu buộc phải đối phó với trao đổi dữ liệu trong một thời trang tạm thời, lúc tốt nhất tăng khối lượng công việc và tồi tệ nhất dẫn đến mất tính toàn vẹn dữ liệu. Để cải thiện sự hợp tác giữa các nhà nghiên cứu và để thúc đẩy khả năng tương tác của phần mềm, cộng đồng cần phải đồng ý về một ngôn ngữ trao đổi dữ liệu chung. Trong một cuộc họp không chính thức tại CASOS 2002, một số nhà phát triển và người dùng nổi bật của các công cụ phân tích mạng xã hội đã đồng ý hợp tác trong việc phát triển ngôn ngữ trao đổi và hỗ trợ nó khi có sẵn. Bài báo này đề xuất một ngôn ngữ có nguồn gốc từ XML giải quyết các yêu cầu về tính biểu cảm và tính tương thích. Chúng tôi tiến hành phác thảo tầm nhìn của mình cho việc phát triển các khung công cụ phân tích mạng xã hội, điều này sẽ làm tăng khả năng của các nhà nghiên cứu chia sẻ và phân tích dữ liệu

Cạm bẫy của các công cụ hiện có

Như chúng tôi đã đề cập ở trên, các định dạng dữ liệu mạng xã hội hiện tại có một số thiếu sót:
Tệp nhị phân rất khó đọc nếu đặc tả chính xác của định dạng tệp không được cung cấp. Cần có thêm những nỗ lực đáng kể để duy trì khả năng tương thích với các công cụ khác hoặc giữa các phiên bản của cùng một công cụ.

Nhiều tệp được sử dụng cho đặc tả dữ liệu phong phú hoặc lưu đầu ra phân tích trình bày một số vấn đề. Trước hết, có một tiềm năng đáng kể cho việc mất dữ liệu do các tệp bị thất lạc hoặc bị hỏng (ví dụ, trong khi được gửi qua email). Thứ hai, một lược đồ đặt tên nhất quán cho tất cả các tệp và danh mục tệp được yêu cầu để ngăn chặn mất dữ liệu – một gánh nặng phụ đối với nhà nghiên cứu (vì các tính năng này không có trong phần mềm phân tích)

Các tệp Dữ liệu thô như ma trận nhị phân hoặc danh sách cạnh thiếu tính biểu cảm cần thiết để thể hiện nhiều mối quan hệ giữa các nút hoặc sự phát triển của mạng xã hội theo thời gian.
Dữ liệu con người có thể đọc được trong các tệp văn bản hoặc bảng tính giải quyết vấn đề về tính biểu đạt nhưng yêu cầu xử lý hậu kỳ rộng rãi bằng tay hoặc với các tập lệnh hậu xử lý. Tuy nhiên, các chương trình này thường đại diện cho liên kết yếu nhất trong chuỗi phần mềm (do thiết kế vội vàng và sự phụ thuộc vào các công cụ bên ngoài như Perl hoặc Awk).

Yêu cầu đối với trao đổi dữ liệu

Theo các vấn đề nêu trên, chúng tôi tiến hành xác định các yêu cầu cho một định dạng trao đổi dữ liệu phổ quát, tạo điều kiện thuận lợi cho việc trao đổi dữ liệu mạng xã hội phong phú và cải thiện tính tương thích của các công cụ phân tích và trực quan hóa.Định dạng trao đổi dữ liệu phải được chứa trong các tệp văn bản có thể đọc được cùng lúc với các máy tính dễ dàng phân tích cú pháp.

Định dạng trao đổi dữ liệu sẽ cho phép toàn bộ tập dữ liệu, hoàn chỉnh với tất cả các phép đo được tính toán, được lưu trữ trong một tệp
Định dạng trao đổi dữ liệu sẽ cung cấp sức mạnh biểu cảm tối đa cho người dùng của nó, cho phép:
Các nút đã nhập (loại có thể bao gồm “người”, “tài nguyên”, “tổ chức”, “kiến thức”, v.v …)
Nhiều tập hợp các nút cùng loại (để thể hiện nhiều đơn vị trong công ty, v.v.)
Nhiều thuộc tính được nhập cho mỗi nút
Cạnh đã nhập
Nhiều thuộc tính đã nhập trên mỗi cạnh
Nhiều đồ thị (bộ cạnh) được thể hiện trong cùng một tệp
Dữ liệu mạng động được thể hiện trong một tệp
Định dạng trao đổi dữ liệu sẽ cho phép các nhà phát triển mở rộng nó theo cách không phá vỡ phần mềm hiện có
Định dạng trao đổi dữ liệu phải đủ linh hoạt để được sử dụng làm cả đầu vào và đầu ra của các công cụ phân tích.

DyNetML: Ngôn ngữ trao đổi dữ liệu mạng xã hội phong phú

Đối mặt với nhu cầu cấp bách về khả năng tương tác của công cụ trong phòng thí nghiệm của chúng tôi, chúng tôi đã phát triển DyNetML – một ngôn ngữ phái sinh XML giải quyết các yêu cầu trên.

Hình 1 cho thấy cấu trúc phân cấp của các tệp DyNetML.

Phần tử <nodes> đóng gói tất cả các nút trong một MetaMatrix đã cho.

 

<nodeset id = ” nodeset1 ” type = ” tác nhân ”>

Một nodeset là một nhóm các nút theo loại; các loại bao gồm tác nhân, kiến thức, tài nguyên, nhiệm vụ, tổ chức, vị trí. Có thể xác định thêm một nút của cùng một loại; ID nodeset phải là duy nhất.

Mỗi nút <node> trong một nút <nodeset> phải được cung cấp cùng với một ID duy nhất và có thể chứa một số bất kỳ thuộc tính <property> bẩm sinh hoặc được tính toán <measure>. Điều này cho phép các nhà sưu tập dữ liệu xác định dữ liệu phức tạp tùy ý về các nút trong khi tách dữ liệu được thu thập khỏi các kết quả phân tích.

Phần tử <networks> đóng gói dữ liệu mạng được lưu trữ dưới dạng danh sách kết nối đồ thị.

Các nút <graph> được chỉ định với một ID và ID duy nhất của các nút nguồn và đích. Mỗi Graph chứa một tập hợp các phần tử Edge có nguồn và đích là các nút được khai báo trước đó trong một Nodeset.

Điều này cho phép người dùng chỉ định một số lượng tùy ý các mạng liên quan đến nhau (ví dụ: mạng tình bạn và lời khuyên) hoặc các loại diễn viên khác nhau (ví dụ: mạng phân phối và tài nguyên).

<edge source = ” node1 ” target = ” node2 ” type = ” double ” value = ” 1 ”>

Các cạnh được thể hiện bằng cách xác định nguồn và đích của cạnh. Mỗi cạnh cũng có một giá trị và một loại giá trị (double, string hoặc boolean).

Mỗi đồ thị và cạnh cũng có thể được theo sau bởi một tập hợp các thuộc tính bẩm sinh và các biện pháp tính toán.

Để biết thêm thông tin, vui lòng tham khảo Định nghĩa Loại tài liệu (DTD) và tập dữ liệu mẫu trong phụ lục của bài báo này.

Hỗ trợ DyNetML DyNetML hiện được hỗ trợ thông qua một thư viện C và Java là một phần của bộ phần mềm CASOS. Vì các trình phân tích cú pháp XML tồn tại cho thực tế tất cả các nền tảng và ngôn ngữ, việc tích hợp DyNetML vào các công cụ hiện có có thể được hoàn thành trong một ngày hoặc ít hơn. Các trình biến đổi từ DyNetML thành UCINET (DL), các giá trị được phân cách bằng dấu phẩy và các ma trận thô; và từ các ma trận thô đến DyNetML, có sẵn từ phần tải xuống ở đầu tài liệu này.

Công cụ phân tích: Tầm nhìn về tương lai

Trong khi cộng đồng nghiên cứu đã phát triển một số công cụ thu thập, phân tích và hình dung dữ liệu rất mạnh, các công cụ này hiếm khi hoạt động tốt với nhau. Trong khi các tùy chọn nhập / xuất tệp có thể sử dụng nhiều công cụ phân tích trong một dự án, thiếu tính năng tự động hóa và viết kịch bản không cho phép xử lý hàng loạt dữ liệu và tạo báo cáo, do đó yêu cầu lao động ngày càng tăng để phân tích các tập dữ liệu phức tạp.

Trong tầm nhìn của chúng tôi, tương lai của phân tích mạng xã hội nằm trong việc tạo ra một chuỗi công cụ liền mạch, cho phép các nhà nghiên cứu trộn và kết hợp các công cụ thu thập, phân tích và hình dung dữ liệu và tạo các kịch bản phân tích để xử lý hàng loạt các tập dữ liệu lớn hoặc lặp lại cùng một phân tích các tập dữ liệu khác nhau. Các kịch bản phân tích xuất bản sẽ cho phép cộng đồng nghiên cứu dễ dàng tái tạo và xác minh các kết quả thử nghiệm hoặc thực nghiệm hơn.

Mỗi công cụ trên toolchain sẽ:

  • Lấy định dạng trao đổi dữ liệu được chấp nhận (chẳng hạn như DyNetML) làm đầu vào và tạo nó thành đầu ra (ngoại trừ các công cụ chuyển đổi)
  • Công cụ phân tích sẽ tích hợp kết quả tính toán vào tập dữ liệu, sử dụng số nhận dạng đo được chấp nhận
  • Mỗi công cụ sửa đổi tập dữ liệu sẽ đánh dấu các sửa đổi của nó bằng tên công cụ hoặc ID.
  • Mỗi công cụ sẽ cung cấp giao diện dòng lệnh cho phép truy cập đầy đủ vào các tính năng của nó thông qua một ngôn ngữ kịch bản lệnh
  • Một ngôn ngữ kịch bản giống như C sẽ được phát triển để tích hợp các công cụ trong chuỗi công cụ. Ngoài ra, các ngôn ngữ kịch bản hiện có như Java, Perl hoặc Python có thể được sử dụng.

Các công cụ xây dựng phân tích trực quan sẽ được phát triển để cho phép tạo lập các kịch bản phân tích bởi những người không lập trình

Phần kết luận

Một chuỗi công cụ tích hợp như được phác thảo ở trên chỉ có thể được tạo thông qua sự hợp tác của các thành viên trong cộng đồng nghiên cứu thông qua quy trình phát triển nguồn mở, nhưng bước đầu tiên là tạo ra một ngôn ngữ trao đổi dữ liệu thống nhất. Trong bài báo này, chúng tôi đã đề xuất một ngôn ngữ như vậy: DyNetML, một ngôn ngữ có nguồn gốc từ XML cho đặc tả dữ liệu mạng xã hội phong phú.

Điều quan trọng cần lưu ý là vì DyNetML được dự định là một dịch vụ cho cộng đồng mô phỏng và phân tích mạng xã hội, các bình luận và yêu cầu sửa đổi được hoan nghênh bất cứ lúc nào. Khi dự án đã hỗ trợ cộng đồng đáng kể, chúng tôi sẽ thiết lập một quy trình sửa đổi sẽ đáp ứng các yêu cầu của cộng đồng trong khi duy trì khả năng tương thích ngược với phần mềm hiện có.

Về tài liệu này … DyNetML: Định dạng trao đổi cho dữ liệu mạng xã hội phong phú

Tài liệu này được tạo bằng phiên dịch LaTeX2HTML Phiên bản 2002 (1.62)

Bản quyền © 1993, 1994, 1995, 1996, Nikos Drakos, Đơn vị học tập dựa trên máy tính, Đại học Leeds.

Bản quyền © 1997, 1998, 1999, Ross Moore, Khoa Toán, Đại học Macquarie, Sydney.

Các đối số dòng lệnh là:

latex2html -split 0 paper.tex

Bản dịch được khởi xướng bởi Maksim Tsvetovat vào 2003-08-03

 

Original Source: http://www.casos.cs.cmu.edu/projects/dynetml/