Avançar para o conteúdo principal

Love Data Week 2024

A Love Data Week, criada em 2016 nos Estados Unidos, rapidamente evoluiu para um evento internacional no qual uma ampla gama de instituições, investigadores, estudantes e outros Data Lovers dedicam a semana do Dia de São Valentim para celebrar os dados de investigação e enfatizar a importância da boa gestão e partilha.

Em 2021, o Inter-university Consortium for Political and Social Research (ICPSR) tornou-se a instituição anfitriã oficial da Love Data Week.

Em 2024, a Biblioteca da NOVA FCT une-se, novamente, à comunidade de Data Lovers para celebrar a Love Data Week, com posts diários, no Blog e nas Redes Sociais, sobre Dados de Investigação.

Siga @bibliotecafctnova, acompanhe a #CiênciaAbertaFCTNOVA e agora divirta-se com este Jogo da Forca:


Dia 5 | Sexta-feira | 16 de Fevereiro | Recursos (in)formativos para apoio à Gestão de Dados de Investigação

O Fórum GDI reúne investigadores e profissionais envolvidos em atividades de suporte à Gestão de Dados de Investigação com o intuito de desenvolver competências técnicas, capitalizar saberes e práticas e promover a coordenação de iniciativas nacionais.

Está estruturado em três grupos de trabalho: Formação e Competências para Gestão e Dados FAIR, Repositórios de Dados e Políticas, Estratégias e Recomendações para GDI. Estes grupos realizam diversas atividades, como reuniões mensais e a organização de um encontro anual.

Além disso, os grupos também têm trabalhado na criação e veiculação de materiais (in)formativos que ajudam bastante na gestão dos dados de investigação. Pode encontrá-los aqui.

Encerre esta semana de muito amor a desafiar-se neste Caça-Palavras:

Quer jogar mais? Aproveite para se divertir no final de semana com o Research Data Management Adventure Game, que coloca o jogador frente aos desafios de gestão dos dados de um projeto de investigação.

Dia 4 | Quinta-feira | 15 de Fevereiro| Princípios FAIR para Dados de Investigação

Em discussão desde, pelo menos, 2014 e oficialmente publicados em 2016, os princípios FAIR definem determinadas características que conjuntos de dados, ferramentas, vocabulários e infraestruturas digitais devem apresentar para auxiliar a descoberta e a reutilização.

Os princípios FAIR são fundamentais para a boa Gestão dos Dados de Investigação pois o seu cumprimento maximiza a localização (Findability), a acessibilidade (Accessibility), a interoperabilidade (Interoperability) e a reutilização (Reusability) dos dados e destinam-se a todos os tipos de Dados de Investigação.

Os princípios FAIR estão relacionados entre si, porém são independentes e separáveis. Ou seja, podem ser cumpridos em qualquer combinação, de forma complementar e até mesmo quando os dados não venham a ser partilhados publicamente, como é o caso dos dados sensíveis. Além disso, a distinção entre dados e metadados faz com que os Princípios FAIR adequem-se a uma vasta gama de circunstâncias.

One such example is highly sensitive or personally-identifiable data, where publication of rich metadata to facilitate discovery, including clear rules regarding the process for accessing the data, provides a high degree of ‘FAIRness’ even in the absence of FAIR publication of the data itself. A second example involves the publication of non-data research objects. Analytical workflows, for example, are a critical component of the scholarly ecosystem, and their formal publication is necessary to achieve both transparency and scientific reproducibility. The FAIR principles can equally be applied to these non-data assets, which need to be identified, described, discovered, and reused in much the same manner as data.

No quadro abaixo estão resumidos os principais aspetos dos Princípios FAIR:

Findability

F1. (meta)data are assigned a globally unique and eternally persistent identifier.

F2. data are described with rich metadata.

F3. (meta)data are registered or indexed in a searchable resource.

F4. metadata specify the data identifier.

Accessibility

A1  (meta)data are retrievable by their identifier using a standardized communications protocol.

A1.1 the protocol is open, free, and universally implementable.

A1.2 the protocol allows for an authentication and authorization procedure, where necessary.

A2 metadata are accessible, even when the data are no longer available.

Interoperability

I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.

I2. (meta)data use vocabularies that follow FAIR principles.

I3. (meta)data include qualified references to other (meta)data.

Reusability

R1. (meta)data have a plurality of accurate and relevant attributes.

R1.1. (meta)data are released with a clear and accessible data usage license.

R1.2. (meta)data are associated with their provenance.

R1.3. (meta)data meet domain-relevant community standards.

Teste na checklist abaixo se os seus dados estão FAIR:

• FINDABILITY

Os dados devem ser facilmente encontráveis. Metadados suficiente detalhados devem estar online em plataformas encontráveis e os dados/conjuntos de dados devem ter um identificador persistente.

Os dados/conjuntos de dados já possuem um Identificador Persistente (DOI, Handle, URl...).
Existem metadados suficientemente detalhados que descrevem os dados.
Os metadados que descrevem os dados estão online em uma plataforma encontrável (por exemplo um repositório de dados de investigação).
O registo dos metadados contém o Identificador Persistente atribuídos aos dados/conjuntos de dados.

• ACCESSIBILITY

Dados FAIR não são, obrigatoriamente, abertos!
Porém devem sempre haver metadados, mesmo quando os dados não estejam acessíveis.

O Identificador Persistente atribuído leva diretamente aos dados/conjuntos de dados ou aos metadados.
O protocolo pelo qual os dados podem ser recuperados segue padrões reconhecidos (Por exemplo: http).
Quando/se necessário, o procedimento de acesso inclui etapas de autenticação e autorização.
Os metadados estão acessíveis mesmo quando os dados/conjuntos de dados não estão.

• INTEROPERABILITY

Os dados devem ser acessíveis por humanos e máquinas, de acordo com as devidas especificações e/ou restrições. Dados e metadados devem estar em conformidade com formatos e normas reconhecidos para maximizar seu potencial de reuso.

Os dados/conjuntos de dados estão disponibilizados em formatos comumente utilizados e, preferencialmente, abertos.
Os metadados seguem esquemas ou padrões formalizados.
São utilizados, sempre que possível, vocabulários controlados, palavras-chave, tesauros e ontologias.
Referências e links são fornecidos para outros dados/conjuntos de dados relacionados.

• REUSABILITY

Muita documentação é necessária para apoiar a reutilização dos dados/conjuntos, que devem estar em conformidade com as normas da comunidade e ser claramente licenciados para que outros saibam que tipos de reutilização são permitidos.

Os dados/conjuntos de dados são acurados e bem descritos com atributos suficientemente relevantes.
As licenças atribuídas aos dados/conjuntos de dados estão clara e disponíveis.
Está explícito como, porque e por quem os dados/conjuntos de dados foram criados e processados.
Os dados/conjuntos de dados e os metadados cumprem padrões e normas relevantes da área científica.

Dia 3 | Quarta-feira | 14 de Fevereiro | Como encontrar dados de investigação?

A melhor maneira de encontrar Dados de Investigação para reutilização é procurar em Repositórios confiáveis.

Repositórios confiáveis solicitam aos depositantes informação detalhada sobre os Dados de Investigação depositados, de modo a garantir uma boa descrição, que contribua para o cumprimento dos princípios FAIR e que, quando da reutilização, permita que os créditos sejam devidamente atribuídos ao autores de acordo com as especificações das licenças Creative Commons.

Atualmente, devido ao grande volume e à diversidade dos Dados de Investigação que têm vindo a ser criados e disponibilizados, os repositórios de dados estão a tornar-se uma parte integrante do processo de comunicação e de colaboração entre investigadores.

Os repositórios de dados de investigação podem ser institucionais, como é o caso do DUnAs e do DataRepositoriUM, repositórios de dados das Universidade de Aveiro e do Minho, e armazenam os dados resultantes da investigação desenvolvida na instituição.

Ou podem ser como o caso do Zenodo, que é um repositório multidisciplinar de dados em Acesso Aberto, criado em 2013 pelo OpenAIRE e pelo CERN. Também podem ser temáticos, como o PORTULAN CLARIN, o repositório de dados de investigação da Infraestrutura para a Ciência e Tecnologia da Linguagem.

Em 2022 a Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia (FCCN/FCT) iniciou o Projeto POLEN que tem como objetivo desenvolver um Serviço de Repositório de Dados de Investigação a nível nacional, para receber os dados de investigações financiadas pela FCT. A Biblioteca da NOVA FCT, em parceria com o LIBPhys-UNL, participa desde 2023 na fase piloto de implementação do Repositório POLEN.

Agora, divirta-se com estas palavras cruzadas:

Dia 2 | Terça-feira | 13 de Fevereiro | Os formatos dos ficheiros de dados importam!

Uma das preocupações que se deve ter ao partilhar Dados de Investigação é a de que estes deverão estar acessíveis e utilizáveis noutros contextos e, principalmente, no futuro. Por isso, é importante antecipar futuras alterações tecnológicas que possam afetar o acesso aos dados e tomar medidas para evitar problemas.

Assim, para garantir a longevidade e a interoperabilidade dos dados, estes devem ser preservados de modo a reduzir o risco de os ficheiros ficarem ilegíveis no futuro. Isso significa ter atenção aos formatos com que se guardam os dados: para além de que, num mesmo dataset, os mesmos tipos de dados devam estar no mesmo formato, é importante escolher formatos que não permitam edição e sejam compatíveis com diferentes sistemas operacionais, preferencialmente, em formatos não proprietários.

No quadro abaixo pode encontrar alguns formatos de ficheiros mais recomendados para a preservação a longo prazo de acordo com os respetivos tipos de dados:

TIPOS
DE DADOS

FORMATOS
APROPRIADOS

FORMATOS
ACEITÁVEIS

FORMATOS
NÃO
RECOMENDADOS

Dados Tabulares
(com metadados
extensos)

.csv | .hdf5


.txt | .html | .tex | .por



Dados Tabulares
(com metadados
mínimos)

.csv | .tab| .ods| .SQL

.xml if appropriate DTD | .xlsx

.xls | .xlsb

Dados Textuais

.pdf | .txt | .odt | .odm |
.tex| .md| .htm| .xml

.pptx | .pdf with embedded forms | .rtf

.txt | .html | .doc | .ppt

Códigos


.m | .R| .py| .iypnp |
.rstudio |.rmd | .NetCDf

.txt | .html | .sdd

.txt | .html | .mat | .rdata

Imagens


.itf | .png | .svg | .jpeg

.jpg | .jp2 | .tif | .tiff | .pdf| .GIF| .BMP

.indd | .ait | .psd

Áudios

.flac | .wav | .ogg

.mp3 | .mp4 | .aif

Vídeos

.mp4 | .mj2 | .avi | .mkv

.ogm | .webm

.wmv | .mov

Dados
Geospaciais

.MetCDf |
.tabular GIS atribute data |
.shp | .shx | .dbf | .prj | .sbx | .sbn | .PostGIS | .tif | .tfw | .GeoJSON

.mdb | .mif

Dados Vetoriais
e Matriciais

.dwg | .dxf | .x3dv |
.x3db | .pdf | .PDF3D

Dados Genéricos

.xml | .json | .rdf>

Quer aprender mais sobre Gestão de Dados de Investigação enquanto se diverte?

Ligue as palavras às suas definições neste Jogo:



Dia 1 | Segunda-feira | 12 de Fevereiro | Dados de Investigação


O primeiro item das 8 ambições para a Política Europeia de Ciência Aberta é “Dados Abertos”. O documento aponta que Dados de Investigação adequados aos princípios FAIR e abertamente partilhados deveriam tornar-se o padrão para os resultados da investigação financiada com fundos europeus.
Dados de investigação são os produtos obtidos através de um processo sistemático de investigação que tenha compreendido etapas como recolha, observação, experimentação, testes ou procedimentos afins e sustentam os resultados.

A Internet e a maior utilização de ferramentas digitais contribuíram para o aumento da importância atribuída aos dados de investigação. Ao mesmo tempo, a Ciência Aberta elevou o foco na abertura, partilha e reutilização destes dados, especialmente os resultantes de projetos financiados com fundos públicos.

A disponibilização dos resultados científicos, sejam dados ou publicações, de forma livre contribui para a economia de recursos financeiros, para que a sociedade tenha maior confiança na ciência e para a melhorar a capacidade de enfrentar de situações situações de emergência global, como foi visto durante a pandemia de COVID-19 ou relativamente às mudanças climáticas.

No caso dos Dados de Investigação, podem haver razões para que a sua disponibilização siga o princípio «as open as possible, as closed as necessary», ou seja, alguns dados podem estar depositados num repositório, devidamente descritos e localizáveis, para que se possa saber que eles existem, porém com acesso restrito por razões de privacidade, anonimato, interesse comercial ou segurança.

Os Dados de Investigação acompanham todo o processo de investigação, desde o planeamento, quando se cria o Plano de Gestão de Dados, até a publicação de Artigos de Dados (Data Papers) e/ou à disponibilização final dos dados em Repositórios de Dados de Investigação.

Conhece o Ciclo de Vida dos Dados de Investigação?

Desafie-se neste jogo:




Comentários