“Novos diretórios e pacotes de arquivos para recuperação em massa dos conjuntos de dados de artigos do PMC”

O PubMed Central (PMC) implementou melhorias significativas na recuperação em massa de dois dos conjuntos de dados de artigos do PMC, acessíveis através do serviço FTP. Essas melhorias foram aplicadas aos pacotes em massa que incluem metadados e texto completo de artigos em formatos XML ou texto simples para o Subconjunto de Acesso Aberto (OA) do PMC e o Conjunto de Dados de Manuscritos de Autores. Para melhorar a usabilidade desses dois conjuntos de dados, o PMC redesenhou a estrutura de diretórios e os pacotes de download em massa em seu serviço FTP. A nova estrutura inclui pacotes base que contêm todos os artigos disponíveis no PMC na data de referência para cada conjunto de dados ou agrupamento respectivo, e pacotes incrementais diários para cada conjunto de dados ou agrupamento respectivo que contenham apenas artigos novos no conjunto de dados ou que foram atualizados desde o pacote base ou o arquivo incremental anterior.

Os pacotes em massa do Subconjunto de Acesso Aberto do PMC foram divididos em três grupos com base nos termos de licença disponíveis: Uso Comercial Permitido (licenças CC0, CC BY, CC BY-SA, CC BY-ND); Uso Não Comercial Apenas (licenças CC BY-NC, CC BY-NC-SA, CC BY-NC-ND); e Outros (sem licença Creative Commons legível por máquina, sem licença ou licença personalizada). Os pacotes base para cada um desses grupos de uso do Subconjunto de Acesso Aberto do PMC e para o Conjunto de Dados de Manuscritos de Autores foram divididos ainda mais por faixa de PMCID (por exemplo, um pacote com PMC004XXXXXX em seu nome significa que quaisquer artigos apropriados com PMCIDs entre PMC4000000 e PMC4999999 estão incluídos no pacote). Os diretórios e pacotes de download em massa anteriores foram movidos para um novo local temporário em dezembro de 2021 e excluídos em 1º de abril de 2022. Essa alteração NÃO afeta os diretórios e pacotes de artigos individuais do Subconjunto de Acesso Aberto do PMC no serviço FTP do PMC; esses permanecerão inalterados. Observe também que os conjuntos de dados discutidos nesta atualização agora também estão disponíveis para recuperação e computação na nuvem.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima