EDDTableFromEML and EDDTableFromEMLBatch Opties in GenererenDatasets Xml

\[ Deze webpagina zal alleen interessant zijn voor ERDDAP™ beheerders die met EML-bestanden werken. Dit document is oorspronkelijk gemaakt in 2016. Het werd voor het laatst bewerkt op 2020-11-30. \]

** ERDDAP™ ** is een dataserver die gebruikers een eenvoudige, consistente manier geeft om subsets van gerasterde en tabeller wetenschappelijke datasets in gemeenschappelijke bestandsformaten te downloaden en grafieken en kaarten te maken. ERDDAP™ werkt met een gegeven dataset als een groep van multidimensionale gerasterde variabelen (bv. satelliet- of modelgegevens) of als database-achtige tabel (met een kolom voor elk type informatie en een rij voor elke waarneming) . ERDDAP™ is Vrije en Open Bron Software, zodat iedereen downloaden en installeren ERDDAP™ om hun gegevens te dienen.

Een dataset toevoegen aan een ERDDAP™ installatie, de ERDDAP™ beheerder moet een brok XML toevoegen die de dataset beschrijft aan een bestand genaamd datasets.xml . (Die is er. grondige documentatie voor datasets.xml .) Hoewel het mogelijk is om de brok XML te genereren voor datasets.xml geheel met de hand, ERDDAP™ wordt geleverd met een hulpmiddel genaamd GenererenDatasetsXml die de ruwe versie van de brok XML die nodig is voor een gegeven dataset kan genereren op basis van een bron van informatie over de dataset.

Het eerste ding GenererenDatasets Xml vraagt welk type dataset u wilt maken. GenererenDatasets Xml heeft een speciale optie, EDDTableFromEML , die de informatie in een Ecologische metadatataal (EML) XML-bestand om de brok XML te genereren voor datasets.xml om een EDDtabelVanAsciiFiles dataset van elke gegevenstabel in een EML-bestand. Dit werkt zeer goed voor de meeste EML-bestanden, vooral omdat EML-bestanden een uitstekende taak van het opslaan van alle benodigde metadata voor een dataset in een eenvoudig te werken-met-formaat. De informatie die GenererenDatasetsXml nodig heeft om de datasets te maken is in het EML-bestand, inclusief de URL voor het gegevensbestand, die GenererenDatasetsXml downloads, parses, en vergelijkt met de beschrijving in het EML-bestand. (Veel groepen zouden er goed aan doen om over te schakelen op EML, dat is een geweldig systeem voor het documenteren van een tabeller wetenschappelijke dataset, niet alleen ecologische gegevens. En veel groepen die XML schema's maken zouden er goed aan doen om EML te gebruiken als een case studie voor XML schema die duidelijk zijn, tot op het punt, niet overdreven diep (d.w.z. te veel niveaus) , en gemakkelijk voor mensen en computers om mee te werken.)

Vragen

Hier zijn alle vragen GenererenDatasets Xml zal vragen, met opmerkingen over hoe u moet antwoorden als u slechts een EML-bestand of een batch van EML-bestanden wilt verwerken:

Welke EDDType? Als u slechts één bestand wilt verwerken, antwoord: EDDTableFromEML Als u een groep bestanden wilt verwerken, antwoord dan: EDDTableFromEMLBatch
Map om bestanden op te slaan? Voer de naam in van de map die zal worden gebruikt om gedownloade EML- en/of gegevensbestanden op te slaan. Als de map niet bestaat, wordt deze aangemaakt.
(Voor EDDTableFromEML alleen) EML URL of lokaal bestandNaam? Voer de URL of lokale bestandsnaam van een EML-bestand in.
(Alleen voor EDDTableFromEMLBatch) EML dir (URL-adres of lokaal) ? Geef de naam van de map met de EML-bestanden (een URL of een lokale map) . Bijvoorbeeld:http://sbc.lternet.edu/data/eml/files/
(Alleen voor EDDTableFromEMLBatch) Bestandsnaam regex? Voer de reguliere expressie in die zal worden gebruikt om de gewenste EML-bestanden in de EML-directory te identificeren. Bijvoorbeeld: knb-lter-sbc\.\d+
Lokale bestanden gebruiken indien aanwezig (waar | onwaar) ? Voer waar in om de bestaande lokale EML-bestanden en gegevensbestanden te gebruiken, als ze bestaan. Voer onwaar in om de EML-bestanden en/of gegevensbestanden altijd opnieuw te downloaden.
toegankelijk Aan? Als u wilt dat de nieuwe datasets privé datasets zijn in ERDDAP , geef de naam van de groep (s) die toegang zal worden toegestaan. Aanbevolen voor LTER-groepen: combineer "lter" plus de groep, bijvoorbeeld, lter Sbc . Als je "null" invoert, zal er geen<toegankelijk To> tag in de uitvoer. Zie toegankelijk Aan .
lokaal Tijdzone (bv. VS/Pacific) ? Als een tijdvariabele aangeeft dat het lokale tijdwaarden heeft, wordt deze tijdzone toegewezen. Dit moet een waarde zijn van TZ kolomlijst van tijdzonenamen . Let op alle makkelijk te gebruiken "US/..." namen aan het einde van de lijst. Als u later vindt dat dat onjuist is, kunt u de time\_zone in het brok van datasets.xml .

EML plus ERDDAP™ is een geweldige combinatie, omdat ERDDAP™ kan gebruikers meer directe toegang tot de rijkdom van Kennisnetwerk voor biocomplexiteit (KNB) en Ecologisch onderzoek op lange termijn (LTER) gegevens en helpen die projecten voldoen aan de Amerikaanse overheid Toegang van het publiek tot onderzoeksresultaten (PARR) vereisten door de gegevens beschikbaar te stellen via een webservice. Ook EML plus ERDDAP™ lijkt me een geweldige brug tussen wetenschappers in het academische / NSF-gefinancierde rijk en wetenschappers in het federale agentschap ( NOAA , NASA, USGS) Rijk.

Zie onze sectie over het krijgen van extra ondersteuning .

Ontwerpdetails

Hier zijn de design details van de EDDTableFromEML optie in GenerateDatasetsXml. Sommige zijn gerelateerd aan verschillen in hoe EML en ERDDAP™ dingen doen en hoe GenererenDatasets Xml behandelt deze problemen.

Eén datatabel wordt één ERDDAP™ Dataset

Eén EML-bestand kan meerdere bestanden hebben<gegevens Tabel >s. ERDDAP™ maakt er een ERDDAP™ dataset per EML-gegevenstabel. De datasetID voor de dataset: EMLName \_t tabelAantal (wanneer EMLname tekst is) of systeem\_EMLNaam \_t tabelAantal (wanneer EMLname een getal is) . Bijvoorbeeld, tabel #1 in het bestand knb-lter-sbc.28 wordt ERDDAP™ datasetID =knb\_lter\_sbc\_28\_t1,

EML versus CF+ACDD

Bijna alle metadata in de EML-bestanden krijgt in ERDDAP , maar in een ander formaat. ERDDAP™ gebruikt de CF en ACDD Metadatanormen. Het zijn complementaire metadatasystemen die sleutel=waardeparen gebruiken voor globale metadata en voor de metagegevens van elke variabele. Ja, de EML weergave van de metadata is mooier dan de CF+ACDD weergave. Ik stel niet voor de CF+ACDD vertegenwoordiging te gebruiken als vervanging voor de EML. Zie CF+ACDD als onderdeel van de brug van de EML wereld naar de OPeNDAP CF/ACDD wereld.

Kleine wijzigingen

ERDDAP™ maakt veel kleine veranderingen. Bijvoorbeeld, ERDDAP™ gebruikt de EML niet- DOI alternatief Identificatie plus een gegevenstabelnummer als de ERDDAP™ datasetID , maar lichtjes verandert afwisselend Identifier om het een geldige variabelenaam te maken in de meeste computertalen, bijvoorbeeld knb-lter-sbc.33 gegevens Tabel #1 wordt knb\_lter\_sbc\_33\_t1.

DocBook

EML gebruikt DocBook's markup systeem om structuur te bieden aan blokken tekst in EML-bestanden. CF en ACDD vereisen dat metagegevens gewone tekst zijn. Dus GenererenDatasets Xml zet de gemarkeerde tekst om in platte tekst die eruit ziet als de geformatteerde versie van de tekst. De inline tags zijn gesaneerd met vierkante haakjes, bijvoorbeeld, \[ benadrukt \] , en links in de platte tekst.

Gegevensbestanden

Aangezien de EML dataTable bevat de URL van het werkelijke gegevensbestand, GenerateDatasets Xml zal:

Download het gegevensbestand.
Bewaar het in dezelfde map als het EML-bestand.
Lees de data.
Vergelijk de beschrijving van de gegevens in de EML met de werkelijke gegevens in het bestand.
Als GenererenDatasets Xml vindt verschillen, behandelt ze, of vraagt de operator of de verschillen in orde zijn, of geeft een foutmelding terug. De details staan in verschillende items hieronder.

.zip 'd databestanden

Als het referentiegegevensbestand een .zip bestand, het moet slechts één bestand bevatten. Dat bestand zal worden gebruikt voor de ERDDAP™ dataset. Als er meer dan 1 bestand is. ERDDAP™ zal die dataset afwijzen. Indien nodig kan dit worden gewijzigd. (In de praktijk hebben alle SBC LTER zip bestanden slechts één gegevensbestand.)

Opslagtype

Als een kolom opgeslagen is Type is niet opgegeven. ERDDAP™ gebruikt zijn beste gok gebaseerd op de gegevens in het gegevensbestand. Dit werkt best goed.

Eenheden

ERDDAP™ toepassingen UDUNITS opmaak voor eenheden . GenererenDatasets Xml kan EML-eenheden converteren naar UDUNITS Ongeveer 95% van de tijd. De resterende 5% resulteert in een leesbare beschrijving van de eenheden, bijvoorbeeld "biomassaDensityUnitPerAbundanceUnit" in EML wordt "biomassa dichtheid eenheid per abundantie eenheid" in ERDDAP . Technisch gezien is dit niet toegestaan. Ik denk niet dat het zo erg is onder de omstandigheden. \[ Indien nodig, eenheden die niet gemaakt kunnen worden UDUNITS compatibel kan worden verplaatst naar het commentaarattribuut van de variabele. \]

EML versie 2.1.1

Deze ondersteuning voor EML v2.1.1 bestanden is toegevoegd aan GenerateDatasets Xml in 2016 met de hoop dat er enige acceptatie zou zijn in de EML-gemeenschap. Vanaf 2020 is dat niet gebeurd. De ERDDAP™ ontwikkelaars zouden graag ondersteuning voor recentere versies van EML toevoegen, maar alleen als de nieuwe functies daadwerkelijk zullen worden gebruikt. E-mail erd.data at noaa.gov als u ondersteuning wilt voor recentere versies van EML en deze functie daadwerkelijk zal gebruiken.

Problemen met de EML-bestanden

Er zijn een aantal problemen / problemen met de EML-bestanden die problemen veroorzaken wanneer een software client (zoals de EDDTableFromEML optie in GenerateDatasetsXML) probeert de EML-bestanden te interpreteren/verwerken.

Hoewel er hier verschillende kwesties worden genoemd, zijn ze meestal kleine, oplosbare problemen. In het algemeen is EML een geweldig systeem en het was mij een genoegen ermee te werken.
Deze zijn ruwweg gesorteerd van het ergste / meest voorkomende tot het minst slecht / minder vaak.
De meeste zijn gerelateerd aan kleine problemen in specifieke EML-bestanden (die niet EML's schuld zijn) .
De meeste kunnen worden opgelost door eenvoudige wijzigingen in het EML-bestand of het gegevensbestand.
Gezien het feit dat LTER mensen een EML-checker bouwen om de geldigheid van EML-bestanden te testen, heb ik hieronder enkele suggesties toegevoegd met betrekking tot functies die aan de checker kunnen worden toegevoegd.

Hier zijn de kwesties:

Aparte datum en tijd Kolommen

Sommige gegevensbestanden hebben aparte kolommen voor datum en tijd, maar geen uniforme datum + tijd kolom. Momenteel, GenererenDatasets Xml maakt een dataset met deze aparte kolommen, maar het is niet ideaal omdat:

Het is het beste als datasets in ERDDAP™ hebben een gecombineerde datum+tijd kolom aangeroepen "time" .
Vaak zal de dataset niet laden in ERDDAP™ omdat de "time" kolom heeft geen datum + tijd gegevens.

Er zijn twee mogelijke oplossingen:

Bewerk het brongegevensbestand om een nieuwe kolom toe te voegen in het gegevensbestand (en beschrijf het in de EML) indien de datum- en tijdkolom in één kolom zijn samengevoegd. Herstart vervolgens GenererenDatasets Xml dus het vindt de nieuwe kolom.
Gebruik de Afgeleide variabelen functie in ERDDAP™ om een nieuwe variabele te definiëren in datasets.xml die wordt gecreëerd door het samenvoegen van de datum en de tijd kolommen. Een van de voorbeelden gaat specifiek over deze situatie.

Inconsistente kolomnamen

De EML-bestanden tonen de kolommen van het gegevensbestand en hun namen. Helaas zijn ze vaak anders dan de kolomnamen in het eigenlijke gegevensbestand. Normaal gesproken is de kolomvolgorde in het EML-bestand dezelfde als de kolomvolgorde in het gegevensbestand, zelfs als de namen enigszins variëren, maar niet altijd. GenererenDatasets Xml probeert de kolomnamen aan te passen. Als het niet kan (wat vaak voorkomt) , het zal stoppen, tonen u de EML / data bestandsnaam paren, en vragen of ze correct zijn uitgelijnd. Als u 's' invoert om een tabel over te slaan, zal GeneratedDatasetsXml een foutmelding afdrukken en naar de volgende tabel gaan. De oplossing is om de foutieve kolomnamen in het EML-bestand aan te passen aan de kolomnamen in het gegevensbestand.

Andere kolomvolgorde

Er zijn verschillende gevallen waarin de EML de kolommen in een andere volgorde dan ze in het gegevensbestand hebben opgegeven. GenererenDatasets Xml zal stoppen en de operator vragen of de matchups in orde zijn of of de dataset moet worden overgeslagen. Als het wordt overgeslagen, zal er een foutmelding in het resultaat bestand, bijvoorbeeld,:

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
      A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
      datasetID=knb\\_lter\\_sbc\\_17\\_t1
      dataFile=all\\_fish\\_all\\_years\\_20140903.csv
      The data file and EML file have different column names.
      ERDDAP™ would like to equate these pairs of names:
        SURVEY\\_TIMING        = notes
        NOTES                = survey\\_timing
      --&gt;

De oplossing is om de kolomvolgorde in deze EML-bestanden te repareren zodat ze overeenkomen met de volgorde in de gegevensbestanden.

Het zou fijn zijn als de EML-controler controleerde dat de kolommen en kolomvolgorde in het bronbestand overeenkomen met de kolommen en kolomvolgorde in het EML-bestand.

Onjuiste numHeaderLines

Verschillende gegevens Tabellen geven ten onrechte numHeaderLines=1, bv. ...sbc.4011. Dit veroorzaakt ERDDAP™ om de eerste regel gegevens te lezen als de kolomnamen. Ik probeerde al deze datatabellen handmatig te SKIPen. Ze zijn duidelijk omdat de ongeëvenaarde bron col namen zijn alle data waarden. En als er bestanden zijn die foutief numHeaderLines=0 hebben, maakt mijn systeem het niet duidelijk. Hier is een voorbeeld van het SBC LTER falende bestand:

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
      A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
       datasetID=knb\\_lter\\_sbc\\_3017\\_t1
      dataFile=MC06\\_allyears\\_2012-03-03.txt
      The data file and EML file have different column names.
      ERDDAP™ would like to equate these pairs of names:
        2008-10-01T00:00     = timestamp\\_local
        2008-10-01T07:00     = timestamp\\_UTC
        2.27                 = discharge\\_lps
        -999.0               = water\\_temperature\\_celsius
      --&gt;

Dus de fout kan verschijnen alsof GenererenDatasets Xml denkt dat de eerste regel met gegevens in het bestand (b.v. met 2008-10-01T00:00 enz.) is de regel met kolomnamen (alsof 2008-10-01T00:00 een kolomnaam waren) .

Het zou leuk zijn als de EML-checker de numHeaderLines waarde zou controleren.

numHeaderLines = 0

Sommige bronbestanden hebben geen kolomnamen. ERDDAP™ accepteert dat als de EML hetzelfde aantal kolommen beschrijft.

Naar mijn mening lijkt dit zeer gevaarlijk. Er kunnen kolommen in een andere volgorde of met verschillende eenheden (zie hieronder) en er is geen manier om die problemen op te vangen. Het is veel beter als alle ASCII-gegevensbestanden een rij hebben met kolomnamen.

DatumTijdopmaaktekens

EML heeft een standaard manier om datumtijdformaten te beschrijven. maar er is aanzienlijke variatie in het gebruik in EML-bestanden. (Ik had het eerder mis. Ik zie de EML documentatie voor formatString die lijkt te overeenkomen met de Java DatumTijdFormatter specificatie , maar dat ontbreekt aan de belangrijke richtlijnen over het gebruik ervan, met als gevolg dat formatString vaak/meestal onjuist wordt gebruikt.) Er zijn verschillende gevallen met onjuist geval, en/of onjuiste duplicatie van een brief, en/of niet-standaard opmaak. Dat legt een onredelijke last op klanten, vooral software clients zoals GenerateDatasetsXml. GenererenDatasets Xml probeert de verkeerd gedefinieerde formaten in de EML-bestanden te converteren naar het datum-/tijdformaat dat ERDDAP™ vereist , die bijna identiek is aan voor Java /Joda tijdformaat specificatie, maar is iets meer vergevingsgezind.

Het zou fijn zijn als de EML-checker strikte naleving van de Java Joda ERDDAP tijdeenheden specificatie en geverifieerd dat datum tijd waarden in de gegevenstabel correct kunnen worden verwerkt met het opgegeven formaat.

Datumtijd Maar geen tijdzone

GenererenDatasets Xml zoekt een kolom met datum Tijd en een bepaalde tijdzone (hetzij Zulu : vanaf tijdeenheden die eindigen in "Z" of een kolomnaam of attribuutdefinitie die "gmt" of "utc" omvat, of lokaal: vanaf "local" in de kolomnaam of attribuutdefinitie) . Ook aanvaardbaar is een bestand met een datum kolom maar geen tijd kolom. Ook aanvaardbaar is een bestand zonder datum- of tijdinformatie.

GenererenDatasets Xml behandelt alle "lokale" tijden als zijnde van de tijdzone die u kunt specificeren voor een bepaalde batch bestanden, bijvoorbeeld voor SBC LTER, gebruik US/Pacific. De informatie is soms in de commentaren, maar niet in een vorm die is gemakkelijk voor een computer programma uit te zoeken.

Bestanden die niet aan deze criteria voldoen worden afgewezen met het bericht "GEEN GOEDE DATUM (TIJD) VARIABELE." Vaak voorkomende problemen zijn:

Er is een kolom met data en een kolom met tijden, maar niet datum Tijdkolom.
Er zijn tijdeenheden, maar de tijdzone is niet gespecificeerd.

Overige opmerkingen: Als er een goede datum+tijd is met de tijdzonekolom, zal die kolom worden genoemd "time" in ERDDAP . ERDDAP™ vereist dat tijd kolom gegevens begrijpelijk zijn / te converteren naar Zulu /UTC/GMT tijdzone datumTijden. \[ Mijn overtuiging is: het gebruik van lokale tijden en verschillende datum/tijdformaten (2-cijferige jaren! mm/dd/jj versus dd/mm/jj versus ...) in databestanden dwingt de eindgebruiker om ingewikkelde conversies te doen naar Zulu tijd om gegevens van de ene dataset te vergelijken met gegevens van de andere. Dus. ERDDAP™ Standaardiseert alle tijdgegevens: Voor string tijden, ERDDAP™ gebruikt altijd ISO 8601:2004 (E) standaardformaat, bijvoorbeeld, 1985-01-02T00:00:00Z. Voor numerieke tijden, ERDDAP™ gebruikt altijd "seconds since 1970-01-01T00:00:00Z" . ERDDAP™ gebruikt altijd de Zulu (UTC, GMT) tijdzone om de moeilijkheden van het werken met verschillende tijdzones en standaardtijd versus dagtijd te verwijderen. Dus GenererenDatasets Xml zoekt een EML datatabel kolom met datum+tijd Zulu . Dit is moeilijk omdat EML geen formele woordenschat/systeem gebruikt (zoals Java /Joda tijdformaat ) voor het specificeren van de gegevens Tijdformaat: Als er een col is met numerieke tijdwaarden (bv. Matlab tijden) en Zulu tijdzone (of gewoon datums, zonder tijd kolommen) , het wordt gebruikt als "time" . Als er een col met datum en tijd gegevens, gebruik makend van de Zulu tijdzone, wordt gebruikt als "time" en elke andere datum of tijd kolom wordt verwijderd. Anders als een col met slechts datum informatie wordt gevonden, wordt het gebruikt als de "time" variabele (zonder tijdzone) . Als er een gegevenskolom en een tijdkolom en geen gecombineerde datum is Tijdskolom, de dataset wordt afgevuurd maar de dataset kan bruikbaar worden gemaakt door een gecombineerde datum toe te voegen Tijdskolom (bij voorkeur, Zulu tijdzone) aan het gegevensbestand toe te voegen en de beschrijving ervan toe te voegen in het EML-bestand. VOORBEELD van SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ gegevenstabel #2.

Het zou leuk zijn als EML/LTER een kolom met Zulu (UTC, GMT) tijdzonetijden in alle relevante brongegevensbestanden. Volgende best is om een systeem toe te voegen aan EML om een time\_zone attribuut met standaardnamen (van de TZ-kolom ) .

Ontbrekend missing\_value

Sommige kolommen gebruiken een missing\_value maar vermeld het niet in de EML metadata, bijvoorbeeld, neerslag\_mm in knb-lter-sbc.5011 gebruikt -999. Als er geen ontbrekende waarde is opgegeven in de EML, GenerateDatasetsXml zoekt automatisch naar gemeenschappelijke ontbrekende waarden (b.v. 99, 99, 999, 9999, 999, enz.) en die metadata creëert. Maar andere missende missing\_value Ze worden niet gepakt.

Het zou fijn zijn als de EML-checker op zoek was naar vermisten. missing\_value s.

Kleine problemen

Er zijn veel kleine problemen. (spelling, interpunctie) die waarschijnlijk alleen gevonden zal worden door een mens die elke dataset inspecteert.

Het zou leuk zijn als de EML-checker op zoek was naar spelling en grammaticale fouten. Dit is een moeilijk probleem omdat woorden in de wetenschap vaak gemarkeerd worden door spellingscontrole. Menselijke bewerking is waarschijnlijk nodig.

Ongeldige Unicode-tekens

Sommige EML-inhoud bevat ongeldige Unicode-tekens. Dit zijn waarschijnlijk tekens van de Windows-tekenset die verkeerd werden gekopieerd en geplakt in de UTF-8 EML-bestanden. GenererenDatasets Xml reinigt deze tekens tot bv. \[ #128 \] , dus ze zijn gemakkelijk te zoeken in de ERDDAP™ datasets.xml bestand.

Het zou leuk zijn als de EML-checker dit zou controleren. Het is gemakkelijk te vinden en gemakkelijk te repareren.

Verschillende kolomeenheden] (#diverseColumnUnits)

Sommige EML dataTables definiëren kolommen die niet in overeenstemming zijn met de kolommen in het gegevensbestand, met name omdat ze verschillende eenheden hebben. GenererenDatasets Xml markeert deze. Het is aan de exploitant om te beslissen of de verschillen in orde zijn of niet. Deze verschijnen in het bestand fouten als "SKIPPED" dataTables. VOORBEELD in SBC LTER-foutenbestand:

      < SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
      A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
       datasetID=knb\\_lter\\_sbc\\_3\\_t1
      dataFile=SBCFC\\_Precip\\_Daily\\_active\\_logger.csv
      The data file and EML file have different column names.
      ERDDAP™ would like to equate these pairs of names:
        Daily\\_Precipitation\\_Total\\_mm = Daily\\_Precipitation\\_Total\\_inch
        Flag\\_Daily\\_Precipitation\\_Total\\_mm = Flag\\_Daily\\_Precipitation\\_Total\\_inch
      -->

Het zou fijn zijn als de EML-checker controleerde of de eenheden overeenkomen. Helaas is dit waarschijnlijk onmogelijk te vangen en vervolgens onmogelijk op te lossen zonder contact op te nemen met de dataset maker, aangezien het bronbestand geen eenheden bevat. De discrepantie voor het voorbeeld hierboven was alleen merkbaar omdat de eenheden waren opgenomen in de bron kolom naam en de EML kolom naam. Hoeveel andere gegevensTables hebben dit probleem maar zijn niet detecteerbaar?

Verschillende versies van EML

GenererenDatasets Xml is ontworpen om te werken met EML 2.1.1. Andere versies van EML zullen werken voor zover ze overeenkomen met 2.1.1 of dat GenerateDatasetsXml speciale code heeft om ermee om te gaan. Dit is een zeldzaam probleem. Wanneer het zich voordoet, is de oplossing om uw bestanden te converteren naar EML 2.1.1, of stuur het EML-bestand naar erd.data at noaa.gov , zodat ik wijzigingen kan maken aan GenererenDatasets Xml om de verschillen aan te pakken.

Bob toegevoegd ondersteuning voor EML-bestanden te GenererenDatasets Xml in 2016 met de hoop dat er enige acceptatie zou zijn in de EML-gemeenschap. Vanaf 2020 is dat niet gebeurd. Bob is blij om ondersteuning voor meer recente versies van EML toe te voegen, maar alleen als de nieuwe functies daadwerkelijk zullen worden gebruikt. E-mail erd.data at noaa.gov als u ondersteuning wilt voor recentere versies van EML en deze functie daadwerkelijk zal gebruiken.

Problemen met het ontleden van het gegevensbestand

Zelden kan een datatabel worden afgewezen met de fout "onverwacht aantal items op regel #120 (waargenomen=52, verwacht=50) " Een foutmelding als dit betekent dat een regel in het gegevensbestand een ander aantal waarden had dan de andere regels. Het kan een probleem in ERDDAP™ (bv., het bestand niet correct ontleden) of in het dossier. VOORBEELD van SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ gegevenstabel #3, zie datafile=LTER\_maandelijk\_bottledata\_registred\_stations\_20140429.txt

Vragen​

Ontwerpdetails​

Eén datatabel wordt één ERDDAP™ Dataset​

EML versus CF+ACDD​

Kleine wijzigingen​

DocBook​

Gegevensbestanden​

.zip 'd databestanden​

Opslagtype​

Eenheden​

EML versie 2.1.1​

Problemen met de EML-bestanden​

Aparte datum en tijd Kolommen​

Inconsistente kolomnamen​

Andere kolomvolgorde​

Onjuiste numHeaderLines​

numHeaderLines = 0​

DatumTijdopmaaktekens​

Datumtijd Maar geen tijdzone​

Ontbrekend missing\_value​

Kleine problemen​

Ongeldige Unicode-tekens​

Verschillende kolomeenheden] (#diverseColumnUnits)​

Verschillende versies van EML​

Problemen met het ontleden van het gegevensbestand​