ข้ามไปยังเนื้อหาหลัก

EDTable fromEML และ EDTable fromEMLBatch ตัวเลือกต่าง ๆ ในการสร้าง Datatas Xml

\[หน้าเว็บนี้จะสนใจเฉพาะหน้าเว็บERDDAP™ผู้ดูแลระบบที่ทํางานกับแฟ้ม EML เดิมมีการสร้างเอกสารนี้ในปี 2016 มันถูกแก้ไขครั้งสุดท้ายเมื่อ 2020-11-30\]

ERDDAP™ เป็นเซิร์ฟเวอร์ข้อมูลที่ทําให้ผู้ใช้สามารถดาวน์โหลด สับเซตของข้อมูลวิทยาศาสตร์ที่ฝังอยู่ และแท็บลาร์ในรูปแบบแฟ้มทั่วไป และทํากราฟและแผนที่ได้ERDDAP™ทํางานกับชุดข้อมูลที่เป็นกลุ่มของตัวแปรหลายมิติ (เช่น ดาวเทียมหรือข้อมูลต้นแบบ) หรือเป็นตารางแบบฐานข้อมูล (มีคอลัมน์สําหรับข้อมูลแต่ละประเภท และแถวสําหรับแต่ละข้อสังเกต) .ERDDAP™เป็นซอฟต์แวร์เสรีและโอเพนซอร์ส ดังนั้นทุกคนสามารถดาวน์โหลดและติดตั้งERDDAP™เพื่อให้บริการข้อมูลของพวกเขา

เพื่อเพิ่มข้อมูลไปยังERDDAP™การติดตั้ง,ERDDAP™ผู้ดูแลระบบต้องเพิ่มส่วนย่อยของ XML เพื่ออธิบายข้อมูลเป็นแฟ้มที่ชื่อdatasets.xml. (มีเอกสารที่สมบูรณ์สําหรับdatasets.xml.) แม้ว่ามันเป็นไปได้ที่จะสร้างส่วนย่อยของ XML สําหรับdatasets.xmlด้วยมือทั้งหมดERDDAP™มาพร้อมเครื่องมือที่เรียกว่า สร้าง DatatasXml ซึ่งสามารถสร้างการ ร่างแบบหยาบๆ ของส่วนย่อยของ XML ที่จําเป็นต้องใช้สําหรับชุดข้อมูลที่ให้ โดยอิงจากแหล่งข้อมูลบางอย่างเกี่ยวกับชุดข้อมูล

สิ่งแรกที่สร้าง Datatatets Xml ถามคือว่า คุณสร้างชุดข้อมูลแบบไหน ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI มีตัวเลือกพิเศษ EDTable fromEML ซึ่งใช้ข้อมูลในภาษา ข้อมูลกํากับภาพ ทาง นิเวศ วิทยา (EML) แฟ้ม XML เพื่อสร้างส่วนย่อยของ XML สําหรับdatasets.xmlเพื่อสร้างแฟ้ม DDTA จาก Asciiชุดข้อมูลจากแต่ละตารางข้อมูลในแฟ้ม EML มันใช้ได้อย่างดีกับแฟ้ม EML ส่วนใหญ่เพราะไฟล์ EML ทําหน้าที่อย่างดีเยี่ยมในการเก็บข้อมูลกํากับภาพที่จําเป็นทั้งหมด ข้อมูลที่สร้าง DatatatasXml จําเป็นต้องสร้างชุดข้อมูลอยู่ในแฟ้ม EML รวมถึงที่อยู่ URL ของแฟ้มข้อมูล ซึ่งสร้างการดาวน์โหลด DatatatasXml, profiles และเปรียบเทียบกับรายละเอียดในแฟ้ม EML (หลายกลุ่มน่าจะเปลี่ยนเป็น EML ซึ่งเป็นระบบที่ดีในการบันทึกข้อมูลทางวิทยาศาสตร์ และหลายๆกลุ่มที่สร้าง XML Schemas ควรจะใช้ EML เป็นกรณีศึกษาสําหรับ XML Chema ที่ชัดเจน (มีหลายระดับ) และง่ายสําหรับมนุษย์และคอมพิวเตอร์ที่จะทํางานกับ)

คํา ถาม

นี่คือคําถามทั้งหมดที่สร้าง Datatets Xml จะถามด้วยหมายเหตุเกี่ยวกับวิธีการตอบคําถาม หากคุณต้องการประมวลผลเพียงแฟ้ม EML ครั้งเดียว หรือชุดของแฟ้ม EML:

  • ED ประเภทไหน? หากคุณต้องการประมวลผลเพียงแฟ้มเดียว คําตอบ: EDTable fromEML หากคุณต้องการประมวลผลกลุ่มของแฟ้ม ให้คําตอบ: EDTable fromEMLBatch

  • ไดเร็กทอรีที่จะจัดเก็บแฟ้มหรือไม่? ป้อนชื่อไดเรกทอรีที่จะใช้เก็บค่า EML และ/หรือแฟ้มข้อมูล ถ้าไดเรกทอรีไม่มีอยู่ ก็จะถูกสร้างขึ้น

  • (สําหรับ EDTable fromEML เท่านั้น) ที่อยู่ URL EML หรือแฟ้มภายในระบบName ป้อนที่อยู่ URL หรือชื่อแฟ้มภายในระบบของ EML

  • (สําหรับ EDTable fromEMLBatch เท่านั้น) ไดเร็คทอรี EML (ที่อยู่ URL หรือภายใน) ? ป้อนชื่อไดเรกทอรีที่มีแฟ้ม EML (ที่อยู่ URL หรือไดเรกทอรีภายในระบบ) . ตัว อย่าง เช่น: http://sbc.lternet.edu/data/eml/files/

  • (สําหรับ EDTable fromEMLBatch เท่านั้น) Regex ชื่อแฟ้ม? ป้อนเงื่อนไขการค้นหาที่จะใช้ระบุแฟ้ม EML ที่ต้องการในไดเร็กทอรี EML ตัวอย่างเช่น: nnb-lter-sbc\\d+

  • ใช้แฟ้มภายในระบบหากมีอยู่ (จริง|เท็จ) ? ป้อนจริงที่จะใช้แฟ้ม EML ภายในระบบที่มีอยู่ และแฟ้มข้อมูล หากมันมีอยู่จริง เติมเท็จเพื่อทําการโหลดแฟ้ม EML และ/หรือแฟ้มข้อมูลใหม่อีกครั้งเสมอ

  • เข้าใช้ได้ เพื่อ? หากคุณต้องการชุดข้อมูลใหม่ ให้เป็นชุดข้อมูลส่วนตัวERDDAPชื่อกลุ่ม (วินาที) นั่นอนุญาตให้เข้าถึงได้ แนะนําสําหรับกลุ่ม LTER: ผสม "lter" บวกกลุ่ม, e.g., Iter เอสบีซี ถ้าคุณป้อน "null" จะไม่มี<เข้าใช้ได้ ถึง httpgt; แท็กในการแสดงผล ดูเข้าใช้ได้ ถึง.

  • ภายใน เวลาzone (เช่น US/Pacific) ? หากตัวแปรเวลาแสดงว่า มีค่าของเวลาท้องถิ่น พื้นที่เวลานี้จะถูกกําหนดให้ใช้ นี่ต้องเป็นค่าจากรายชื่อคอลัมน์ของเขตเวลา TZ. หมายเหตุทั้งหมดของชื่อ "US/..." ที่อยู่ท้ายรายการที่ง่ายต่อการใช้ ถ้าคุณพบว่ามันไม่ถูกต้อง คุณสามารถเปลี่ยนtime\_zoneในก้อนของdatasets.xml.

EML บวกERDDAP™เป็นส่วนผสมที่ดีตั้งแต่ERDDAP™สามารถให้ผู้ใช้เข้าถึงความอุดมสมบูรณ์ของความ รู้ ใน เครือ ข่าย ชีวภาพ (KNB) ถึงการ วิจัย ทาง นิเวศ วิทยา ระยะ ยาว (LTER) ข้อมูลและช่วยเหลือโครงการเหล่านั้น ตรงกับรัฐบาลสหรัฐการ เข้า ถึง แหล่ง วิจัย ทั่ว ไป (ผิดพลาด) ต้องการโดยทําให้ข้อมูลใช้ได้ผ่านทางบริการเว็บ นอกจากนี้ EML บวกERDDAP™ดูเหมือนเป็นสะพานที่ดี ระหว่างนักวิทยาศาสตร์ในราชอาณาจักรของ NSF และนักวิทยาศาสตร์ในหน่วยงานกลาง (NOAAนาซ่า USGS) แดน

ดูของเราส่วนของการได้รับการสนับสนุนเพิ่มเติม.  

รายละเอียดการออกแบบ

นี่เป็นรายละเอียดของการออกแบบ ตัวเลือก EDTable fromEML ในการสร้าง DatatasXml บางคนเกี่ยวข้องกับความแตกต่างของ EML และERDDAP™ทําสิ่งต่างๆ และวิธีสร้าง Datatets XmI จัดการกับปัญหาเหล่านี้

หนึ่งข้อมูลกลายเป็นหนึ่งERDDAP™ชุดข้อมูล

แฟ้ม EML หนึ่งแฟ้มอาจมีหลายแฟ้ม<ข้อมูล Table>s.ERDDAP™ทําให้หนึ่งERDDAP™ชุดข้อมูลต่อข้อมูล EML เดอะdatasetIDสําหรับชุดข้อมูล อีเอ็มแอลName _สี ตัวเลขตาราง (เมื่อชื่อ EML เป็นข้อความ) หรือ ระบบ\ _อีเอ็มแอลName _สี ตัวเลขตาราง (เมื่อชื่อ EML เป็นหมายเลข) . ตัวอย่างเช่น ตาราง #1 ในแฟ้ม mineb-lter-sbc.28 กลายเป็นERDDAP™ datasetID= knb\_lter_sbc\_28_t1  

EML เทียบกับ CF+ACDD

ข้อมูลกํากับภาพเกือบทั้งหมดในแฟ้ม EMLERDDAPแต่ในรูปแบบอื่นERDDAP™ใช้CFถึงหมายเลข ACDมาตรฐานข้อมูล มันเป็นระบบข้อมูลกํากับที่เสริมสร้าง ซึ่งใช้คีย์ = คู่ค่าของข้อมูลกํากับภาพระดับโลก และต่อข้อมูลกํากับภาพของตัวแปรแต่ละตัวแปร ใช่ รูป EML ของข้อมูลกํากับ ดีกว่ารูป CF+ACD ผมไม่ได้แนะนําให้ใช้รูป CF+ACDD แทน EML กรุณาคิดว่า CF+ACAD เป็นส่วนหนึ่งของสะพาน จากโลก EMLOPeNDAPโลกของ CF/ACDD  

การเปลี่ยนแปลงขนาดเล็ก

ERDDAP™ทําการเปลี่ยนแปลงเล็กๆ มากมาย ยกตัวอย่างเช่นERDDAP™ใช้ EML ที่ไม่ -DOIเปลี่ยน ตัวระบุบวกข้อมูลERDDAP™ datasetIDแต่การเปลี่ยนแปลงเล็กน้อย ตัวระบุเพื่อทําให้เป็นชื่อตัวแปรที่ถูกต้องในภาษาคอมพิวเตอร์ส่วนใหญ่ เช่น, knb-lter-sbc.33 ข้อมูล ตาราง #1 กลายเป็น knb\_lter///sbc\_33/_t1  

ด็อกบุ๊ค

EML ใช้ระบบทําเครื่องหมายของ DocBook เพื่อให้โครงสร้างสําหรับบล็อกข้อความในแฟ้ม EML CF และ ACDD ต้องการข้อมูลกํากับเป็นข้อความธรรมดา ดังนั้นการสร้าง Datatatets Xml แปลงข้อความที่ถูกขีดไว้เป็นข้อความธรรมดาที่ดูคล้ายกับฉบับที่มีหน่วยเป็นระบบ ป้ายอินไลน์ถูกเคลือบด้วยวงเล็บสี่เหลี่ยม, e.g.\[เน้น\]และทิ้งไว้ในข้อความธรรมดา  

แฟ้มข้อมูล

เนื่องจากข้อมูลของ EML มีตําแหน่ง URL ของแฟ้มข้อมูลจริงอยู่ ให้สร้าง Datatas XMI จะ:

  1. ดาวน์โหลดแฟ้มข้อมูล
  2. เก็บในไดเรกทอรีเดียวกันกับแฟ้ม EML
  3. อ่านข้อมูล
  4. เปรียบเทียบรายละเอียดของ EML กับข้อมูลจริงในแฟ้ม
  5. หากสร้าง Datatas XMI หาความแตกต่าง, มันเกี่ยวข้องกับพวกมัน, หรือถามผู้ดําเนินการว่าผลต่างโอเคหรือไม่, หรือตอบกลับข้อความผิดพลาด ราย ละเอียด เหล่า นี้ มี หลาย อย่าง ข้าง ล่าง นี้.  

.zipแฟ้มข้อมูล 'd'

ถ้าแฟ้มอ้างอิงคือ.zipแฟ้ม, มันต้องมีเพียงแฟ้มเดียว แฟ้มนั้นจะถูกใช้สําหรับERDDAP™ชุดข้อมูล ถ้ามีมากกว่าหนึ่งแฟ้มERDDAP™จะปฏิเสธข้อมูลชุดนั้น ถ้า จําเป็น อาจ มี การ แก้ไข เรื่อง นี้. (ในการฝึก แฟ้มข้อมูล SBC ทั้งหมด มีไฟล์ข้อมูลเพียงแฟ้มเดียว)
 

สื่อเก็บข้อมูล

ถ้าคลังของคอลัมน์ ไม่ได้ระบุประเภทERDDAP™ใช้การเดาที่ดีที่สุด จากข้อมูลในแฟ้มข้อมูล อันนี้ใช้ได้ทีเดียว  

หน่วย

ERDDAP™ใช้UDUNITSฟอร์แมตสําหรับหน่วย. ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml สามารถแปลงหน่วย EML เป็นUDUNITSอย่างชัดเจนประมาณ 95% ของเวลา 5% ส่วนที่เหลือให้ผลในคําอธิบายการอ่านของหน่วย เช่น "biomasDensity Unit Perabundance University" ใน EML กลายเป็น "หน่วยความหนาแน่นไบมาสต่อหน่วยมวล" ในERDDAP. ในทางเทคนิคแล้วมันไม่ได้รับอนุญาต ฉันไม่คิดว่ามันแย่นัก ภายใต้สถานการณ์แบบนี้\[ถ้าจําเป็น หน่วยที่ไม่สามารถทําUDUNITSการเข้ากันได้สามารถถูกย้ายไปยังคุณลักษณะหมายเหตุของตัวแปร\]
 

EML รุ่น 2.1.

การรองรับ EML v2.1 นี้ ถูกเพิ่มเข้ากับแฟ้มถูกสร้าง Datatets XMI ในปี ค.ศ. 2020 นั่นยังไม่เกิดขึ้น เดอะERDDAP™ผู้พัฒนาคงจะยินดีที่จะเพิ่มการสนับสนุน EML รุ่นล่าสุดมากขึ้น แต่เฉพาะเมื่อคุณสมบัติใหม่นี้ถูกนําไปใช้จริงเท่านั้น กรุณาส่งเมลerd.data at noaa.govถ้าคุณต้องการการสนับสนุน EML รุ่นล่าสุด และจะใช้คุณสมบัตินี้จริงๆ  

ปัญหาเกี่ยวกับแฟ้ม EML

มีบางปัญหา/ ปัญหาเกี่ยวกับแฟ้ม EML ที่ก่อให้เกิดปัญหาเมื่อโปรแกรมลูกข่าย (เช่น ตัวเลือก EDTable fromEML ในการสร้าง DatatetesXML) พยายามแปล/ โพรเซสของแฟ้ม EML

  • แม้ ว่า มี หลาย ประเด็น ที่ กล่าว มา นี้ แต่ ส่วน ใหญ่ แล้ว ปัญหา เหล่า นี้ เป็น ปัญหา เล็ก ๆ และ แก้ ได้. โดยทั่วไป EML เป็นระบบที่ยอดเยี่ยม และได้รับความสุขของฉันที่จะทํางานกับมัน
  • มี การ คัด แยก อย่าง คร่าว ๆ จาก สิ่ง ที่ เลว ร้าย ที่ สุด หรือ ส่วน ใหญ่ แล้ว ไม่ ดี หรือ น้อย ที่ สุด.
  • ส่วนใหญ่เกี่ยวข้องกับปัญหาเล็ก ๆ ในแฟ้ม EML เฉพาะ (ซึ่งมันไม่ใช่ความผิดของ EML) .
  • ส่วนมากสามารถแก้ไขได้โดยการเปลี่ยนรูปแบบแฟ้ม EML หรือแฟ้มข้อมูล
  • จากที่คน LTER สร้างเครื่องตรวจ EML เพื่อทดสอบความถูกต้องของไฟล์ EML ผมเพิ่มคําแนะนําบางอย่างด้านล่างนี้ เกี่ยวกับคุณสมบัติที่อาจถูกเพิ่มเข้าไป

ต่อ ไป นี้ เป็น ประเด็น:

แบ่งวันที่และเวลาเป็นคอลัมน์

แฟ้มข้อมูลบางแฟ้มแยกคอลัมน์สําหรับวันที่และเวลาด้วย แต่ไม่มีคอลัมน์วันรวม+เวลา ปัจจุบัน XmI สร้างชุดข้อมูลที่มีคอลัมน์แยกเหล่านี้ แต่มันไม่ได้อุดมคติเพราะ:

  • มันจะดีที่สุดถ้าชุดข้อมูลในERDDAP™มีคอลัมน์วันที่รวม"time".
  • บ่อยครั้งที่ชุดข้อมูลจะไม่โหลดERDDAP™เพราะว่า"time"คอลัมน์ไม่มีข้อมูลวันที่ + เวลา

มีวิธีแก้ที่เป็นไปได้อยู่สองทาง

  1. แก้ไขแฟ้มข้อมูลต้นฉบับเพื่อเพิ่มคอลัมน์ใหม่ในแฟ้มข้อมูล (และอธิบายมันใน EML) โดยวันที่และเวลา จะรวมกันเป็นหนึ่งคอลัมน์ การสร้าง Datata ใหม่อีกครั้ง XMI เพื่อให้มันหาคอลัมน์ใหม่
  2. ใช้ตัวแปรการไล่ระดับสีแสดงในERDDAP™เพื่อกําหนดตัวแปรใหม่ในdatasets.xmlผู้ทรงกําหนดวันและเวลา ตัว อย่าง หนึ่ง เกี่ยว ข้อง กับ สถานการณ์ นี้ โดย เฉพาะ.  

ชื่อคอลัมน์ที่ไม่สอดคล้องกัน

แฟ้ม EML แสดงรายการคอลัมน์ของข้อมูลและชื่อแฟ้ม แต่น่าเสียดายที่มักแตกต่างจากชื่อคอลัมน์ ในแฟ้มข้อมูลจริง โดยปกติลําดับคอลัมน์ในแฟ้ม EML จะเหมือนกับลําดับคอลัมน์ในแฟ้มข้อมูล แม้ว่าชื่อจะแตกต่างกันเล็กน้อย แต่ก็ไม่เสมอไป ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml พยายามจับคู่ชื่อคอลัมน์ เมื่อมันไม่สามารถ (ซึ่งเป็นเรื่องปกติ) มันจะหยุดการแสดงชุดชื่อแฟ้ม EML/Data และถามว่ามันเรียงถูกหรือเปล่า ถ้าคุณป้อน 's' เพื่อข้ามตาราง, สร้าง DatatatetsXml จะพิมพ์ข้อความผิดพลาด แล้วไปยังตารางถัดไป คําตอบคือ การเปลี่ยนชื่อคอลัมน์ผิดพลาดในแฟ้ม EML ให้ตรงกับชื่อคอลัมน์ในแฟ้มข้อมูล  

ลําดับคอลัมน์ที่แตกต่างกัน

มีหลายกรณีที่ EML ระบุตําแหน่งคอลัมน์ในรูปแบบอื่น ที่ไม่ใช่แฟ้มข้อมูล ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI จะหยุดและถามผู้ดําเนินการว่า จับคู่ใช้ได้หรือไม่ หรือควรข้ามข้อมูลไป หากมีการข้ามไป จะมีข้อความผิดพลาดอยู่ในแฟ้มผลลัพธ์ เช่น:

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_17\\_t1
dataFile=all\\_fish\\_all\\_years\\_20140903.csv
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
SURVEY\\_TIMING = notes
NOTES = survey\\_timing
--&gt;

คําตอบคือแก้ไขลําดับคอลัมน์ในแฟ้ม EML เหล่านี้เพื่อให้มันตรงกับลําดับในแฟ้มข้อมูล

มันคงจะดีถ้าเครื่องตรวจ EML ตรวจสอบว่าลําดับคอลัมน์และคอลัมน์ในแฟ้มต้นฉบับตรงกับคอลัมน์และลําดับคอลัมน์ในแฟ้ม EML

เส้นพริ้วไหว

ข้อมูล Tables Internations NumHiader Lines=1.g., sbc.4011. นี่เป็นสาเหตุERDDAP™เพื่ออ่านลําดับแรกของข้อมูลในชื่อคอลัมน์ ผมพยายามใช้ SKIP ข้อมูลเหล่านี้ทั้งหมด มันชัดเจนเพราะชื่อ แหล่งที่มาของโคล์ เป็นค่าของข้อมูลทั้งหมด และถ้ามีไฟล์ที่ไม่ถูกต้อง มี Num Header Lines =0 ระบบของฉันก็ไม่ได้ทําให้มันชัดเจน นี่เป็นตัวอย่างจากแฟ้มความล้มเหลวของ SBC

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_3017\\_t1
dataFile=MC06\\_allyears\\_2012-03-03.txt
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
2008-10-01T00:00 = timestamp\\_local
2008-10-01T07:00 = timestamp\\_UTC
2.27 = discharge\\_lps
-999.0 = water\\_temperature\\_celsius
--&gt;

ดังนั้นข้อผิดพลาดอาจปรากฏเหมือนกับ หากสร้าง Datatatets XMI คิดว่าบรรทัดแรกที่มีข้อมูลอยู่ในแฟ้ม (เช่น 2551-10-01T200 น.) คือเส้นตรงที่ชื่อคอลัมน์ (ราวกับว่า 2008-10-01.00:00 เป็นชื่อคอลัมน์) .

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบค่า Num HeaderLines

นู ม เฮ เด อร์ ลีน = 0

แฟ้มแหล่งบางแฟ้มไม่มีชื่อคอลัมน์ERDDAP™ยอมรับว่าถ้า EML อธิบายจํานวนคอลัมน์เดียวกัน

ในความเห็นของผม นี่ดูอันตรายมาก มันอาจมีคอลัมน์ต่างกัน หรือมีหน่วยต่างกัน (ดูด้านล่าง) และไม่มีทางจับปัญหาเหล่านั้นได้ มันจะดีกว่ามากถ้าไฟล์ข้อมูล ASCII ทั้งหมด มีแถวที่มีชื่อคอลัมน์

รูปแบบเวลา

EML มีวิธีอธิบายรูปแบบเวลาแบบมาตรฐาน แต่มีความแตกต่างมากในการใช้แฟ้ม EML (ก่อนหน้านี้ผมคิดผิดเกี่ยวกับเรื่องนี้ ผมเห็นเอกสาร EML สําหรับรูปแบบ string ซึ่งดูเหมือนตรงกับJavaข้อจํากัดของเวลาแต่ที่ขาดแนวทางที่สําคัญเกี่ยวกับการใช้งานของมัน ผลก็คือรูปแบบ สทริง มักจะใช้อย่างไม่เหมาะสม) มีหลายกรณีที่มีกรณีไม่ถูกต้อง และ/หรือการถอดรหัสตัวอักษรไม่ถูกต้อง และ/หรือรูปแบบที่ไม่มาตรฐาน นั่นทําให้เกิดภาระที่ไม่มีเหตุผลต่อลูกค้า โดยเฉพาะกับลูกค้าของซอฟต์แวร์ เช่น การสร้างสรรค์ DatatatetsXml ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml พยายามแปลงรูปแบบที่กําหนดไว้ไม่ถูกต้องในแฟ้ม EML เป็น รูปแบบวันที่/ เวลา ที่ERDDAP™ต้องการซึ่งเกือบเหมือนกับJavaรูปแบบของเวลา Juda แต่ให้ อภัยเล็กน้อย

มันคงจะดีถ้าเครื่องตรวจ EML ต้องเข้มงวดกับJava- โจดะ /ERDDAPหน่วยเวลากําหนดและตรวจสอบว่า ค่าวันที่ในตารางข้อมูลสามารถวิเคราะห์ได้อย่างถูกต้อง โดยใช้รูปแบบที่ระบุ

เวลา

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI ค้นหาคอลัมน์ที่มีวันที่ เวลาและเขตเวลาที่ระบุ (เช่นเดียวกันZuluชื่อคอลัมน์หรือนิยามคุณลักษณะที่รวมคําว่า "gmt" หรือ "utc" หรือ local: "local" จากชื่อคอลัมน์หรือนิยามคุณลักษณะ) . ที่ยอมรับได้คือแฟ้มที่มีคอลัมน์วันที่ แต่ไม่มีคอลัมน์เวลา ที่ยอมรับได้ก็คือ แฟ้มที่ไม่มีวันที่หรือข้อมูลเวลา

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml ใช้รูปแบบ "local" ทั้งหมด เป็นช่วงเวลาจากพื้นที่เวลา ซึ่งคุณสามารถกําหนดสําหรับชุดของแฟ้ม, เช่น สําหรับ SBC LTER โดยใช้ US/ Pacific บาง ครั้ง ข้อมูล นี้ อยู่ ใน ความ เห็น แต่ ไม่ ใช่ ใน รูป แบบ ที่ ง่าย ที่ โปรแกรม คอมพิวเตอร์ จะ คิด ออก.

แฟ้มที่ไม่ตรงกับเกณฑ์นี้ถูกปฏิเสธด้วยข้อความ "NOTH Date" (เวลา) University". ปัญหาทั่วไปก็คือ:

  • มีคอลัมน์ที่มีวันที่และคอลัมน์ที่มีเวลา แต่ไม่ใช่วันที่ คอลัมน์เวลา
  • มีหน่วยเวลา แต่พื้นที่เวลาไม่ได้ระบุ

ความเห็นอื่น: หากมีวันที่ดี + เวลากับคอลัมน์เขตเวลา ชื่อคอลัมน์ดังกล่าว"time"ในERDDAP.ERDDAP™ต้องการข้อมูลคอลัมน์เวลาที่เข้าใจได้/ จะสามารถตรวจสอบได้ZuluUNTC/GMT Time Times.\[ผมเชื่อว่า: โดยใช้เวลาท้องถิ่นและรูปแบบวันที่/เวลาที่แตกต่างกัน (2 ปี! mm/dd/yy vs dd/m/y vs...) ในแฟ้มข้อมูลจะบังคับให้ผู้ใช้ที่จบการทํางานแบบซับซ้อนZuluเวลาในการเปรียบเทียบข้อมูล จากชุดข้อมูลหนึ่งเข้ากับข้อมูลอื่น ดังนั้นERDDAP™ขนาดของแฟ้ม: สําหรับเวลาสายERDDAP™ใช้ ISO 8601: 2004 เสมอ (E) ฟอร์แมตมาตรฐาน เช่น 1985-01-02.00 น. สําหรับตัวเลขเวลาERDDAP™ใช้เสมอ"seconds since 1970-01-01T00:00:00Z".ERDDAP™ใช้เสมอZulu (UTC, GMT) เขตเวลาที่จะขจัดความยากลําบากของการทํางาน กับพื้นที่เวลาที่แตกต่างกัน และเวลามาตรฐานกับเวลาประหยัดตอนกลางวัน ดังนั้นการสร้าง Datatatets Xml สืบค้นคอลัมน์ข้อมูล EML ด้วยวันที่+timeZulu. มันยากเพราะ EML ไม่ใช้คําศัพท์หรือระบบอย่างเป็นทางการ (เช่นJavaรูปแบบเวลาjuda) สําหรับระบุข้อมูล รูปแบบเวลา: หากมีคอลกับค่าเวลาเป็นตัวเลข (อี.จี.Matlabคูณ) ถึงZuluเขตเวลา (หรือแค่วันที่ ไม่มีกลุ่มเวลา) มันถูกใช้เป็น"time". ถ้ามีข้อมูลวันที่และเวลาZuluพื้นที่เวลา, มันถูกใช้เป็น"time"และวันที่อื่น ๆ หรือคอลัมน์เวลาถูกลบ มิฉะนั้น หากคอมที่มีข้อมูลวันที่เพียง แต่ใช้เป็น"time"ตัวแปร (ไม่มีเขตเวลา) . ถ้ามีคอลัมน์ข้อมูลและคอลัมน์เวลา และไม่มีวันที่รวม คอลัมน์เวลา ชุดข้อมูลคือ Rejefferent — แต่ชุดข้อมูลสามารถใช้ได้โดยเพิ่มวันที่รวม คอลัมน์เวลา (โดยเฉพาะอย่างยิ่งZuluเขตเวลา) ไปยังแฟ้มข้อมูลและเพิ่มคําอธิบายของมัน ในแฟ้ม EML EXAMPLE จาก SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ ข้อมูล #2.

มันจะดีถ้า EML/LTER ต้องการการผนวกของคอลัมน์ที่มีZulu (UTC, GMT) เวลาพื้นที่เวลา ในแฟ้มข้อมูลของแหล่งทั้งหมด ถัดไปที่ดีที่สุดคือ เพิ่มระบบไปยัง EML เพื่อระบุtime\_zoneคุณสมบัติโดยใช้ชื่อมาตรฐาน (จากคอลัมน์ TZ) .

หายไปmissing\_value

บางคอลัมน์ใช้missing\_valueแต่ไม่ต้องลงรายการในข้อมูล EML, e.g., procation\_mmm in nab-lter-sbc.5011 ใช้ -99. หากไม่มีการระบุค่าสูญหายใน EML ให้สร้าง DatatasXml ให้โดยอัตโนมัติ เพื่อค้นหาค่าที่ขาดหายไป (e.g., 99, -99, 999, -999, 999, –9999, ฯลฯ) และสร้างข้อมูลกํากับ แต่คนอื่นที่หายไปmissing\_valueโดนจับไม่ได้

มันจะดีถ้าเครื่องตรวจ EML หาที่หายไปmissing\_valueเอส.

ปัญหา เล็ก ๆ

มีปัญหาเล็กๆมากมาย (สะกด, เครื่องหมายวรรคตอน) ซึ่งอาจจะพบได้จากมนุษย์ ที่ตรวจสอบข้อมูลแต่ละชุด

มันคงจะดีถ้าเครื่องตรวจ EML หาคําสะกดและไวยากรณ์ผิดพลาด นี่ เป็น ปัญหา ที่ ยาก มาก เพราะ บ่อย ครั้ง คํา ต่าง ๆ ใน วิทยาศาสตร์ ถูก ใส่ ร้าย โดย ผู้ ตรวจ สอบ คํา ศัพท์. อาจ จําเป็น ต้อง แก้ไข ความ คิด ของ มนุษย์.

อักขระยูนิโค้ดไม่ถูกต้อง

เนื้อหาบางส่วนของ EML มีอักขระยูนิโค้ดที่ใช้ไม่ได้ นี่เป็นอักขระจากชุดรหัสอักขระของวินโดวส์ ที่ถูกคัดลอกและวางลงในแฟ้ม UTF-8 EML ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMII อักขระเหล่านี้ไปที่ e.g.\[# 128\]ดังนั้นพวกเขาจึงง่ายที่จะค้นหาในERDDAP™ datasets.xmlแฟ้ม

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบสําหรับสิ่งนี้ เป็น เรื่อง ง่าย ที่ จะ หา วิธี แก้.

จํานวนคอลัมน์ต่าง ๆ (ยกเลิกการประมวลผล)

ข้อมูล EML บางตัวให้นิยามคอลัมน์ที่ไม่สอดคล้องกันกับคอลัมน์ในแฟ้มข้อมูล โดยเฉพาะเพราะพวกมันมีหน่วยต่างกัน ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ ธง Xml เหล่านี้ ขึ้นอยู่กับผู้ดําเนินการที่จะตัดสินว่า ความแตกต่างจะโอเคหรือไม่ สิ่งเหล่านี้ปรากฏในแฟ้มความล้มเหลวเป็นข้อมูล "SKPPPD" EXAMPLE ในแฟ้มความล้มเหลวของ SBC:

      < SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_3\\_t1
dataFile=SBCFC\\_Precip\\_Daily\\_active\\_logger.csv
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
Daily\\_Precipitation\\_Total\\_mm = Daily\\_Precipitation\\_Total\\_inch
Flag\\_Daily\\_Precipitation\\_Total\\_mm = Flag\\_Daily\\_Precipitation\\_Total\\_inch
-->

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบว่าหน่วยที่ตรงกับ แต่น่าเสียดายที่มันเป็นไปไม่ได้ที่จะจับ และแล้วเป็นไปไม่ได้ที่จะแก้ไข โดยไม่ต้องติดต่อกับผู้สร้างชุดข้อมูล ความ ไม่ ลง รอย กัน ของ ตัว อย่าง ข้าง ต้น มี แต่ จะ สังเกต เห็น ได้ เพราะ หน่วย ต่าง ๆ รวม อยู่ ใน ชื่อ คอลัมน์ ที่ มา และ ชื่อ คอลัมน์ อี เอ็ม แอล. มีข้อมูลอื่นอีกกี่อันที่มีปัญหา แต่ไม่สามารถตรวจสอบได้

EML รุ่นที่แตกต่างกัน

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml ถูกออกแบบมาให้ทํางานกับ EML 2.1. EML รุ่นอื่น ๆ จะทํางานเท่าที่มันตรงกับ 2.1 หรือที่ผลิต DatatatetsXml มีรหัสพิเศษในการจัดการ นี่เป็นปัญหาที่หายาก เมื่อมันเกิดขึ้นคําตอบคือการแปลงแฟ้มของคุณเป็น EML 2. 1 หรือส่งแฟ้ม EML ไปยังerd.data at noaa.govเพื่อที่ผมจะสามารถสร้างชุด Datatatets XMI เพื่อจัดการกับความแตกต่าง

Bob เพิ่มการรองรับแฟ้ม EML เพื่อสร้าง Datatas XMI ในปี ค.ศ. 2020 นั่นยังไม่เกิดขึ้น Bob ยินดีที่จะเพิ่มการสนับสนุนสําหรับรุ่นล่าสุดของ EML แต่เฉพาะเมื่อคุณสมบัติใหม่จะถูกนําไปใช้จริง กรุณาส่งเมลerd.data at noaa.govถ้าคุณต้องการการสนับสนุน EML รุ่นล่าสุด และจะใช้คุณสมบัตินี้จริงๆ

ปัญหาในการวิเคราะห์แฟ้มข้อมูล

อาจปฏิเสธข้อมูลได้ ด้วยความผิดพลาด "จํานวนรายการบนบรรทัดที่ไม่สามารถคาดเดาได้ #120 รายการ (ข้อสังเกต=52 คาดว่าจะ =50) " ข้อความผิดพลาดแบบนี้ หมายความว่าเส้นตรงในแฟ้มข้อมูล มีจํานวนค่าต่างกันกว่าบรรทัดอื่น มันอาจจะเป็นปัญหาERDDAP™ (e.g., ไม่วิเคราะห์แฟ้มอย่างถูกต้อง) หรือในแฟ้ม EXAMPLE จาก SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ ข้อมูล # 3 ดูแฟ้มข้อมูล=LTER\ เดือน\_ bottdateta\regored\ stats\_20140429.txt