Skip to content

የቁጥር ምላሾች የተሰጡባቸውን የአማርኛ ቃላዊ ጥያቄዎች እና በእንግሊዝኛ እና በአማርኛ የተደረጉ የውይይት ልውውጦችን የያዘ የዳታ ስብስብ። የአማርኛ ቋንቋን የመረዳት እና የማመንጨት ችሎታ ያላቸውን የተፈጥሮ ቋንቋ ማቀነባበሪያ (NLP) ሞዴሎችን ለማሰልጠን እና ለመገምገም ጠቃሚ ነው።(A dataset of Amharic word problems with numeric answers and English–Amharic dialogues—ideal for training and evaluating Amharic NLP models.)

Notifications You must be signed in to change notification settings

Aman-byte1/amharic-conversation-and-math-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

የአማርኛ ጥያቄ-መልስ እና የውይይት ዳታ ስብስብ

ይህ የዳታ ስብስብ የጽሑፍ እና የቁጥር ምላሾችን (ምናልባትም ከቃላዊ ጥያቄዎች የተወሰዱ) እንዲሁም የእንግሊዝኛ እና የአማርኛ የውይይት መነሻዎችን እና ምላሾችን የያዙ ጥንዶችን ያቀፈ ነው። በተለይም የአማርኛ ጽሑፍን የመረዳት እና የማመንጨት ብቃትን ለሚጠይቁ የተፈጥሮ ቋንቋ ማቀነባበሪያ ሞዴሎች (NLP) ለማሰልጠን ወይም ለመገምገም ተስማሚ ነው።

የይዘት ማውጫ

መግቢያ

ይህ የዳታ ስብስብ የአማርኛ ቋንቋን የሚጠቀሙ ሁለት የተለያዩ የጽሑፍ ዳታ ዓይነቶችን በማቀናጀት የተዘጋጀ ነው። የመጀመሪያው ክፍል ከአማርኛ ጥያቄዎች ወይም ቃላዊ ችግሮች ጋር የሚዛመዱ የቁጥር ምላሾችን ያቀርባል። ሁለተኛው ክፍል ደግሞ አጫጭር የውይይት ልውውጦችን በእንግሊዝኛ-አማርኛ የመነሻ-ምላሽ ጥንዶች መልክ ያቀርባል።

የዳታ ስብስብ አወቃቀር

የዳታ ስብስቡ በሁለት ዋና ዋና ክፍሎች ተከፍሎ ቀርቧል፦

  1. የጥያቄ-መልስ ጥንዶች: እያንዳንዱ ግቤት የቁጥር ዋጋን (ምላሹን) እና ከዚያም ችግርን ወይም ጥያቄን የያዘ የአማርኛ ጽሑፍን ያካትታል።
  2. የውይይት ጥንዶች: እያንዳንዱ ግቤት ተለዋጭ የእንግሊዝኛ መነሻዎችን እና የአማርኛ ምላሾችን የያዘ ቅደም ተከተልን ያቀፈ ነው።

ዳታው መስመር በመስመር የተዋቀረ ሲሆን፤ በመጀመሪያው ክፍል ቁጥራዊ ምላሽ ከአማርኛው ጽሑፍ ይቀድማል፣ በሁለተኛው ክፍል ደግሞ የእንግሊዝኛ/አማርኛ መስመሮች ይፈራረቃሉ።

ክፍል 1: የጥያቄ-መልስ ጥንዶች

ይህ የዳታ ስብስብ ክፍል ቁጥራዊ ምላሽ ከአማርኛ ጽሑፍ ጋር የተጣመረባቸው ግቤቶችን ይዟል። የአማርኛው ጽሑፍ ቃላዊ ችግር ወይም ቁጥራዊ ምላሽ የሚያስፈልገው ጥያቄ መሆኑ ይገመታል።

ቅርጸት:

[ቁጥራዊ ምላሽ]\t[የጥያቄ/ችግር የአማርኛ ጽሑፍ]



(ማስታወሻ: በቁጥሩ እና በጽሑፉ መካከል ያለው መለያየት በምሳሌው መሰረት ታብ ወይም ብዙ ክፍተቶች መሆኑ ይታያል።)

መስኮች:

  • ቁጥራዊ ምላሽ: በአማርኛው ጽሑፍ ለተገለጸው ችግር መፍትሄ የሆነ ኢንቲጀር።
  • የአማርኛ ጽሑፍ: የቃላዊ ችግሩ ወይም የጥያቄው ጽሑፍ በአማርኛ።

ምሳሌዎች:

18	የጃኔት ዳክዬዎች በቀን 16 እንቁላሎች.በየቀኑ ቁርስ ለመብላት ሦስት ትሰጣለች እንዲሁም ከአራት ጋር በየቀኑ ከአራት ጋር የሚጋራ ነው.የተቀሩትን አርሶ አደሮች ገበያ ለእያንዳንዱ ትኩስ ዳክዬ እንቁላል አንድ ቀን ለ 2 ዶላር ትሸጣለች.
3	አንድ ኮት 2 ፓውንድ ይወስዳል.ሰማያዊ ድር እና ግማሽ ከነጭ ድር.ስንት ፓውብ.በአጠቃላይ ይወስዳል?
70000	ኢያሱ ቤት እንዲንቀሳቀስ ወሰነ.ቤቱን ለ 80,000 ዶላር ገዛ እና ከ 50,000 ዶላር ዶላር ታድሷል.ይህ የቤቱን ዋጋ በ 150 በመቶ ጨምሯል.



ክፍል 2: የውይይት ጥንዶች

ይህ ክፍል አጫጭር የውይይት ልውውጦችን ይዟል። እያንዳንዱ ግቤት በጥንድ የቀረበ ሲሆን፤ የመጀመሪያው መስመር መነሻው (በእንግሊዝኛ) ሲሆን ሁለተኛው መስመር ደግሞ ምላሹ (በአማርኛ) ነው። በጥንዶቹ ውስጥ ያሉት ሚናዎች (መነሻ/ምላሽ) በውይይቱ ቅደም ተከተል ይፈራረቃሉ።

ቅርጸት:

[የመነሻ ጽሑፍ (እንግሊዝኛ)]
[የምላሽ ጽሑፍ (አማርኛ)]
[የመነሻ ጽሑፍ (እንግሊዝኛ)]
[የምላሽ ጽሑፍ (አማርኛ)]
...



መስኮች:

  • መነሻ: በእንግሊዝኛ እንደ መነሻ የሚያገለግል የጽሑፍ መስመር።
  • ምላሽ: ቀዳሚውን መነሻ በአማርኛ የሚመልስ የጽሑፍ መስመር።

ምሳሌዎች:

ሰላም እንዴት ነህ፧	ደህና ነኝ።ስለራስዎስ?
ደህና ነኝ።ስለራስዎስ?	በጣም ጥሩ ነኝ.ስለጠየቁ እናመሰግናለን.
በጣም ጥሩ ነኝ.ስለጠየቁ እናመሰግናለን.	ችግር የሌም።ታዲያ እንዴት ነበርሽ?



(ማስታወሻ: አወቃቀሩ ተከታታይ የውይይት ተራዎች ይመስላል፤ ምናልባትም በታብ የተለዩ ጥንዶች ሆነው የቀረቡ ወይም በጥሬው ዳታ ውስጥ ተለዋጭ መስመሮች ብቻ ሊሆኑ ይችላሉ። በቀረቡት ምሳሌዎች ታብ ጥቅም ላይ ውሏል።)

ሊሆኑ የሚችሉ የአጠቃቀም ዘርፎች

ይህ የዳታ ስብስብ ለተለያዩ የተፈጥሮ ቋንቋ ማቀነባበሪያ (NLP) ተግባራት ጠቃሚ ሊሆን ይችላል፣ ከእነዚህም መካከል፦

  • ጥያቄ መመለስ (QA): ከአማርኛ ቃላዊ ችግሮች የቁጥር ምላሾችን ለማውጣት የሚያስችሉ ሞዴሎችን ማሰልጠን።
  • የማሽን ትርጉም: የእንግሊዝኛ-አማርኛ የትርጉም ሞዴሎችን ማሰልጠን ወይም መገምገም።
  • የውይይት ስርዓቶች: በአማርኛ መገናኘት የሚችሉ የውይይት አርቴፊሻል ኢንተለጀንስ ወኪሎችን ማዘጋጀት።
  • የጽሑፍ ትንተና: በአማርኛ ጽሑፍ ውስጥ የሚገኙ የቋንቋ ቅጦችን እና አወቃቀሮችን ማጥናት።

ይህ ጽሑፍ የተተረጎመ ነው።

About

የቁጥር ምላሾች የተሰጡባቸውን የአማርኛ ቃላዊ ጥያቄዎች እና በእንግሊዝኛ እና በአማርኛ የተደረጉ የውይይት ልውውጦችን የያዘ የዳታ ስብስብ። የአማርኛ ቋንቋን የመረዳት እና የማመንጨት ችሎታ ያላቸውን የተፈጥሮ ቋንቋ ማቀነባበሪያ (NLP) ሞዴሎችን ለማሰልጠን እና ለመገምገም ጠቃሚ ነው።(A dataset of Amharic word problems with numeric answers and English–Amharic dialogues—ideal for training and evaluating Amharic NLP models.)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published