Henry65
/

RepoSim4Py

@@ -34,19 +34,35 @@ def extract_code_and_docs(text: str):
     return code_set, docs_set
-def extract_requirements(lines):
     """
     The method for extracting requirements.
     :param lines: requirements.
     :return: requirement libraries.
     """
     requirements_set = set()
     for line in lines:
-        line = line.replace('\n', '').strip()
         try:
             if " == " in line:
                 splitLine = line.split(" == ")
-            elif "==" in line:
                 splitLine = line.split("==")
             requirements_set.add(splitLine[0])
         except:
@@ -132,8 +148,7 @@ def extract_information(repos, headers=None):
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
-                        readmes_set = set()
-                        readmes_set.add(file_content)
                         repo_info["readmes"].update(readmes_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(
@@ -144,9 +159,9 @@ def extract_information(repos, headers=None):
                 # 4. Extracting requirements.
                 elif member.name.endswith("requirements.txt") and member.isfile():
                     try:
-                        lines = tar.extractfile(member).readlines()
                         # extract readme
-                        requirements_set = extract_requirements(lines)
                         repo_info["requirements"].update(requirements_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(

     return code_set, docs_set
+def extract_readmes(file_content):
+    """
+    The method for extracting readmes.
+    :param lines: readmes.
+    :return: readme sentences.
+    """
+    readmes_set = set()
+    lines = file_content.split('\n')
+    for line in lines:
+        line = line.replace("\n", "").strip()
+        readmes_set.add(line)
+    return readmes_set
+def extract_requirements(file_content):
     """
     The method for extracting requirements.
     :param lines: requirements.
     :return: requirement libraries.
     """
     requirements_set = set()
+    lines = file_content.split('\n')
     for line in lines:
+        line = line.replace("\n", "").strip()
         try:
             if " == " in line:
                 splitLine = line.split(" == ")
+            else:
                 splitLine = line.split("==")
             requirements_set.add(splitLine[0])
         except:
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
+                        readmes_set = extract_readmes(file_content)
                         repo_info["readmes"].update(readmes_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(
                 # 4. Extracting requirements.
                 elif member.name.endswith("requirements.txt") and member.isfile():
                     try:
+                        file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
+                        requirements_set = extract_requirements(file_content)
                         repo_info["requirements"].update(requirements_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(