Делаем Матрицы из фраз текста

import numpy as np
import random

def encode_phrase(phrase):
    # Разделение фразы на слова
    words = phrase.split()
   
    # Находим максимальную длину слова
    max_length = max(len(word) for word in words)
   
    # Создаем пустую матрицу с достаточным количеством строк и столбцов
    matrix = np.zeros((len(words), max_length), dtype=int)
   
    # Заполняем матрицу символами ASCII для каждого слова
    for i, word in enumerate(words):
        for j, char in enumerate(word):
            matrix[i, j] = ord(char)
   
    return matrix

def main():
    # Открываем файл с фразами
    with open('фразы.txt', 'r', encoding='utf-8') as file:
        phrases = file.readlines()
   
    # Выбираем случайные 10 фраз из списка
    random_phrases = random.sample(phrases, 10)
   
    # Обработка каждой случайной фразы
    for phrase in random_phrases:
        phrase = phrase.strip()  # Удаляем лишние символы (пробелы, переносы строки)
        matrix = encode_phrase(phrase)
        print(f"Фраза: {phrase}")
        print("Матрица:")
        print(matrix)

if __name__ == "__main__":
    main()



Этот код на питоне открывает файл "фразы.txt", считывает 10 фраз, кодирует их в матрицы  ASCII символов и выводит полученные матрицы.


 **


Фраза: в живой клетке примерно 50-120 триллионов простых молекул типа воды


Матрица:
[[1074    0    0    0    0    0    0    0    0    0]
 [1078 1080 1074 1086 1081    0    0    0    0    0]
 [1082 1083 1077 1090 1082 1077    0    0    0    0]
 [1087 1088 1080 1084 1077 1088 1085 1086    0    0]
 [  53   48   45   49   48   48    0    0    0    0]
 [1090 1088 1080 1083 1083 1080 1086 1085 1086 1074]
 [1072 1090 1086 1084 1086 1074    0    0    0    0]
 [1080 1083 1080    0    0    0    0    0    0    0]
 [1084 1086 1083 1077 1082 1091 1083    0    0    0]]

Фраза: Вы хотите сказать, что интеллектуальные нагрузки вредят мозгу? - Конечно, вредят, он же приспособлен не для интеллекта.

Матрица:
[[1042 1099    0    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1093 1086 1090 1080 1090 1077    0    0    0    0    0    0    0    0    0    0]
 [1089 1082 1072 1079 1072 1090 1100   44    0    0    0    0    0    0    0    0]
 [1095 1090 1086    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1080 1085 1090 1077 1083 1083 1077 1082 1090 1091 1072 1083 1100 1085 1099 1077]
 [1085 1072 1075 1088 1091 1079 1082 1080    0    0    0    0    0    0    0    0]
 [1074 1088 1077 1076 1103 1090    0    0    0    0    0    0    0    0    0    0]
 [1084 1086 1079 1075 1091   63    0    0    0    0    0    0    0    0    0    0]
 [  45    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1050 1086 1085 1077 1095 1085 1086   44    0    0    0    0    0    0    0    0]
 [1074 1088 1077 1076 1103 1090   44    0    0    0    0    0    0    0    0    0]
 [1086 1085    0    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1078 1077    0    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1087 1088 1080 1089 1087 1086 1089 1086 1073 1083 1077 1085    0    0    0    0]
 [1085 1077    0    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1076 1083 1103    0    0    0    0    0    0    0    0    0    0    0    0    0]
 [1080 1085 1090 1077 1083 1083 1077 1082 1090 1072   46    0    0    0    0    0]]

Фраза: то есть всё дело в том что нам нужно больше данных чтобы делать более сложные выводы из того что мы анализируем с помощью ИИ

Матрица:
[[1090 1086    0    0    0    0    0    0    0    0    0]
 [1077 1089 1090 1100    0    0    0    0    0    0    0]
 [1074 1089 1105    0    0    0    0    0    0    0    0]
 [1076 1077 1083 1086    0    0    0    0    0    0    0]
 [1074    0    0    0    0    0    0    0    0    0    0]
 [1090 1086 1084    0    0    0    0    0    0    0    0]
 [1095 1090 1086    0    0    0    0    0    0    0    0]
 [1085 1072 1084    0    0    0    0    0    0    0    0]
 [1085 1091 1078 1085 1086    0    0    0    0    0    0]
 [1073 1086 1083 1100 1096 1077    0    0    0    0    0]
 [1076 1072 1085 1085 1099 1093    0    0    0    0    0]
 [1095 1090 1086 1073 1099    0    0    0    0    0    0]
 [1076 1077 1083 1072 1090 1100    0    0    0    0    0]
 [1073 1086 1083 1077 1077    0    0    0    0    0    0]
 [1089 1083 1086 1078 1085 1099 1077    0    0    0    0]
 [1074 1099 1074 1086 1076 1099    0    0    0    0    0]
 [1080 1079    0    0    0    0    0    0    0    0    0]
 [1090 1086 1075 1086    0    0    0    0    0    0    0]
 [1095 1090 1086    0    0    0    0    0    0    0    0]
 [1084 1099    0    0    0    0    0    0    0    0    0]
 [1072 1085 1072 1083 1080 1079 1080 1088 1091 1077 1084]
 [1089    0    0    0    0    0    0    0    0    0    0]
 [1087 1086 1084 1086 1097 1100 1102    0    0    0    0]
 [1048 1048    0    0    0    0    0    0    0    0    0]]


Рецензии