Блог страдающего Лиса
Lorem ipsum hello dolor sit world amet
12 окт 2024 Сб
Продолжение работы над 8088
Доработки
Очень медленно работа идет над этим процессором, потому что у меня нет времени на то, чтобы заниматься этим постоянно. Сегодня мне бы хотелось сделать инструкции умножения и деления, потому что это тоже важно, между прочим. И просто посмотреть, сколько занимает логических элементов текущий код, просто потому что интересно, влезет ли в 10к от Марсохода в будущем, это тоже важно.
У меня есть вторая плата, которую покупал совсем недавно, это OMDAZZ, и ее тоже было бы интересно проверить, потому что по техническим характеристикам она полностью совпадает с Марсоходом2. То есть по идее, если я смогу сделать для нее, то и для 3-го циклона тоже получится.
Игра Жизнь
Еще недавно я научился "шить" микросхему 150К ПЛИС, загрузил туда свою прошивку для симуляции поля игры "Жизнь" 128 на 120. Это значит, что каждая ячейка "живет" независимо от других и за один такт перебрасывается поле в новое состояние. Это значит, что если запустить на 25 мгц, то, учитывая 128 на 120 = 15360 ячеек, которые занимают 148К ЛЕ, то это равносильно будет обработке 384 млрд ячеек в секунду! Поразительная скорость массового параллелизма. Но это лишь простые ячейки, более сложного ничего не делал пока что, только игру "Жизнь".
У меня еще есть мечта сделать растеризацию фрактала Мандельброта, только вот, смогу ли я это сделать, тот еще вопрос... на самом деле, ничего меня не может остановить, чтобы это сделать, кроме собственной лени.
Итог дня
Сегодня я полдня делал шаблон для omdazz, назначал пины, проверял различные комбинации, тестировал VGA и вот что я скажу — какая-то есть проблема с видеовыходом, поскольку во-первых, там всего лишь 3 бита, во-вторых, изображение получается тусклым. Один из проверочных моих мониторов вообще не может настроиться на видевыход как надо, к тому же, картинка съезжает, возможно даже из-за этих тусклых цветов. Как я посмотрел на схеме, там подключено к 1 кОм резистору, вместо например, 100 Ом, и видимо поэтому изображение такое тусклое и показывается.
Вторая неприятная вещь в том состоит, что оказывается, пины, которые якобы GPIO, на самом деле присоединены к различным устройствам, и значит что придется использовать их совместно. И вообще так получается, что эти пины особо и не получится использовать, честно говоря. Да, можно отказаться от SDRAM например, в пользу пинов, но вместе их использовать никак не выйдет.
Еще на плате есть выводы на LCD экранчик, который присоединяется отдельно. У меня такое чувство, что его подцепить туда будет нельзя, поскольку похоже, не совпадают выводы. Но я должен буду это еще проверить. В любом случае, именно эти пины то и можно юзать как GPIO.
Смог сегодня сделать инструкции умножения и частично деления, только беззнаковое пока что. Знаковое сложнее, это я уже потом делать буду. Дополнительно к функции умножения через обычные групповые инструкции еще бы сделать отдельную IMUL, которая работает с Immediate. Это очень полезная и крайне нужная инструкция для вычисления например, координат.
Очень медленно работа идет над этим процессором, потому что у меня нет времени на то, чтобы заниматься этим постоянно. Сегодня мне бы хотелось сделать инструкции умножения и деления, потому что это тоже важно, между прочим. И просто посмотреть, сколько занимает логических элементов текущий код, просто потому что интересно, влезет ли в 10к от Марсохода в будущем, это тоже важно.
У меня есть вторая плата, которую покупал совсем недавно, это OMDAZZ, и ее тоже было бы интересно проверить, потому что по техническим характеристикам она полностью совпадает с Марсоходом2. То есть по идее, если я смогу сделать для нее, то и для 3-го циклона тоже получится.
Игра Жизнь
Еще недавно я научился "шить" микросхему 150К ПЛИС, загрузил туда свою прошивку для симуляции поля игры "Жизнь" 128 на 120. Это значит, что каждая ячейка "живет" независимо от других и за один такт перебрасывается поле в новое состояние. Это значит, что если запустить на 25 мгц, то, учитывая 128 на 120 = 15360 ячеек, которые занимают 148К ЛЕ, то это равносильно будет обработке 384 млрд ячеек в секунду! Поразительная скорость массового параллелизма. Но это лишь простые ячейки, более сложного ничего не делал пока что, только игру "Жизнь".
У меня еще есть мечта сделать растеризацию фрактала Мандельброта, только вот, смогу ли я это сделать, тот еще вопрос... на самом деле, ничего меня не может остановить, чтобы это сделать, кроме собственной лени.
Итог дня
Сегодня я полдня делал шаблон для omdazz, назначал пины, проверял различные комбинации, тестировал VGA и вот что я скажу — какая-то есть проблема с видеовыходом, поскольку во-первых, там всего лишь 3 бита, во-вторых, изображение получается тусклым. Один из проверочных моих мониторов вообще не может настроиться на видевыход как надо, к тому же, картинка съезжает, возможно даже из-за этих тусклых цветов. Как я посмотрел на схеме, там подключено к 1 кОм резистору, вместо например, 100 Ом, и видимо поэтому изображение такое тусклое и показывается.
Вторая неприятная вещь в том состоит, что оказывается, пины, которые якобы GPIO, на самом деле присоединены к различным устройствам, и значит что придется использовать их совместно. И вообще так получается, что эти пины особо и не получится использовать, честно говоря. Да, можно отказаться от SDRAM например, в пользу пинов, но вместе их использовать никак не выйдет.
Еще на плате есть выводы на LCD экранчик, который присоединяется отдельно. У меня такое чувство, что его подцепить туда будет нельзя, поскольку похоже, не совпадают выводы. Но я должен буду это еще проверить. В любом случае, именно эти пины то и можно юзать как GPIO.
Смог сегодня сделать инструкции умножения и частично деления, только беззнаковое пока что. Знаковое сложнее, это я уже потом делать буду. Дополнительно к функции умножения через обычные групповые инструкции еще бы сделать отдельную IMUL, которая работает с Immediate. Это очень полезная и крайне нужная инструкция для вычисления например, координат.
11 окт 2024 Пт
Оптимизации продолжаются
Сегодня, как всегда, с утра продолжил делать оптимизации. Вчера я смог сделать MOVSx инструкцию, но не учел тот момент, что когда инструкция MOVSB, то требуется всего лишь 2 такта вместо 3 тактов, это исправил. Также оптимизировал инструкцию CMPSx, чтобы она выполнялась за 5 (BYTE) или 7 тактов (WORD). В случае REP тоже работает за 3 или 5 тактов за один раз. Это хорошо, и теперь осталось только сделать SCASx, который будет работать за 1/2 такта. И строковые инструкции будут полностью оптимизированы. Всего их 6 видов:
Само по себе выполнение оптимизации мне нужно для создания плавного скроллинга для игр, которые я хотел бы сделать. Например, можно начать с игры Flappy Bird, которая не так сложна для реализации. И я буду делать ее для чипа C5, с 308К памяти, потому что программирование на Марсоходе-2 меня пока не так сильно привлекает пока что. В любом случае, если потребуется, я просто доработаю для чипа этого.
В итоге смог оптимизировать всё и удалить ненужный код для ipstart. Есть только один недостаток, что при исполнении инструкции она не может быть оборвана посередине. Но это не так важно, все равно, если контроллер прерываний будет, то он будет реагировать на внешние изменения.
Есть одна важная вещь, которую мне надо сделать, это деление, да такое, чтобы побыстрее работало, и неплохо бы оптимизировать и инструкции сдвига, на самом деле. У меня по этому процессору просто прорва работы, он очень сырой и когда его завершу, я не знаю даже. Уже столько времени над ним работаю.
-
STOS
— сохранение A по адресу ES:DI -
LODS
— считывание из DS:SI в A -
MOVS
— копирование из DS:SI -> ES:DI -
CMPS
— сравнение DS:SI с ES:DI, через операцию CMP -
SCAS
— сравнение ES:DI с A
Само по себе выполнение оптимизации мне нужно для создания плавного скроллинга для игр, которые я хотел бы сделать. Например, можно начать с игры Flappy Bird, которая не так сложна для реализации. И я буду делать ее для чипа C5, с 308К памяти, потому что программирование на Марсоходе-2 меня пока не так сильно привлекает пока что. В любом случае, если потребуется, я просто доработаю для чипа этого.
В итоге смог оптимизировать всё и удалить ненужный код для ipstart. Есть только один недостаток, что при исполнении инструкции она не может быть оборвана посередине. Но это не так важно, все равно, если контроллер прерываний будет, то он будет реагировать на внешние изменения.
Есть одна важная вещь, которую мне надо сделать, это деление, да такое, чтобы побыстрее работало, и неплохо бы оптимизировать и инструкции сдвига, на самом деле. У меня по этому процессору просто прорва работы, он очень сырой и когда его завершу, я не знаю даже. Уже столько времени над ним работаю.
10 окт 2024 Чт
Оптимизация? Не... не слышал
Есть у меня один проект одного ядра 8088, который я решил просто доделать, чтобы было. Суть такова. Существует такая инструкция как
Пришла пора значит, переделывать. Сегодня сел с утра и переделал так, что теперь вся эта инструкция выполняется за 4*CX + 3 тактов! Да, это вот такое ускорение аж в 3 раза! Один байт, получается, перекидывает за 2Т.
Если пересчитать количество тактов, то можно понять, что для того, чтобы сдвинуть экран 320 на 200, потребуется (160 x 4 + 3)*200 тактов, что равно 128600, и это в пересчете 25 000 000 / 128600 дает 194 кадров в секунду! Просто поразительное ускорение фактически на 300% только за счет того что я сделал оптимизацию.
Единственный минус в том, что если посередине исполнения этой инструкции возникнет сигнал INTR, то ему придется подождать, пока инструкция закончит работу. Учитывая, что там может быть 65535 итерации, то ждать придется 262140 тактов. Это надо учитывать при разработке программ, которые юзают INTR. Но и еще мне тоже надо доработать контроллер прерываний, чтобы не было такой ситуации, чтобы они были упущены, а то это нехорошо. Контроллер прерываний надо сделать внешний для этого.
А еще сделал чтобы STOSx выполнялся 1Т = 1 байт, с такой скоростью теперь пишется. Для LODSx вообще будет выполняться за 4-5Т всегда, вне зависимости от REP, поскольку имеет смысл читать только последние 1-2 байта из общей выборки.
Таким образом, я переделаю все строковые инструкции.
REP MOVSW
, например. Когда я делал это ядро раньше, то сделал ее такой, чтобы каждый раз она исполнялась за 12Т, и это очень, очень много! Несмотря на то что она исполнялась так медленно, даже этой скорости хватало, чтобы сделать скроллинг экрана со скоростью 65 кадров в секунду. Но разве это дело? Это медленно, и мне этой скорости не хватило.move: xor di, di mov si, 2 mov dx, 200 @@: mov cx, (318/2) rep movsw add di, 2 add si, 2 dec dx jne @b retВыше я привел сакральные коды скроллера, который выполняет перенос всего экрана. Итак, как мы видим, краеугольный камень проблемы в том, что rep movsw выполнялась за 12Т на каждое пройденное машинное слово (2 байта). Я посмотрел в код и удивился, до чего я его не оптимально сделал.
Пришла пора значит, переделывать. Сегодня сел с утра и переделал так, что теперь вся эта инструкция выполняется за 4*CX + 3 тактов! Да, это вот такое ускорение аж в 3 раза! Один байт, получается, перекидывает за 2Т.
Если пересчитать количество тактов, то можно понять, что для того, чтобы сдвинуть экран 320 на 200, потребуется (160 x 4 + 3)*200 тактов, что равно 128600, и это в пересчете 25 000 000 / 128600 дает 194 кадров в секунду! Просто поразительное ускорение фактически на 300% только за счет того что я сделал оптимизацию.
Единственный минус в том, что если посередине исполнения этой инструкции возникнет сигнал INTR, то ему придется подождать, пока инструкция закончит работу. Учитывая, что там может быть 65535 итерации, то ждать придется 262140 тактов. Это надо учитывать при разработке программ, которые юзают INTR. Но и еще мне тоже надо доработать контроллер прерываний, чтобы не было такой ситуации, чтобы они были упущены, а то это нехорошо. Контроллер прерываний надо сделать внешний для этого.

А еще сделал чтобы STOSx выполнялся 1Т = 1 байт, с такой скоростью теперь пишется. Для LODSx вообще будет выполняться за 4-5Т всегда, вне зависимости от REP, поскольку имеет смысл читать только последние 1-2 байта из общей выборки.
Таким образом, я переделаю все строковые инструкции.
09 окт 2024 Ср
Программирование на 86-м для Марсохода2
У меня, как я и говорил ранее, есть большая мечта, это создать программы-демки для собственного 8086 для Марсохода2, который обладает небольшим количеством памяти, а именно всего лишь 46Кб. Для этого я придумал следующую идею. Сделать двойную буферизацию (две экранные страницы) в областях памяти #A0000-#BFFFF. При записи в адрес на самом деле будет писаться 2 младших бита, что дает 4 цвета - черный, синий, зеленый или красный. Цвета можно менять через перепрограммирование DAC через порты 968 и 969.
Итого, для программ и данных остается 14Кб памяти. Первые 256 байт — они зарезервированы под некоторое подобие биоса, то есть там реализованы таймер, клава, сервисные прерывания для видео и клавы, и так далее. Всего лишь 256 байт! Вывод шрифта будет программный, можно использовать как 512 байт для этого, так и 1024 байт, в зависимости от того какая будет задача, имеется только графический режим.
Памяти на чипе мало, так что придется делать очень небольшие программки, но это не страшно. Я не собираюсь делать что-то крутое, мне достаточно будет просто вращать трехмерный куб и на этом успокоить свою душу. Особо целей больше нет никаких...
А может и не надо мне двойной буферизации. И так места в памяти нет, лучше использовать 16 цветов вместо 4. Маловато цветов как-то, маловато. Если юзать 16, то будет 32К тоже, но зато 16 цветов! Может, эмулятор винды получится сделать. А может, и не получится. Кто его знает.
Еще есть одна интересная мысль по поводу игры. Можно сделать небольшую игру про Лиса, который просто бегает по платформам и собирает фрукты, овощи, и ему за это дают монетки в качестве награды. Сюжета делать не буду.
Итого, для программ и данных остается 14Кб памяти. Первые 256 байт — они зарезервированы под некоторое подобие биоса, то есть там реализованы таймер, клава, сервисные прерывания для видео и клавы, и так далее. Всего лишь 256 байт! Вывод шрифта будет программный, можно использовать как 512 байт для этого, так и 1024 байт, в зависимости от того какая будет задача, имеется только графический режим.
Памяти на чипе мало, так что придется делать очень небольшие программки, но это не страшно. Я не собираюсь делать что-то крутое, мне достаточно будет просто вращать трехмерный куб и на этом успокоить свою душу. Особо целей больше нет никаких...
А может и не надо мне двойной буферизации. И так места в памяти нет, лучше использовать 16 цветов вместо 4. Маловато цветов как-то, маловато. Если юзать 16, то будет 32К тоже, но зато 16 цветов! Может, эмулятор винды получится сделать. А может, и не получится. Кто его знает.
Еще есть одна интересная мысль по поводу игры. Можно сделать небольшую игру про Лиса, который просто бегает по платформам и собирает фрукты, овощи, и ему за это дают монетки в качестве награды. Сюжета делать не буду.
08 окт 2024 Вт
Мне надоело переписывать с нуля
§ Предпринимаемость
У меня есть код, который называется процессор 8088, и я его уже миллион раз сделал, так что у меня есть одна простая идея, которая заключается в том, чтобы взять свой код и просто сделать его на Марсоходе-2, и всё. Надо будет доработать код, а не переделать.
Тогда вот что я предприму. Я просто обновлю код 16-битного процессора и сделаю для него простую демосценку, чтобы было. Пока что так. А какую демосценку я сделаю? Конечно же, вращение кубов, куда без них. Я сделаю запись трехмерного куда так, чтобы его мне хватило надолго.
Итак, можно проработать несколько вариантов. Известно что на Марсоходе-2 всего 46 Кб памяти. Если сделать 320 на 200, то можно будет располагать 32КБ памяти для 16 цветов или 16Кб для 4х цветов. Так как я хочу сделать цветное изображение, то 4 цвета тоже сойдет для двойной буферизации. Так что, останется 14 Кб для программной памяти. Интересно. Надо делать.
§ Куб: гиперпуп
Буду делать вращение куба на своем процессоре. Итак, у меня есть 16x2=32K памяти для хранения 4 цветов. Куб будет вращаться вокруг по 3м осям, как это делал старый добрый DirectX куб и рендерится с помощью обычных треугольников без использования буфера глубины. Это хочу сделать для демонстрации возможности ассемблерной программы, конечно же.
Видео область та же, A0000h-AFFFFh, то есть, писаться будет как обычно для видеоразрешения 320 на 200, но количество цветов не 256, а всего лишь 4. Мне просто хочется сделать 3Д хотя бы раз нормально.
У меня есть код, который называется процессор 8088, и я его уже миллион раз сделал, так что у меня есть одна простая идея, которая заключается в том, чтобы взять свой код и просто сделать его на Марсоходе-2, и всё. Надо будет доработать код, а не переделать.
Тогда вот что я предприму. Я просто обновлю код 16-битного процессора и сделаю для него простую демосценку, чтобы было. Пока что так. А какую демосценку я сделаю? Конечно же, вращение кубов, куда без них. Я сделаю запись трехмерного куда так, чтобы его мне хватило надолго.
Итак, можно проработать несколько вариантов. Известно что на Марсоходе-2 всего 46 Кб памяти. Если сделать 320 на 200, то можно будет располагать 32КБ памяти для 16 цветов или 16Кб для 4х цветов. Так как я хочу сделать цветное изображение, то 4 цвета тоже сойдет для двойной буферизации. Так что, останется 14 Кб для программной памяти. Интересно. Надо делать.
§ Куб: гиперпуп
Буду делать вращение куба на своем процессоре. Итак, у меня есть 16x2=32K памяти для хранения 4 цветов. Куб будет вращаться вокруг по 3м осям, как это делал старый добрый DirectX куб и рендерится с помощью обычных треугольников без использования буфера глубины. Это хочу сделать для демонстрации возможности ассемблерной программы, конечно же.
Видео область та же, A0000h-AFFFFh, то есть, писаться будет как обычно для видеоразрешения 320 на 200, но количество цветов не 256, а всего лишь 4. Мне просто хочется сделать 3Д хотя бы раз нормально.
07 окт 2024 Пн
Блог чёкнутого Лиса
Есть такая привычка у меня, писать программы снова и снова, снова и снова, снова и снова, и каждый раз они начинаются как обычно:
Хочу его сделать для OMDAZZ EPC4 на 10К элементов, чтобы было. А там как пойдет. В общем и целом, план такой. Есть система регистров [ax, bx, cx, dx, sp, bp, si, di] и этих регистров на самом деле, всего лишь 8. Есть и другие регистры, сегментные [es, cs, ds, ss] и специальные [flags, ip]. Они тоже являются регистрами, но доступ к ним другого характера.
Как и обычно, процессор мне надо сделать именно простой, напоминающий 8088, потому что он простой. На этот раз я хочу попробовать вариант сделать не как раньше делал, через сначала считывание опкода, префиксов, а вот попробовать сделать считывание опкода и выполнение его. Пока не придумал как это будет точно, но посмотрим по ходу дела, как говорится. Посмотрим... Например, можно сделать сохранение регистров на негативном CLK, почему бы и нет, спектрум так вот смог сделать.
110 PRINT "HELLO WORLD! "; 220 GOTO 10И это классно, потому что мне нравится не вылазить с песочницы и делать одно и тоже годами, такова моя судьба. Теперь вот моя идея заключается в том, чтобы писать в блог все что я могу придумать по поводу того, что такое 8088, который является моим любимым процессором и который делаю годами и никак сделать не могу, потому что лень заела. Не знаю как бы его сделать, но начну.
Хочу его сделать для OMDAZZ EPC4 на 10К элементов, чтобы было. А там как пойдет. В общем и целом, план такой. Есть система регистров [ax, bx, cx, dx, sp, bp, si, di] и этих регистров на самом деле, всего лишь 8. Есть и другие регистры, сегментные [es, cs, ds, ss] и специальные [flags, ip]. Они тоже являются регистрами, но доступ к ним другого характера.
Как и обычно, процессор мне надо сделать именно простой, напоминающий 8088, потому что он простой. На этот раз я хочу попробовать вариант сделать не как раньше делал, через сначала считывание опкода, префиксов, а вот попробовать сделать считывание опкода и выполнение его. Пока не придумал как это будет точно, но посмотрим по ходу дела, как говорится. Посмотрим... Например, можно сделать сохранение регистров на негативном CLK, почему бы и нет, спектрум так вот смог сделать.
1// ЛИСНЫЙ ПРОЦЕССОР 8088 2module fox86 3( 4 input clock, // Тактовая частота 25 5 input reset_n, // Сброс процессора 6 input ce, // Разрешение работы процессора 7 output [19:0] address, // Адрес 1Мб 8 input [ 7:0] in, // Входящие 9 output reg [ 7:0] out, // Исходящие 10 output reg we // Разрешение на запись 11); 12endmoduleТак выглядят процессоры, которые создаются лисами. Стандарт. Теперь переходим к разработке системы. Обычно я делаю сначала считывание префиксов, после идет разбор байта modrm, считываются данные операндов из регистров или памяти, потом выполняются и записываются обратно. Это тоже стандартная схема работы. Лучше я пока придумать не смог.
<< Ранние записи |
Поздние записи >>